Dispense 2015 PDF

Corso di Laurea Magistrale in Ingegneria Biomedica
Universitá degli Studi “Federico II” di Napoli
Analisi avanzata di segnali biomedici per applicazioni cliniche

a.a. 2015-2016 (ver. 22102015)
A cura di
Prof. Mario Sansone
Ing. Roberta Fusco
Indice
I Introduzione ai modelli in fisiologia 3
1 Modelli per la cinetica dei traccianti 5

1.1 Definizione delle quantitá fondamentali . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Tempo di transito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Volume di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Indicator Dilution Theory (IDT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Alcune questioni sulla funzione AIF . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Modelli compartimentali deterministici . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 Compartimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Tracciante e tracciato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.3 Equazioni del tracciato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.4 Equazioni del tracciante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.5 Soluzione delle equazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.6 Tempi di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Modelli compartimentali stocastici . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Evoluzione delle probabilitá di transizione . . . . . . . . . . . . . . . . . . . . 17
1.5.2 Distribuzione dei tempi di transito per modelli stocastici . . . . . . . . . . . . 17
1.5.3 Tempi di transito medi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Identificabilitá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7 Modelli a parametri distribuiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7.1 Modello di Bassingthwaighte . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7.2 Modello generale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7.3 Tissue homogeneity model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8 Un esempio concreto: DCE-MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8.1 Analisi qualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8.2 Analisi semiquantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.3 Analisi quantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.9 Stima dei parametri cinetici mediante algoritmi non iterativi . . . . . . . . . . . . . 35
1.9.1 Algoritmo di Horsfield e Morgan . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.9.2 Algoritmo di Murase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
i
INDICE
1.10 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.10.1 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.10.2 Esempio: modello a due compartimenti . . . . . . . . . . . . . . . . . . . . . 41
1.10.3 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.10.4 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.10.5 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.10.6 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.10.7 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.10.8 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2 Modello del segnale elettromiografico (EMG) 47

2.1 Singola unitá motoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.1.1 Esempio in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2 Insieme di unitá motorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3 Modello della Heart Rate Variability (HRV) 57

3.1 Modello Integral Pulse Frequency Modulation (IPFM) . . . . . . . . . . . . . . . . . 57
3.1.1 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Poincare plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2.1 Esempio in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3 Rilevazione dei complessi QRS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 Errori nella determinazione della posizione del picco R . . . . . . . . . . . . . . . . . 67
3.4.1 Interpolazione mediante DFT . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5 Smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1 Filtro di Savitzky-Golay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4 Modello per Magnetic Resonance Spectroscopic Imaging 71

4.1 Modello del segnale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2 Singular Value Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3 Linear Prediction SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5 Stima dei parametri mediante regressione 77

5.1 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2 Ordinary Least Squares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3 Proprietá statistiche della soluzione OLS . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4 La trasformata di Fourier discreta come problema LS . . . . . . . . . . . . . . . . . . 79
5.5 Criteri di ottimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.6 Regressione Non Lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.7 Differenze rispetto alla stima nel caso non-lineare . . . . . . . . . . . . . . . . . . . . 82
5.8 Generalitá sulla ottimizzazione di funzioni . . . . . . . . . . . . . . . . . . . . . . . . 82
Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 ii

A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
INDICE
5.9 Algoritmo di Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.10 Algoritmo di Gauss-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.11 Algoritmo di Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.12 Algoritmo VARiable PROjection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.13 Criteri per valutare la bontá di uno stimatore . . . . . . . . . . . . . . . . . . . . . . 86
5.14 Un approccio geometrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.15 Misure di non linearitá: Curvatura Relativa . . . . . . . . . . . . . . . . . . . . . . . 88
5.15.1 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.16 Funzioni di costo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.17 Scelta dell’ordine del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.17.1 Criterio di Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.18 Esempi ed esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.18.1 Esempio: uso dell’algoritmo di Levenberg-Marquardt . . . . . . . . . . . . . . 95
5.18.2 Esercizio: implementazione del metodo VARPRO . . . . . . . . . . . . . . . . 96
5.18.3 Esempio: applicazione del teroema di Cramer-Rao ad una variabile gaussiana 96
5.18.4 Esercizio: Cramer-Rao per variabile gaussiana con due parametri . . . . . . . 97
5.18.5 Esempio: metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.18.6 Esempio: applicazione del teorema di Cramer-Rao nel caso di modello non-
lineare con rumore gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.18.7 Esempio: applicazione del metodo Monte Carlo . . . . . . . . . . . . . . . . . 100
II Introduzione all’uso di tecniche di Pattern Recognition per modelli

fisiologici 105
6 Introduzione al pattern recognition 107

6.1 Il problema del pattern recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.2 Principi della classificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.3 Concetti di base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.3.1 Acquisizione dei dati e preprocessing . . . . . . . . . . . . . . . . . . . . . . . 108
6.3.2 Rappresentazione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.3.3 Decision making . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.3.4 Criteri di separabilitá tra classi . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.3.5 Feature selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.3.6 Feature extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.3.7 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.3.8 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.3.9 Prestazioni del classificatore . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.4 Esempi ed esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.4.1 Esempio: stima a massima verosimiglianza dei parametri di distribuzioni
gaussiane multivariate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 iii

INDICE
6.4.2 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
7 Principal component Analysis 117

7.1 Proprietà delle componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7.2 PCA di un campione di osservazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.3 Approccio geometrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.4 Decomposizione in valori singolari . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.5 Trasformazione Karhunen-Loéve (KLT) . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.6 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
8 Independent Component Analysis 135

8.1 Il problema del cocktail party . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.2 Concetti preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.2.1 Variabili congiuntamente gaussiane . . . . . . . . . . . . . . . . . . . . . . . . 135
8.2.2 Non Gaussianitá e kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
8.2.3 Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
8.2.4 Sbiancamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.3 ICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.3.1 Centraggio dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.3.2 Lo sbiancamento dei dati è solo una metà di ICA . . . . . . . . . . . . . . . . 139
8.3.3 Perchè le variabili gaussiane sono vietate . . . . . . . . . . . . . . . . . . . . . 139
8.3.4 L’indipendenza equivale alla non gaussianità . . . . . . . . . . . . . . . . . . 139
8.3.5 Implementazione dell’ICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.3.6 Misura della non gaussianità mediante kurtosis . . . . . . . . . . . . . . . . . 140
8.3.7 Misura della non gaussianità mediante negentropia . . . . . . . . . . . . . . . 140
8.4 Implementazioni disponibili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
8.5 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
9 Clustering o unsupervised learning 145

9.1 L’algoritmo Expectation-Maximization . . . . . . . . . . . . . . . . . . . . . . . . . . 145
9.2 Gaussian Mixture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9.2.1 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
9.3 L’algoritmo k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
III Introduzione alle tecniche per il trattamento della non staziona-

rietá per segnali fisiologici 153
10 Analisi della non stazionarietá dei segnali biomedici 155

10.1 Generalitá sui segnali non stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
10.2 Metodi per testare la non stazionarietá . . . . . . . . . . . . . . . . . . . . . . . . . . 157
10.2.1 Runs test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 iv

INDICE
10.2.2 Reverse arrangement test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
11 Analisi tempo-frequenza 163

11.1 Short Time Fourier Transform (STFT) . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11.2 Generalised Short Time Fourier Transform (GSTFT) . . . . . . . . . . . . . . . . . . 164
11.3 Wigner-Ville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
11.4 Atomi di Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
12 Wavelet 167
12.1 Continuous Wavelet Transform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12.2 Discrete Wavelet Transform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
12.3 Analisi Multirisoluzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
12.4 Banco di Filtri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
12.5 Applicazioni in campo biomedico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
IV Appendici 179
A Notazioni e richiami 181

A.1 Notazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
A.2 Notazioni per il calcolo differenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
A.3 Metodo dei moltiplicatori di Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . 183
A.4 Richiami su probabilitá e processi aleatori . . . . . . . . . . . . . . . . . . . . . . . . 184
A.5 Probabilitá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
A.6 Caratterizzazione di processi aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
A.7 Segnale e rumore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
A.8 Processi gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
A.9 Proprietá dei processi stazionari in senso lato . . . . . . . . . . . . . . . . . . . . . . 186
A.10 Matrice di autocorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
A.11 Stima delle principali quantitá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
A.12 Filtraggio di segnali aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
A.13 Il processo di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
A.13.1 Esempio in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
B Stima spettrale per applicazioni biomediche - Metodi non parametrici 195

B.1 Metodi non parametrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
B.1.1 Periodogramma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
B.1.2 Periodogramma modificato . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
B.1.3 Metodo di Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
B.1.4 Metodo di Welch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
B.1.5 Metodo di Blackman-Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 v

INDICE
B.1.6 Stima dello spettro a minima varianza . . . . . . . . . . . . . . . . . . . . . . 201

B.1.7 Stima dello spettro a massima entropia . . . . . . . . . . . . . . . . . . . . . 203
B.1.8 Periodogramma di Lomb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
C Stima spettrale per applicazioni biomediche - Metodi parametrici 207

C.1 Modello autoregressivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
C.2 Stima dello spettro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
C.3 Predizione lineare in avanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
C.4 Metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
C.5 Metodo FBLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
C.5.1 Selezione dell’ordine del modello . . . . . . . . . . . . . . . . . . . . . . . . . 212
C.6 Stima di frequenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
C.6.1 Caso di una sinusoide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
C.6.2 Caso di p sinusoidi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
C.6.3 Metodo di Pisarenko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
C.6.4 MUSIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
D Filtri adattativi per applicazioni biomediche 217

D.1 Filtro di Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
D.1.1 Il principio di ortogonalitá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
D.1.2 Comportamento del filtro in presenza di rumore . . . . . . . . . . . . . . . . 219
D.1.3 Superficie di errore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
D.1.4 Legame con il modello autoregressivo e la predizione lineare . . . . . . . . . . 220
D.2 L’algoritmo Steepest Descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
D.3 Filtro LMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
D.4 Filtro Recursive Least-Squares o RLS . . . . . . . . . . . . . . . . . . . . . . . . . . 223
D.5 Adaptive Noise Canceling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 vi

Introduzione ed obiettivi corso
Il paradigma generalmente accettato della scienza attuale si fonda sul concetto di modello di un
sistema fisico/fisiologico e sulla possibilitá di effettuare previsioni sulla base del modello. Il modello
é una descrizione matematica, verbale, grafica etc.. di una realtá fisica/fisiologica. I modelli mate-
matici hanno il vantaggio di poter essere manipolati efficientemente per poter effettuare previsioni.
Spesso i modelli matematici si presentano sotto forma di equazioni differenziali.
Esaminiamo la figura 1 . Un sistema fisiologico presenta dei parametri ignoti e dei disturbi
esterni che ne influenzano il comportamento in risposta ad una stimolazione da ingressi esercitati
dallo sperimentatore. il rumore di misura corrompe i dati misurati. Lo sperimentatore riassume le
sue conoscenze a priori in due modelli possibili e vuole stabilire quale sia la ipotesi piú attendibile.
Per fare ció deve esercitare degli ingressi controllati sul sistema e deve prelevare dei dati sulle
corrispondenti risposte. I dati misurati sono confrontati con le risposte dei modelli matematici per
stimare i loro rispettivi parametri. Infine i vari modelli sono confrontati tra loro per stabilire quale
sia il modello ottimo. Una volta che il modello ottima sia stato selezionato, potrá essere usato per
fare previsioni (progettazione).
Facciamo un esempio in un ambito familiare: il flusso di corrente attraverso un resistore. Lo
sperimentatore (immaginiamo che sia ignaro della legge di Ohm !!!) vuole provare un modello del
tipo ∆V = R·I 2 ed un modello del tipo ∆V = log(R·I 2 ) che lega la tensione applicata (ingresso) alla
corrente (uscita) del sistema. Entrambi i modelli hanno un solo parametro R. Lo sperimentatore
applicherá una serie di ingressi (ad esempio ∆V = 1, 2, . . . , 10V e misurerá le uscite (ad es. le
correnti I = 3, 6, . . . , 30A. Mediante una procedura di stima (che sará ampiamente trattata nel
corso) valuta in entrambi i casi il parametro R. Mediante tecniche di validazione dei modelli (anche
queste trattate nel corso) potrá stabilire la precisione delle stime e la bontá complessiva dei modelli
rispetto alle misure effettuate. A questo punto potrá decidere quale dei due modelli descrive con
maggiore accuratezza il sistema nell’ambito delle condizioni in cui lo sperimentatore ha fatto le
misure. Inoltre potrá usare il modello per fare previsioni (ad es. se applico una tensione di 8 V
quale sará la corrente ?) e potrá progettare circuiti che contengano tale componente.
Mentre le procedure di stima e valutazione dei modelli sono state molto studiate e sono at-
tualmente disponibili una serire di tecniche che sono oggetto del corso, non é possibile purtroppo
formalizzare la fase di costruzione del modello che é invece una parte creativa della scienza e dell’in-
gegneria. Inoltre, anche l’ambito applicativo influenza la costruzione del modello dato che per ogni
sistema fisico/fisiologico é possibile mettere a punto modelli diversi, piú o meno accurati nell’ambito
di interesse.
Infine si puó osservare che possiamo dividere i modelli in due grandi tipologie: i modelli basati su
principi primi e i modelli fenomenologici. La prima categoria include quei modelli che si basano su
principi largamente accettati dalla scienza corrente (relazioni locali tra forza e accelerazione etc...):
questi modelli tentano una descrizione del sistema complesso a partire dai suoi elementi costitutivi
semplici ad es. si puó tentare di costruire il modello di un tumore partendo dalle molecole delle
sostanze che lo compongono. I modelli fenomenologici sono invece delle descrizioni ’ispirate dai
dati’, nel senso che lo sperimentatore individua dei ’pattern’ all’interno delle misure e con questi
tenta di sviluppare un modello (nell’esempio del resistore, se lo sperimentatore esaminasse i dati
misurati, potrebbe scoprire che tensione corrente sono allineati lungo una retta e quindi tentare un
1
INDICE
modello fenomenologico che ipotizza una relazione lineare tra le due grandezze ..... ). Ovviamente
il modello fenomenologico non ’spiega’ il sistema di interesse ma ne da una descrizione sufficiente
per gli scopi per cui il modello é pensato.
Figura 1: Confronto e validazione di piú modelli.
Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 2

Parte I
Introduzione ai modelli in fisiologia
3
Capitolo 1
Modelli per la cinetica dei

traccianti
E’ di interesse determinare il comportamento dinamico (cinetica) e spazio-temporale (andamento

della concentrazione e del flusso nel tempo e i percorsi di distribuzione nei vari distretti corporei)
di specifiche sostanze (il sangue stesso o farmaci) all’interno del corpo umano. La quantificazione
della cinetica dei traccianti (cioé la misura di quantitá come la concentrazione vs tempo) all’interno
del corpo umano é uno strumento ampiamente usato per la diagnosi e la valutazione di terapie (ad
es. con farmaci antitumorali o anti-angiogenici) e per lo sviluppo di nuovi farmaci.
A tale scopo sono stati messi a punto dei traccianti cioé delle molecole che seguono lo stesso
flusso della sostanza che si vuole studiare ed al contempo sono rilevabili con opportune apparec-
chiature. Ad esempio nel caso della PET (Positron Emission Tomography) un tracciante molto
usato é il 18 FDG (FLuoro-Deossi-Glucosio) che segue lo stesso metabolismo del glucosio (ad es.
per lo studio del metabolismo dei tumori) ma possiede un isotopo radioattivo del Fluoro il cui
livello di emissione (radio-attivitá) puó essere rilevato con la PET. Un altro esempio é costituito
dal Gd-DTPA (Gadolinio-Diethylene-Triamine-Pentaacetic-Acid) che é visibile in MRI (Magnetic
Resonance Imaging): segue il flusso del sangue dal letto vascolare al liquido interstiziale e con esso
é possibile studiare la microvascolarizzazione dei tumori.
Gli approcci possibili per lo studio della cinetica dei traccianti sono due. Il primo consiste nel
prelevare campioni di sangue all’ingresso e all’uscita dell’organo che si vuole studiare: l’analisi dei
campioni consente di rilevare la concentrazione dei traccianti e quindi, con l’adozione di opportune
ipotesi sul comportamento della vascolarizzazione dell’organo di interesse, di stimare le grandezze
di interesse. Nel secondo approccio, reso possibile dalle moderne apparecchiature di imaging, la
concentrazione del tracciante puó essere misurata all’interno dell’organo stesso (o meglio all’interno
dei voxel che lo costituiscono): anche in questo caso le grandezze di interesse possono essere stimate
aggiungendo opportune ipotesi sul comportamento della vascolarizzazione dell’organo di interesse.
Le ipotesi aggiuntive costituiscono dei modelli per la cinetica dei traccianti all’interno del corpo
umano. I modelli che sono stati maggiormente studiati sono classificabili in tre tipologie: Indicator
Dilution Theory; Modelli Compartimentali; Modelli a parametri distribuiti. Le varie tipologie
partono da presupposti differenti ma raggiungono risultati simili.
1.1 Definizione delle quantitá fondamentali

Nel seguito si useranno i seguenti termini:
tempo (di transito) (T) é il tempo impiegato da un tracciante per attraversare un organo, si
misura tipicamente in minuti dato che i fenomeni che si considerano hanno una scala temporale
5
Capitolo 1. Modelli per la cinetica dei traccianti
di diversi minuti;
massa (M) si tratta della quantitá di tracciante, in genere si puó misurare in mg, mmol, MBq
(per traccianti radioattivi);
volume di distribuzione (VD ) é il volume entro cui i traccianti si distribuiscono, si misura in

ml;
flusso di massa (J) o portata di massa, é la quantitá di materia che si muove verso/da un organo
si misura in mg/min, mmol/min, MBq/min;
flusso di volume (F) o semplicemente flusso é il volume che si muove, si misura in ml/min;
concentrazione (C) quantitd́i materia nell’unità di volume, si misura in mg/ml, mmol/mlm

MBq/ml.
Inoltre si useranno spesso le seguenti equazioni o simili:
equazione di tempo di transito F T = VD
equazione di diluzione C = M/VD
equazione di bilancio di massa dM/dt = Jinput − Joutput
In genere si analizzano le unitá di misura dei due membri di un equazione per verificarne la
consistenza.
Discutiamo brevemente alcune grandezze nel dettaglio
1.1.1 Tempo di transito
Poiché ogni molecola di tracciante impiega un tempo differente per attraversare l’organo di interesse,
i tempi di attraversamento costituiscono una distribuzione di cui puó essere valutato il valor medio.
Chiamando F il flusso misurato in uscita dall’organo, e VD il volume entro cui il tracciante si é
distribuito (entrambi costanti nel periodo di misura) allora risulta valida l’equazione del tempo di
transito su riportata.
T puó esser misurato direttamente rilevando la presenza di tracciante all’interno dell’organo
(rilevazione del residuo, ad es. in PET, DCE-MRI) oppure prelevando campioni di sangue all’uscita
dell’organo (rilevazione del flusso di uscita).
L’equazione del tempo di transito consente ad esempio di trovare F se il VD é noto, come ad
esempio nell’analisi del flusso cerebrale.
1.1.2 Volume di distribuzione
VD puó essere misurato in condizioni ’statiche’ usando la equazione di diluzione: se il tracciante

si distribuisce uniformemente all’interno del VD (ad es. il volume del sangue) allora misurando la
concentrazione (ad es. con PET), e conoscendo la quantitá di tracciante introdotta, si puó ottenere
VD .
Se invece le condizini statiche non sono possibili, perché il tracciante abbandona il volume che
vogliamo misurare prima che la condizione di miscelazione uniforma sia raggiunta, allora possiamo
agire usando l’equazione del tempo di transito. In tal caso bisogna misurare il flusso.

1.2. INDICATOR DILUTION THEORY (IDT)
1.2 Indicator Dilution Theory (IDT)

Consideriamo un organo con un unico punto di ingresso ed un unico punto di uscita. Supponiamo
che non vi sia ri-circolazione: cioé quando il fluido esce non rientra. Supponiamo che il flusso
attraverso l’organo ed il volume VT 1 dell’organo siano costanti nel periodo di misura. Il volume
costante implica che ogni unitá di fluido che entra nel sistema deve poi uscire dal sistema.
Figura 1.1: Relazione tra il tracciante in ingresso ad un organo ed la concentrazione di tracciante

in uscita.
Una ulteriore ipotesi é la stazionarietá. Per chiarire questo concetto supponiamo che un trac-
ciante (indicatore) sia iniettato ad un certo istante in un punto del letto vascolare: esso non puó
comparire istantaneamente in un altro punto di prelievo ma occorre un certo tempo affinché una
particella di tracciante transiti dal punto di iniezione al punto di prelievo (tempo di transito). Il
tempo di transito non é uguale per tutte le particelle. Esiste una distribuzione di tempi di transi-
to. La stazionarietá implica che la distribuzione dei tempi di transito deve essere costante durante
l’esperimento. Una ulteriore ipotesi é che le particelle di tracciante abbiano la stessa distribuzio-
ne dei tempi di transito delle particelle di fluido nativo, cioé che tracciante e fluido nativo siano
perfettamente miscelati e indistinguibili.
Supponiamo ora che una certa quantitá di tracciante mi (misurata in [mmol]) sia iniettata
all’ingresso dell’organo all’istante t = 0 (per i simboli delle varie grandezze fare riferimento alla
tabella 1.3). Misuriamo poi la concentrazione del tracciante in funzione del tempo CV (t) [mmol/ml]
all’uscita dell’organo. La quantitá di tracciante dm che lascia l’organo tra gli istanti di tempo t e
t + dt é data da dm(t) = CV (t) · F · dt dove F é il flusso in [ml/min], per cui F · dt é il volume di
liquido che lascia l’organo nell’intervallo di tempo considerato (fig. 1.1).
Poiché tutto il tracciante deve lasciare l’organo prima o poi, allora si deve avere:
Z ∞ Z ∞
mi = dm(t) = CV (t) · F · dt.
0 0
da cui si ricava il flusso:

mi
F = R∞ .
0
CV (t)dt
Indichiamo con h(t) la frazione di tracciante, rispetto al totale, che [nell’unitá di tempo] lascia
l’organo all’istante t: quindi h(t) coincide con la frazione di particelle di tracciante che lasciano
l’organo [nell’unitá di tempo] all’istante t e quindi con la frazione di particelle che hanno avuto un
tempo di transito pari proprio a t dato che l’istante di iniezione é 0: pertanto h(t) é proprio la
distribuzione dei tempi di transito che é stata citata prima (dato che tracciante e tracciato sono
indistinguibili).
Si ha:
F · CV (t) CV (t)
h(t) = = R∞
mi 0
CV (t)dt
1 Il volume V comprende sia lo spazio in cui il tracciante si distribuisce V
T D sia le regioni dove il tracciante non
puó arrivare quali ad es. le regioni intracellulari

infatti F · CV (t) é la quantitá di tracciante che lascia l’organo [nell’unitá di tempo] all’istante t (le
dimensioni fisiche di h(t) sono [min−1 ]).
La funzione h(t) puó essere vista anche come la risposta impulsiva all’iniezione istantanea di una
quantitá mi di tracciante. Per una iniezione di tipo generale (non impulsiva) si fa riferimento alla
funzione CA (t) (Arterial Input Function o AIF, funzione di input arterioso). Sia mi (t) = F · CA (t)
(dimensioni fisiche [mmol/min]) la quantitá di tracciante iniettata [nell’unitá di tempo] al tempo
t. Consideriamo la quantitá di tracciante introdotta in un intervallo (t − s, t − s + ds) dove t − s
é un istante che precede t, questa quantitá é data da mi (t − s)ds. La frazione di questa quantitá
eliminata [nell’unitá di tempo] al tempo t é h(s) (infatti h(s) é la frazione di particelle che hanno
un tempo di transito pari ad s e quindi se le particelle sono state introdotte all’istante t − s allora
all’istante t sará trascorso un tempo s ). Quindi, al tempo t la frazione (rispetto al totale introdotto
all’istante t − s) di tracciante espulsa [nell’unitá di tempo] é h(s)mi (t − s)ds. Per cui per ottenere
l’ammontare totale di tracciante espulso [nell’unitá di tempo] all’istante t (che é dato da F · CV (t))
bisogna sommare tutti i contributi per s = 0, . . . , t:
Z t Z t
F · CV (t) = h(s)mi (t − s)ds = h(s)F · CA (t − s)ds = F · h(t) ⊗ CA (t) (1.1)
0 0
dove si è tenuto conto che, se f (t) e g(t) sono definite per t > 0:
Z ∞ Z t
f (t) ⊗ g(t) = f (τ )g(t − τ )dτ = f (τ )g(t − τ )dτ
−∞ 0
Essendo h(t) la distribuzione di frequenza dei tempi di transito (il tempo di transito t occorre
con frequenza h(t)), ha senso calcolare il suo valore medio chiamato tempo medio di transito (Mean
Transit Time, MTT):
Z ∞
MTT = th(t)dt
0
Con le metodiche di imaging (MRI,CT,PET) non é possibile misurare la concentrazione venosa

CV all’uscita dall’organo di interesse, ma si puó misurare la concentrazione media all’interno dello
spazio di distribuzione del tessuto CD (t) e la AIF CA . Pertanto, usando la legge di Fick (che esprime
la legge di conservazione della massa) é necessario trovare una relazione tra CA ,CV e CD . Infatti,
detta M la massa di tracciante all’interno dell’organo di interesse all’istante t, allora:
dM (t) dVD CD (t) dCD (t)

= = VD = F [CA (t) − CV (t)] (1.2)
dt dt dt
essendo F · CV (t) la quantitá di tracciante che lascia l’organo nell’unitá di tempo per via venosa e
F · CA (t) la quantitá di tracciante che entra nell’organo nell’unitá di tempo per via arteriosa. Dalle
equazioni (1.2) e (1.1) si ricava:
Z t Z t
F F
CD (t) = [CA (τ ) − CV (τ )]dτ = [CA (τ ) − h(τ ) ⊗ CA (τ )]dτ
VD 0 VD 0
e quindi2 :
2 la eq. 1.3 si ricava tenendo presente le seguenti relazioni (dove f (t) e g(t) sono definite per t > 0):
Z t
f (t) ⊗ σ(t) = f (τ )dτ
0
Z t
f (τ ) ⊗ g(τ )dτ = [f (t) ⊗ g(t)] ⊗ σ(t) =
0
Z t
= f (t) ⊗ [g(t) ⊗ σ(t)] = f (t) ⊗ g(τ )dτ
0
Rt h i
− f (τ ) ⊗ g(τ )]dτ = f (t) ⊗ σ(t) − 0t g(τ )dτ
R
dove σ(t) é la funzione gradino; ed inoltre: 0 [f (τ )

1.2. INDICATOR DILUTION THEORY (IDT)
Z t
F F
CD (t) = CA (t) ⊗ [σ(t) − h(τ )dτ ] = CA (t) ⊗ R(t) (1.3)
VD 0 VD
Rt
dove R(t) é chiamata la funzione residuo. Tenendo presente che 0 h(τ )dτ rappresenta la frazione
di tracciante che risulta escreta fino al tempo t, R(t) rappresenta la frazione di tracciante che al
tempo t si trova all’interno dell’organo di interesse.
Considerando la concentrazione di tracciante nel tessuto CT (t):
F
CT (t) = fD CD (t) = R(t) ⊗ CA (t) = QT (t) ⊗ CA (t)
VT
dove QT (t) é chiamata la risposta impulsiva del tessuto.

Esiste inoltre la seguente relazione tra la funzione residuo e la distribuzione dei tempi di transito
(ottenuta integrando per parti la espressione della funzione residuo):
Z ∞ Z ∞ Z ∞
dR(t)
R(t)dt = [tR(t)]∞ 0 − t dt = th(t)dt
0 0 dt 0
Figura 1.2: Relazione tra volume di distribuzione e flusso.
E’ possibile calcolare il volume di distribuzione VD facendo le seguenti considerazioni nel caso

di iniezione impulsiva di tracciante. F é il flusso cioé il tasso [ml/min] con cui le particelle entrano
e lasciano l’organo; h(t)dt é la frazione di particelle che, entrate nell’organo al tempo 0 lasciano
l’organo nell’intervallo t, t + dt; il volume di distribuzione del tracciante puó essere pensato come
composto da tutte le tracce percorse dalle particelle nel loro viaggio dall’ingresso all’uscita: detta L
la lunghezza della traccia percorsa dalla i-sima particella dVi = LdAi dove dAi è l’area del tubicino
percorso dalla particella; poiché L = v̄t dove v̄ é la velocitá (media) e t il tempo impiegato per
percorrerlo si ha LdAi = tv̄dAi . Considerando oraP il volumeP totale percorso
P da tutte le particelle
aventi il medesimo tempo di transito si ha: dV = i dVi = i tv̄dAi = i tdF P i = tF h(t)dt dove
v̄dAi = dFi é la frazione di flusso che compete alla i-sima particella , mentre i v̄dAi = F h(t)dt é

la frazione di flusso che esce all’istante t; in definitiva dV = tF h(t)dt. La somma di tutti i volumi
dV fornisce il volume VD . Ció conduce al principio di Stewart-Hamilton:
Z ∞
VD = F th(t)dt = F · M T T
0
1.3 Alcune questioni sulla funzione AIF

Lo studio del comportamento cinetico di traccianti ha visto un ampio range di approcci suggeriti
da una serie di autori. Ci sono spesso significative differenze nelle assunzioni usate nell’applicazione
di ogni modello. La determinazione della funzione di input arterioso (AIF) per definire CA (t) è un
esempio di dove queste differenze frequentemente occorrono.
Un approccio spesso seguito in letteratura consiste nel misurare la AIF paziente per paziente.
Questo approccio dovrebbe essere in linea di principio il migliore perché consente di adattare il
modello sullo specifico paziente. Tuttavia il rumore di misura puó introdurre errori significativi
nella stima dei parametri. Questo é il motivo per cui in molti studi si adottano dei modelli anche
per le AIF (CA (t)).
In genere, il mezzo di contrasto viene iniettato per via endovenosa in una vena periferica e, dopo
un passaggio attraverso il sistema cardio-polmonare, si assume che esso sia ben miscelato con il
plasma sanguigno.
Tipicamente la concentrazione del plasma all’ingresso di un organo di interesse puø’ essere
rappresentata come la somma di N esponenziali decrescenti [?] (vedi fig. 1.3):
N
X
CA (t) = D ak exp(−mk t). (1.4)
k=1
dove D é la dose somministrata al paziente. In particolare Weinmann [?] ha ottenuto i seguenti

valori:
N = 2, a1 = 3.99 [kg/L] a2 = 4.78 [kg/L] m1 = 0.144 [min−1 ] m2 = 0.0111 [min−1 ] D = 0.1;
[mmol/kg di peso corporeo].
0.9
0.85
0.8
0.75
C (t) [mmol/L]
0.7
A
0.65
0.6
0.55
0.5
0 2 4 6 8 10
time [min]
Figura 1.3: Andamento nel tempo della funzione di input arterioso.

1.3. ALCUNE QUESTIONI SULLA FUNZIONE AIF
La modellazione con bi-esponenziale era sufficiente quando la velocitá di acquisizione della CD (t)
era piuttosto bassa. Le apparecchiature di CT o MRI moderne sono in grado di acquisire molti
volumi in un tempo ristretto, per cui sono state sviluppati modelli migliori per la AIF.
Uno di questi [71] consiste nell’usare una funzione gamma-variata (vedi fig. 1.4):
(
0 t ≤ t0
CA (t) = r −(t−t0 )/b
C0 (t − t0 ) e t ≥ t0
dove t0 é il Bolus Arrival Time (BAT) cioé il tempo impiegato dal bolo per arrivare alla regione di
interesse e di fatto diventa l’origine dei tempi; r e b sono costanti da determinare sperimentalmente
(ad es. in [72] sono riportati i valori trovati per gli adulti r = 3, b = 1.5 s ).
In linea di principio bisogna anche tenere conto della dispersione della CA dal punto di iniezione
attraverso i tessuti fino all’organo di interesse. Per cui la espressione della CA si modifica come
segue:
∗
CA (t) = CA (t) ⊗ H(t)
dove H(t) modella la dispersione attraverso i tessuti e richiede una specifica modellazione [?].
4.5
3.5
CA(t) [mmol/L]
2.5
1.5
0.5
0
0 5 10 15 20 25 30
time [s]
Figura 1.4: AIF Gamma variata.
Un ulteriore modello é quello proposto da Orton et al. [?] che approssima le misure effettuate
da Parker et al. [?] in cui la AIF è data dalla seguente espressione:
∗
CA (t) = cB (t) + cB (t) ⊗ G(t)
dove cB (t) é un termine chiamato bolus-function del tipo gamma-variato o bi-esponenziale (la
scala temporale di questo termine é dell’ordine di poche decine di secondi). Questo stesso termine
si somma ad un secondo termine dato dalla convoluzione con una bolus-transfer-function G(t) che
tiene conto del passaggio del bolo attraverso i tessuti: la scala temporale é dell’ordine di 10-20 minuti
ed in genere puó essere usata una funzione mono-esponenziale oppure del tipo gamma-variato con
r = 1 e b opportunamente scelto.
In definitiva l’approccio seguito nei diversi studi puó esser di tre tipi:
• si misura la AIF paziente per paziente e la si usa nel processo di deconvoluzione; questo
approccio sarebbe preferibile ma puó introdurre errori a causa del rumore di misura;

• si usa una AIF ’standard’ ricavata da una popolazione di riferimento (Weinmann, Parker):
questo approccio puó introdurre errori a causa della inadeguatezza dello standard rispetto
allo specifico paziente;
• si misura la AIF sullo specifico paziente e la si modella con uno dei modelli ricavando i
corrispondenti parametri (Weinmann, Orton): questo approccio puó beneficiare dell’effetto di
’smoothing’ dell’AIF misurata introdotto dal fitting del modello.
1.4 Modelli compartimentali deterministici

In questa sezione consideriamo il modello compartimentale ad M compartimenti: il concetto di
‘compartimento ’sarà definito con precisione; si chiariranno anche i concetti di tracciante e di
tracciato; si ricaveranno le equazioni che definiscono l’evoluzione della concentrazione di tracciante
all’interno dei compartimenti e si troverà la soluzione generale di tali equazioni.
1.4.1 Compartimento
Diremo che un volume é un compartimento se la sostanza in esso contenuta si distribuisce unifor-
memente (si dice che il compartimento è ben miscelato). I vari compartimenti interagiscono tra loro
scambiandosi materia.
Il concetto di compartimento non é legato al fatto che i vari compartimenti siano tra di loro
fisicamente separabili. Ad esempio, consideriamo la situazione in cui all’interno di uno stesso volume
siano presenti 4 sostanze chimiche A, B, C, D, e che esista una reazione chimica A + C B + D.
Se siamo interessati alla cinetica delle sostanze A e B potremo considerarle come compartimenti
separati che si scambiano materia.
1.4.2 Tracciante e tracciato

Nel contesto biomedico, in genere é interessante (ad es. per valutare la evoluzione di un farmaco
all’interno dell’organismo, oppure per determinare le permeabilità delle membrane, etc..) studiare
la cinetica di una certa sostanza attraverso i vari compartimenti in cui fluisce. Ció implica che si
deve essere in grado di misurare la quantità di sostanza all’interno dei vari compartimenti o almeno
in uno di essi.
In genere, si suppone che in condizioni stazionarie dell’organismo la quantità di sostanza presente
nei vari compartimenti non subisca variazioni. Pertanto per poter ricavare delle informazioni sulla
cinetica della sostanza in studio (tracciato) é necessario introdurre una piccola quantitá di sostanza
tracciante che segua esattamente lo stesso ciclo della sostanza tracciata (ad es. il FDG segue lo
stesso percorso del glucosio ed è rilevabile mediante PET, il Gd-DTPA segue il flusso del sangue
ed é misurabile mediante DCE-MRI). Il tracciante introdotto non sará in equilibrio e quindi sará
possibile misurarne la cinetica campionando i compartimenti accessibili in vari istanti di tempo.
Riassumendo le condizioni cui deve soddisfare il tracciante sono le seguenti:
• l’organismo non é in grado di distinguere tra tracciante e tracciato;

• la quantitá di tracciante aggiunto deve essere piccola per non alterare lo stato di equilibrio;
• il tracciante non é in equilibrio.
L’iniezione del tracciante in un compartimento puó avvenire con varie modalitá di cui le piú
usate sono:
• bolo: una quantitá di tracciante viene aggiunta istantaneamente al compartimento e si ha un

immediata distribuzione all’interno del compartimento

1.4. MODELLI COMPARTIMENTALI DETERMINISTICI
• tasso costante: il tracciante viene aggiunto con un tasso fissato
Se il bolo non si diffonde istantaneamente all’interno del compartimento (ovvero, in termini pra-
tici, la velocitá di diffusione all’interno del compartimento é minore della velocitá di sambio con gli
altri compartimenti) allora si sostituisce il compartimento in questione con due o piú compartimenti
all’interno dei quali si possa considerare valida l’ipotesi di diffusione istantanea del tracciante.
1.4.3 Equazioni del tracciato

Consideriamo un sistema costituito da M compartimenti. Con riferimento alla figura 1.5 denotiamo
con Qj (t) la quantitá di tracciato che é presente nel compartimento j all’istante t; con gjk (con
j 6= k) il tasso di trasferimento frazionale del tracciato dal compartimento k al compartimento
j (cioé la quantitá che fluisce nell’unitá di tempo divisa per l’ammontare di tracciato in k); con
rj0 il asso di trasferimento dall’ambiente verso il compartimento j. In genere gjk potrebbe di-
pendere da Qm (t) per m = 1 . . . M , oppure da altri parametri θ1 . . . θp quindi dovremmo scrivere
gjk = gjk (Q1 (t) . . . QM (t), θ1 . . . θp ). In particolare, noi considereremo modelli lineari cioé in cui il
tasso gjk é costante e non dipende né dal tempo né dalla quantitá di tracciato presente negli altri
compartimenti.
Figura 1.5: Modello compartimentale generale.
Per definizione, la quantitá di tracciato che fluisce dal compartimento k verso il compartimento
j nell’intervallo di tempo [t, t + dt] é gjk Qk (t)dt. Nell’ipotesi di M compartimenti potremo scrivere
l’equazione di bilancio di massa:
M
X M
X
dQj = gjk Qk (t)dt + rj0 (t)dt − gkj Qj (t)dt (1.5)
k=1,k6=j k=0,k6=j
dove il primo termine rappresenta l’ammontare di sostanza che fluisce nel compartimento j da tutti
gli altri; il secondo termine rappresenta il flusso dall’ambiente verso il compartimento j (l’indice 0
si usa per l’ambiente); il terzo termine rappresenta il flusso totale in uscita dal compartimento j.
dividendo per dt si ottiene:

M
X M
X
Q̇j = gjk Qk (t) + rj0 (t) − gkj Qj (t) (1.6)
k=1,k6=j k=0,k6=j
che puó essere scritta in termini matriciali:
Q̇ = AQ + r (1.7)
dove:
Q = [Q1 (t) . . . QM (t)]T (1.8)
r = [r10 (t) . . . rM 0 (t)]T (1.9)
 
a11 ... a1M
 .. .. .. 
A= . . .  (1.10)
aM 1 ... aM M
avendo posto:
M
X
ajj = − gkj (1.11)
k=0,k6=j
ajk = gjk (1.12)
Per ipotesi, il tracciato é in stato stazionario pertanto:
Q(t) = const ⇒ Q̇(t) = 0 = AQ(t) + r(t) (1.13)
1.4.4 Equazioni del tracciante

Consideriamo la iniezione di una piccola quantitá di tracciante nel compartimento j (tale da non
disturbare lo stato stazionario del tracciato). Indichiamo con qj (t) la quantitá di tracciante nel
compartimento j. Poiché il tracciante ed il tracciato seguono lo stesso percorso fisiologico (sono
indistinguibili) allora la equazione di bilancio di massa si modificherá come segue:
M
X M
X
Q̇j + q̇j = gjk (Qk (t) + qk (t)) + rj0 (t) + bj0 (t) − gkj (Qj (t) + qj (t)) (1.14)
k=1,k6=j k=0,k6=j
dove bj0 (t) é il tasso di iniezione del tracciante nel compartimento j. In forma matriciale si avrá:
Q̇ + q̇(t) = A(Q(t) + q(t)) + r(t) + b(t) (1.15)
Usando l’eq. (1.13) si ha :
q̇(t) = Aq(t) + b(t) (1.16)
da cui si vede che il tracciato segue la stessa equazione di bilancio di massa del tracciato.

1.4. MODELLI COMPARTIMENTALI DETERMINISTICI
1.4.5 Soluzione delle equazioni
La soluzione generale dell’equazione (1.16) é data dalla seguente espressione:
Z t
At
q(t) = e q(0) + eA(t−τ ) b(τ )dτ (1.17)
0
dove, come noto:
A2 t2 A3 t3
eAt = I + At + + + ... (1.18)
2! 3!
1.4.6 Tempi di distribuzione
Consideriamo un sistema costituito da n compartimenti. Sia Q(ρ, t) l’ammontare di tracciante

complessivamente contenuto nel sistema all’istante t distribuito tra i vari compartimenti in frazioni
ρ = (ρ1 , . . . , ρn ). Sia Q0 (ρ) l’ammontare introdotto all’istante t = 0. La quantitá che complessiva-
mente ha lasciato il sistema dall’istante iniziale fino all’istante t é Q0 (ρ) − Q(ρ, t). Si ha inoltre che
la quantitá di tracciante che lascia il sistema nel intervallo t, t + dt é data da:
X
Q0 (ρ)h(t)dt = k0j qj (t)dt (1.19)
j∈O
dove con h(t) abbiamo indicato la stessa quantitá usata nella teoria IDT (vedi 1.2) e k0j qj dt rap-
presenta la quantit’a che lasia il compartimento j e va nell’ambiente, mentre O é l’insieme degli
indici che denotano i compartimenti. Pertanto si ha:
1 X
h(t) = k0j qj (t) (1.20)
Q0 (ρ)
j∈O
Per un modello mono-compartimentale con coefficiente di outflow k si ha che: q(t) = q0 e−kt da

cui h(t) = ke−kt .
Figura 1.6: Catena lineare di n compartimenti con coefficiente frazinario k.
Per un modello a catena lineare come in figura 1.6 in cui vi sia un ingresso impulsivo solo al
primo compartimento all’isante t = 0, si ha la soluzione:
k n−1 tn−1 −kt

qn = e (1.21)
(n − 1)!
e quindi la distribuzione dei tempi di transito assume la forma:
k n tn−1 −kt
h(t) = e (1.22)
(n − 1)!
detta distribuzione di Erlang.

1.5 Modelli compartimentali stocastici

In generale il tracciante é un materiale particolato ed il trasferimento tra i compartimenti coinvolge
un numero intero di particelle. Pertanto un modello appropriato é un modello compartimentale sto-
castico in cui le variabili di stato sono aleatorie. Tuttavia se il numero di particelle é estremamente
grande allora il comportamento di un sistema stocastico particolato é praticamente indistinguibile
da quello di un sistema deterministico.
Definiamo le seguenti quantitá. Sia ni (t) il numero di particelle presente nel compartimento j
all’istante t. Chiaramente ni (t) assume valori interi ni = 0, 1, . . .. La distribuzione iniziale delle
particelle sia n(0) = [n0 (0), n1 (0), . . . , nM (0)] (il pedice 0 indica l’ambiente); e analoga significato
per n(t). Sia zj (t) il numero di particelle che sono presenti in j all’istante t e che sono provenute
dall’ambiente (compartimento 0); poniamo poi z(t) = [z1 (t), . . . , zM (t)]; sia z(0) = 0. Sia urj (t) il
numero di particelle in j al tempo t provenienti dal compartimento r, data una certa distribuzione
iniziale delle particelle n(0).
PM P
Con queste notazioni si deve avere nj (t) = r=1 urj (t) + zj (t) oppure n(t) = r ur (t) + z(t)
(cioé una particella in j o è venuta da uno dei compartimenti o dall’ambiente).
Chiamiamo ora X(t) l’indice del compartimento occupato da una particella all’istante t; e po-
niamo pjk (s, t) = P (X(t) = j|X(s) = k) (in termini frequentisti: pjk (s, t) é la frazione di particelle
che si trovavano in k all’istante s e che sono passate in j all’istante t).
Facciamo l’analisi nel caso [semplice] di z(t) = 0 (cioé non vi é input dall’ambiente).
PM
Si ha: E[nj (t)] = r=1 nr (0)pjr (0, t) e quindi in forma matriciale E[n(t)] = P(0, t)n(0), dove é
chira la definizione di P(s, t).
Vediamo come varia nel tempo ilPnumero di particelle in ciascun compartimento. A tale scopo
osserviamo che E[n
P j (t + dt)|n(t)] = r nr (t)pjr (t, t + dt). Da qui si ottiene, mediano ulteriormente,
E[nj (t + dt)] = r E[nr (t)]pjr (t, t + dt)
Infine si ricava:
X
E[nj (t + dt)] − E[nj (t)] = E[nr (t)]pjr (t, t + dt) − E[nj (t)]
r
= (pjj (t, t + dt) − 1)E[nj (t)]
X
+ E[nr (t)]pjr (t, t + dt)
r6=j
da cui dividendo per dt e passando al limite per dt → 0 otteniamo:

d X
E[nj (t)] = αjr (t)E[nr (t)] (1.23)
dt r
con:
pjj (t, t + dt) − 1
αjj (t) = lim
dt→0 dt
pjr (t, t + dt)
αjr (t) = lim
dt→0 dt
L’equazione 1.23 in forma matriciale diventa:

d
E[n(t)] = A(t)E[n(t)] (1.24)
dt
Nel seguito consideriamo αji (t) = αji di modo che il coefficiente frazionario di trasferimento
viene rimpiazzato dalle probabilitá di transizione: αji dt é la probabilitá ( = frazione di particelle )
di trasferimento di una particella dal compartimento i a quello j nell’intervallo di tempo (t, t + dt).

1.5. MODELLI COMPARTIMENTALI STOCASTICI
1.5.1 Evoluzione delle probabilitá di transizione

É possibile ricavare una equazione simile alla 1.24 per la evoluzione delle probabilitá di transizione.
Indichiamo le probabilitá degli stati con pi (t) = P (X(t) = i), mentre con pij (t1 , t2 ) = P (X(t2 ) =
j|X(t1 ) = i) le probabilitá di transizione. In generale vale la equazione di Chapman-Kolmogorov:
X
pij (t1 , t3 ) = pir (t1 , t2 )prj (t2 , t3 ) (1.25)
r
Se restringiamo la nostra attenzione P ai processi omogenei, per cui vale pij (t1 , t2 ) = pij (t2 − t1 ) =
pij (τ ) si puó scrivere pij (τ + ω) = r pir (τ )prj (ω). In forma matriciale avremo: P(τ + ω) =
{pij } = P(τ )P(ω). Indicando3 le derivate delle probabilitá ∂pij /∂ω|ω=0 = αij con A = {αij }
potremo scrivere Ṗ(τ ) = P(τ )A (simile alla 1.24). Si puó verificare per sostituzione che tale
equazione é soddisfatta da
P(t) = P(0)eAt . (1.27)
dove la condizione iniziale é P(0) = I.
1.5.2 Distribuzione dei tempi di transito per modelli stocastici

Vediamo ora che forma ha la distribuzione dei tempi di transito h(t).
Sia Q(N, n(0), t) la quantitá totale di tracciante al tempo t in un sistema composto da M
compartimenti in cui l’ammontare totale iniziale (t = 0) di tracciante sia pari ad N particelle, e sia
distribuito come n(0).
Consideriamo la variazione Q(N, n(0), t + dt) − Q(N, n(0), t) (cioé la variazione della quantitá
totale contenuta nel sistema di M compartimenti), il suo valore atteso sará:
X
E[Q(N, n(0), t + dt) − Q(N, n(0), t)|n(t)] = − α0j nj (t)dt (1.28)
j∈O
dove O indica l’insieme di tutti gli indici dei compartimenti, mentre α0j xj (t)dt é la quantitá di
tracciante espulso dal compartimento j (verso l’ambiente) nel tempo dt.
Dividendo per dt si ottiene il tasso di variazione atteso:
dQ(N, n(0), t) X
E[ |n(t)] = − α0j nj (t) (1.29)
dt
Effettuando la media su tutti i possibili n(t) si ha:
dQ(N, n(0), t) X X X
E[ ]=− α0j nj (t)p(n1 , . . . , nM , t) = − α0j µj (t) (1.30)
dt n ,...,nj∈O 1 n j∈O
dove p(n1 , . . . , nM , t) é la probabilitá dello stato (= distribuzione del tracciante nei vari comparti-
menti) al tempo t.
Essendo N − Q(N, n(0), t) il numero di particelle che ha lasciato il sistema al tempo t, allora:
N − Q(N, n(0), t)
F (t) = E[ ] (1.31)
N
é la frazione di particelle che (in media) ha lasciato il sistema fino al tempo t. Pertanto nella
notazione usata per il modello indicator dilution 1.2 la distribuzione dei tempi di transito (cioé la
3 in generale se f (x) g(τ ) e h(ω) sono tre funzioni che soddisfano f (τ + ω) = g(τ )h(ω), derivando entrambi i
membri rispetto ad ω avremo:

∂f (τ + ω) ∂f ∂h
= = g(τ ) (1.26)
∂ω ∂x ∂ω
x=τ +ω

frazione di particelle che lascia il sistema nell’intervallo (t, t + dt)) sará data da:
dF (t) 1 dQ(N, n(0), t) 1 X
h(t)dt = dt = − E[ ]dt = α0j µj (t) (1.32)
dt N dt N
j∈O
1.5.3 Tempi di transito medi

Consideriamo una variabile aleatoria ‘indicatore’ : Ij (τ ) = 1 se una particella si trova nel com-
partimento j all’istante τ , mentre Ij (τ ) = 0 altrimenti. Sia Ei [Ij (τ )] la media di tale variabile
aleatoria condizionata al fatto che la particella si trovi nel compartimento i all’state τ = 0. Si ha
Ei [Ij (τ )] = 1 · P (Ij (τ ) = 1|i) + 0 · P (Ij (τ ) = 0|i) = P (X(τ ) = j|X(0) = i) = pij (τ ), dove abbiamo
usato la notazione del paragrafo precedente.
Rt
La durata complessiva della permanenza in j fino all’istante t è 0 Ij (τ )dτ , per cui la permanenza
media in j é data da:
Z t Z t Z t
θij = Ei Ij (τ )dτ = Ei [Ij (τ )]dτ = pij (τ )dτ. (1.33)
0 0 0
Sia P(τ ) = {pij }. Si puó vedere che (tenendo conto della 1.27 e diagonalizzando A):
P(t) = eAt = SeΛt S−1 . (1.34)
Pertanto per la durata della permanenza per t → ∞ si ha:
Z ∞ Z ∞
Θ = {θij } = P(t)dt = S e dt S−1 .
Λt
(1.35)
0 0
R∞
Per ciascun elemento della diagonale della matrice eΛt si ha che 0 eλk t dt = −1/λk (infatti gli
autovalori devono avere parte reale negativa e pertanto all’infinito l’integrando tende a zero) da cui:
Z ∞
eΛt dt = −Λ−1 (1.36)
0
Infine osservando che A = SΛS−1 implica A−1 = SΛ−1 S−1 si ha il seguente risultato che lega
la matrice compartimentale e i tempi di permanenza:
Z ∞
Θ=S eΛt dt S−1 = −Λ−1 (1.37)
0
1.6 Identificabilitá
Con il termine identificabilitá si intende la possibilitá di ricavare, usando i dati misurati da un
sistema biologico reale, le stime dei parametri di interesse del modello corrispondente.
In sintesi l’identificabilitá di un modello si puó valutare nel modo seguente: si ricava la relazione
ingresso-uscita; si trasforma tale relazione con Laplace; lo sviluppo in fratti di tale trasformata deve
presentare coefficienti univoci (per un teorema di algebra); e sono quelli valutabili mediante fitting
(regressione); infine si valutano le relazioni tra i parametri del modello ed i coefficienti valutabili :
se tali relazioni consentono di ricavare i parametri del modello allora il modello é identificabile.
Chiariamo il concetto di identificabilitá con un esempio. Consideriamo il modello compartimen-
tale a due compartimenti. Le equazioni sono le seguenti:

q˙1 = −(k01 + k21 )q1 (t) − k12 q2 (t) + u(t)

q˙2 = k21 q1 (t) − k12 q2 (t) (1.38)

y = q1 (t)/V1


1.7. MODELLI A PARAMETRI DISTRIBUITI
dove y é la misura della concentrazione del compartimento 1, e V1 é il volume di tale compartimento.

Trasformando secondo Laplace le equazioni, dopo una serie di manipolazioni algebriche otteniamo:
Y (s) (s + k12 )/V1 β2 s + β1

H(s) = = 2 = 2 (1.39)
U (s) s + s(k01 + k12 + k21 ) + k01 k12 s + sα2 + α1
dove i coefficienti α1 α2 β1 β2 sono univocamente determinati. Si trovano le seguenti relazioni:



 V1 = 1/β1

k = β /β
12 1 2
(1.40)


 k01 = α1 2 /β1
β
k21 = α2 − k01 − β1 /β2

da cui si evince che il modello é identificabile in quanto tutti i parametri possono essere ottenuti in
maniera univoca. Nel caso generale ció non sempre é possibile ed in tal caso il sistema fisiologico é
non univocamente identificabile.
Inoltre sviluppando in fratti semplici l’espressione 1.39:
A B
H(s) == + → h(t) = Aeλ1 t + Beλ2 t (1.41)
s + λ1 s + λ2
e si hanno le seguenti relazioni:



β2 = A + B

β = −(Aλ + Bλ )
1 2 1
(1.42)


α2 = −(λ1 + λ2 )
α1 = λ1 λ2

Per cui si puó procedere alla identificazione stimando prima i parametri del modello 1.41 e poi
successivamente con le relazioni 1.42 e 1.40 ottenere i parametri cinetici del modello 1.38
1.7 Modelli a parametri distribuiti
1.7.1 Modello di Bassingthwaighte
Come si vede dalla figura 1.7 il tracciante puó circolare nello spazio vascolare, in quello extra-
cellulare extra-vascolare ed eventualmente essere assorbito dall’ambiente intracellulare. In ciascuno
di tali compartimenti, il tracciante non puó distribuirsi istantaneamente per cui la ipotesi alla
base dei modelli compartimentali (compartimento ben miscelato ovvero distribuzione omogenea e
istantanea del tracciante) non é verificata. Infatti tale distribuzione istantanea dovrebbe avvenire
in base ai meccanismi della diffusione browniana (vedi appendice). Tuttavia i tempi necessari per
tale meccanismo sono lunghissimi rispetto ai tempi in gioco nei trasferimenti da n compartimento
all’altro.
É necessario pertanto tenere conto dei meccanismi di moto convettivo
1.7.2 Modello generale
Questo modello é stato sviluppato con particolare attenzione allo studio dei flussi del fluido cerebro-
spinale (CBF) da Johnson e Wilson nel 1966, e Sawada nel 1989. La discussione che segue è basata
su Larson 1987.

Figura 1.7: Modello di Bassingthwaighte
1.7.3 Tissue homogeneity model

La discussione che segue è basata su Lawrence e Lee 1998.
Il cervello é diviso in due spazi principali IVS (intra vascular space) EVS (extra vascular space),
separati da una barriera ematoencefalica (blood-brain barrier). A differenza del modello di Kety,
la concentrazione di tracciante all’interno di IVS é una funzione del tempo e della distanza lungo
il capillare. Data il piccolo raggio dei capillari (circa 5 µm) la distribuzione radiale é considera-
ta costante ed i gradienti radiali sono trascurati. All’interno del EVs invece la concentrazione é
considerata costante ovvero é compartimentale. R é il raggio del capillare.
Con queste ipotesi e facendo riferimento alla figura 1.8 si ha:
EVS
CIVS(x,t)
IVS
F
S
AIVS
dx
AEVS
L
Figura 1.8: Tissue Homogeneity Model
• La massa di tracciante che si trova nel volume (x, x + dx) all’istante t é CIV S (x, t)AIV S dx
• La variazione della massa di tracciante nel volumetto (x, x + dx) nell’intervallo (t, t + dt) é
data da (CIV S (x, t + dt) − CIV S (x, t))AIV S dx,

1.8. UN ESEMPIO CONCRETO: DCE-MRI
• la massa che fuoriesce nell’intervallo (t, t+dt) dalla superficie laterale é (CIV S (x, t)−CEV S (t))P (dx2πR)dt
• quella che esce dalla sezione x + dx nell’intervallo (t, t + dt) é dtF · CIV S (x, t).
• quella che entra dalla sezione x nell’intervallo (t, t + dt) é dtF · CIV S (x − dx, t).
Per cui il bilancio di massa si scrive:
AIV S · (CIV S (x, t + dt) − CIV S (x, t))dx =

dtF · CIV S (x − dx, t)
−dtF · CIV S (x, t)
−(CIV S (x, t) − CEV S (t))P (dx2πR)dt
(1.43)
cioé, dividendo per dx e dt:

CIV S (x, t + dt) − CIV S (x, t)
AIV S =
dt
CIV S (x − dx, t) − CIV S (x, t)
F·
dx
−(CIV S (x, t) − CEV S (t))P (2πR)
(1.44)
e facendo il limite per dx → 0e dt → 0:

∂CIV S (x, t) ∂CIV S (x, t)
AIV S = −F − (CIV S (x, t) − CEV S (t))P (2πR) (1.45)
∂dt ∂dx
Applicando ragionamenti simili si ha che la variazione di massa nella regione EVS nell’intervallo
(t, t + dt) é dovuta al flusso proveniente dalla regione IVS lungo tutta la lunghezza del capillare:
AEV S L(CIV S (t + dt) − CEV S (t + dt)) =

Z L
P (2πR)(CIV S (x, t) − CEV S (t))dx
0
1.8 Un esempio concreto: DCE-MRI

La DCE-MRI (Dynamic Contrast-Enhanced Magnetic Resonance Imaging) costituisce una moda-
litàá di studio con risonanza magnetica nucleare in grado di fornire informazioni accurate sulle
caratteristiche di vascolarizzazione delle lesioni tumorali. La DCE-MRI consiste nell’acquisizione
(con sequenze veloci) di una serie temporale di immagini: le immagini della serie devono essere
acquisite prima, durante e dopo la somministrazione (per via endovenosa) di un mezzo di con-
trasto paramagnetico. Successivamente si procede alla valutazione delle curve intensitá tempo
(time-intensity-curve, TIC) su una regione di interesse (Region Of Interest, ROI). L’analisi dei dati
DCE-MRI con l’ausilio di diversi approcci viene ampiamente usata nello studio dell’angiogenesi
tumorale e nello sviluppo di nuovi farmaci anti-agiogenici.
Le metodologie che possono essere usate per l’analisi TIC vanno dalla semplice ispezione visiva
ad una complessa analisi quantitativa con modelli cinetici.
La semplice ispezione visiva di ROI selezionate da radiologi esperti ha il vantaggio di esse-
re di facile uso (vedi fig. 1.9) ma anche lo svantaggio di produrre un alto livello di variabilitá
(inter-individuale, due radiologi differenti selezionano diverse ROI) e potenziali errori nella analisi.
Nonostante ció fino a pochi anni fa l’approccio piú usato per analizzare i dati dinamici era la valuta-
zione soggettiva delle TIC. Questo approccio, oltre allo svantaggio di essere operatore-dipendente,
non offre indicazioni sulle caratteristiche patofisiologiche dei tessuti di interesse.

(a)
1 1
Measured Data Measured Data
0.9 Monoexponential Fitting 0.9 Model Fitting
0.8 0.8
Arterial Input Function [mmol/L]
Tissue Concentration [mmol/L]
0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Time [min] Time [min]
(b) (c)
Figura 1.9: a) ROI selezionate da un esperto radiologo su un arteria e sul tessuto di interesse; b) la
curva intensitá tempo della AIF; c) fitting usando il modello di Tofts.

Tipo di analisi Vantaggi Svantaggi

Qualitativa Semplice operatore e protocollo di-
pendente; nessuna indicazio-
ne sulle caratteristiche dei
tessuti
Semi-quantitativa meno dipendente da operato- nessuna indicazione sulle ca-
re e protocollo ratteristiche dei tessuti
Quantitativa non dipendente da operato- molti modelli in letteratura:
re e protocollo; indicazioni su quale scegliere?
caratteristiche dei tessuti
Tabella 1.1: Svantaggi e vantaggi dei vari metodi per analisi di dati DCE-MRI.
Un approccio semi-quantitativo consiste nel calcolo di opportuni indici descrittivi della TIC. Tali
indici semi-quantitativi risultano meno sensibili alle variazioni tra protocolli di acquisizione e meno
dipendenti da altri fattori quali i parametri delle sequenze, hardware settings, la concentrazione di
mezzo di contrasto somministrata e la durata dell’acquisizione [32] rispetto ai parametri quantitativi;
tuttavia per loro natura non rispecchiano le caratteristiche fisiologiche dei tessuti.
Infine l’analisi quantitativa dei dati DCE-MRI puó essere fatta con modelli farmacocinetici
(proposti inizialmente da Tofts, Brix, Larson [33]). In questo modo é possibile stimare parametri
che sono direttamente correlati ai parametri fisiologici dei tessuti come la permeabilità endoteliale
dei vasi e il flusso. Per queste ragioni, l’analisi con modelli compartimentali si presta all’analisi del
decorso terapeutico di un paziente e al confronto tra studi di pazienti diversi. Purtroppo l’analisi
con modelli farmaco-cinetici (modelli compartimentali) soffre di una certa variabilitá in conseguenza
della numerositá dei modelli proposti in letteratura.
I vantaggi e gli svantaggi delle diverse tecniche di analisi sono riassunti in tabella 1.1.
In definitiva, la DCE-MRI unita all’uso di modelli compartimentali, si presenta come una pro-
mettente tecnica di imaging non-invasiva per la valutazione della microvascolaritá tumorale. Seb-
bene l’MRI convenzionale permetta una caratterizzazione tumorale morfologica-qualitativa, l’a-
nalisi dei dati DCE-MRI mediante modelli cinetici permette una caratterizzazione funzionale dei
cambiamenti della microvascolarità tumorale (es. angiogenesi tumorale) [36]. Pertanto le mappe
prodotte con DCE-MRI, opportunamene visualizzate in pseudocolore e sovrapposte alle immagini
morfologiche convenzionali, costituiscono delle vere e proprie immagini funzionali del tumore (fig.
1.10).
1.8.1 Analisi qualitativa
Un’analisi comunemente usata in DCE-MRI si basa sulla valutazione soggettiva della TIC. In tale
approccio ciascuna curva é classificata dall’operatore con il sistema di valutazione mostrato in
figura 1.11 adottato da [53]. La classificazione delle TIC, in accordo con questo schema, consente
di eseguire una differenziazione diagnostica tra tumori maligni e benigni: ció risulta di particolare
utilitá per le lesioni della mammella. La classificazione delle curve TIC è la seguente:
Tipo I la ROI non presenta nessun enhancement;
Tipo II la ROI presenta un lento e costante enhancement;
Tipo III la ROI presenta un veloce enhancement seguito da un lento e costante enhancement;
Tipo IV la ROI presenta un rapido enhancement seguito da un tratto costante;
Tipo V la ROI presenta un rapido enhancement seguito da un tratto decrescente.

Le curve di tipo V corrispondono a lesioni aggressive; le curve di tipo IV a lesioni sospette; le

curve di tipo III a lesioni benigne; le curve di tipo II a tessuti normali o benigni [28].
(a)
1.8 4.5
1.6 4
1.4 3.5
1.2 3
Ktrans [min−1]
kep [min−1]
1 2.5
0.8 2
0.6 1.5
0.4 1
0.2 0.5
(b) (c)
16
0.9
14
0.8
12
0.7
10
AUC [s mmol/L]
0.6
8
ve
0.5
0.4 6
0.3
4
0.2
2
0.1
0
0
(d) (e)
Figura 1.10: Esempi di mappe parametriche. I parametri caratteristici della sequenza utilizzata
sono: TE/TR/FlipAngle=4.76ms/9.8ms/25◦ , pixel resolution 0.6 x 0.6 mm x mm, l’intervallo di
campionamento é 34 s. a) immagine T1 -pesata: la ROI scelta dal radiologo é racchiusa dal ret-
tangolo; b) mappa K trans ; c) mappa kep ; d) mappa ve . e) mappa dell’area under the Gd curve
(AUC);

Figura 1.11: Diversi tipi di curve intensitá tempo
1.8.2 Analisi semiquantitativa

Allo scopo di classificare i diversi tipi di curve, sono stati identificati parametri descrittivi della
cinesi del mezzo di contrasto (figura 1.12):
• il tempo compreso tra l’inizio dell’acquisizione dinamica e l’inizio dell’incremento del segnale;
• il tempo compreso tra l’inizio dell’enhancement ed il raggiungimento del picco di massima

intensità (TWI));
• il tempo compreso tra il picco dell’enhancement e il tempo alla fine dell’acquisizione (TWO);
• l’incremento dell’intensità di segnale compreso tra l’inizio dell’enhancement e il raggiungimen-

to del picco massimo di intensità diviso il tempo necessario al raggiungimento del picco stesso
(wash-in slope);
• il decremento del segnale dopo che ha raggiunto il picco diviso l’intervallo temporale corri-
spondente (wash-out slope);
• l’intercetta della regione del wash-in (WII);
• l’intercetta della regione del wash-out (WOI);
• la differenza tra il picco massimo di intensità e l’intensità di segnale basale (MSD);
• l’area sottesa alla curva (AUC);
• l’area sottosa alla fase del wash-in (AUCWI);
• l’area sottosa alla fase del wash-out (AUCWO);
I parametri sopra descritti possono anche essere rappresentati graficamente sotto forma di mappe
colorimetriche fuse con le corrispettive immagini contrastografiche di base, in modo tale da poter
riconoscere aree più calde dalle aree più fredde, in termini di vascolarizzazione. Infatti le aree più
calde, rappresentate in rosso sono quelle in cui i parametri sopra calcolati assumono i valori più
elevati, e le aree più fredde, rappresentate in blu sono quelle in cui i valori erano più bassi (vedi
figura ??).
Una serie di studi (Kaiser et al.1989, Boetes et al. 1994; Gilles et al. 1994) illustrano dei
potenziali problemi nell’uso delle curve intensità tempo per studiare la vascolarità maligna. Uno
dei problemi è che l’intensità del segnale è influenzato dalle differenze nei fattori di scala e di tuning
tra scanner diversi o anche tra sessioni dello stesso scanner [28].
Inoltre, si presenta una non linearità tra l’intensità del segnale e la concentrazione del mezzo di
contrasto somministrato.
A causa del primo problema è necessario effettuare una normalizzazione delle curve di enhance-
ment del contrasto, al fine di: ottenere stime valide della risposta del tumore, prima, durante e dopo

Figura 1.12: Analisi Semi-quantitativa:Parametri descrittivi della forma della TIC
il trattamento neo-adiuvante; confrontare esami DCE-MRI dello stesso paziente in diverse sessioni;
confrontare esami DCE-MRI di diversi pazienti con lo stesso o differenti scanner; effettuare studi
multicentrici [28].
Alcuni autori, per normalizzare l’intensità del segnale, suggeriscono di riferire l’intensità del
segnale all’interno lesione all’intensità del tessuto adiposo.
Invece il problema della non linearità può essere risolto mediante il calcolo di mappe T1 .
Tuttavia, l’incertezza dovuta alla non-linearità può essere trascurata, anche se il flip-angle è si-
gnificativamente inferiore a 90◦ quando il tempo di ripetizione TR è significativamente breve
[37].
Nonostante questi problemi le curve semiquantitative possono essere estremamente preziose,
particolarmente nelle applicazioni cliniche per la stadiazione o classificazione dei tumori.
Nonostante questa chiara utilità clinica le caratteristiche di queste tecniche di analisi soggettive
e semiquantitative hanno spinto allo sviluppo di tecniche di analisi quantitative più robuste.
Ci sono differenti ragioni per i quali gli approcci quantitativi hanno maggiori benefici. Princi-
palmente, l’abilitá di stimare parametri che riflettono la struttura fisiologica della microvascolaritá
del tumore e che sono anche indipendenti dall’acquisizione con lo scanner.
1.8.3 Analisi quantitativa

Come visto i modelli compartimentali rappresentano una classe di modelli strutturali maggiormente
utilizzata per descrivere processi di produzione e/o trasporto di sostanze, traccianti nei tessuti.
Tali modelli sono costituiti da un numero finito di variabili del tempo legate tra loro da equazioni
differenziali ordinarie. I modelli compartimentali sono stati usati per risolvere un ampio spettro
di problemi relativi alla cinetica di sostanze e farmaci nell’organismo vivente in ricerca, diagnosi e
terapia.
É consuetudine rappresentare il tessuto come costituito da tre compartimenti (vedi fig.1.13).
Questi compartimenti sono:
• lo spazio vascolare del plasma;

• lo spazio extracellulare extravascolare (EES);

• lo spazio intracellulare.
Da qui in avanti si userá una altra notazione in uso negli studi di DCE-MRI in cui le grandezze
che si riferiscono allo spazio interstiziale vengono indicate con il pedice e piuttosto che con la lettera
I ed inoltre le grandezze del plasma si indicano con il pedice p piuttosto che con P , ed anche le
grandezze del tessuto con t invece che con T ; le frazioni volumetriche si indicano con vp , ve e vt in
luogo di fP ,fI , fT ; e cosı̀ via.
Ciascuno di questi tre compartimenenti può essere espresso in termini assoluti o come frazioni
del volume di tessuto:
ve = Ve /Vt
vp = Vp /Vt
vi = Vi /Vt
1 = ve + v p + vi
dove Ve , Vp , Vi , Vt sono rispettivamente il volume occupato dallo spazio EES, dal plasma, dallo
spazio intracellulare e dal tessuto, ve è la frazione di volume occupata dal EES, vp è la frazione di
volume occupata dal plasma, e vi è la frazione di volume occupata dallo spazio intracellulare.
Figura 1.13: Modello a piú compartimenti:i cerchi piccoli rappresentano le molecole di mezzo di
contrasto che diffondono dall’ambiente vascolare all’ambiente EES senza poter entrare nell’ambiente
intracellulare (cerchi grandi) a causa delle dimensioni dei pori della mebrana cellulare
Molti traccianti e sostanze non possono passare nello spazio intracellulare del tessuto a causa
delle loro dimensioni e per tali motivi lo spazio intracellulare non viene considerato.
La maggior parte degli studi, pertanto, descrivono la distribuzione dei traccianti con un modello a
soli due compartimenti: un compartimento centrale, che è costituito dal plasma, e un compartimento
periferico, che è costituito dal tessuto di interesse ed è connesso al compartimento centrale [38]-
[39]. Il mezzo di contrasto, per prima cosa, diffonde nel compartimento centrale quindi arriva nel
compartimento periferico, poi fuoriuscire da questo ritornando nuovamente al plasma per essere
smaltito.

Tabella 1.2: Notazioni per le grandezze fisiche usate nella modellazione compartimentale dei dati
DCE-MRI.
Grandezza Definizione Unità di misura
ve frazione di volume occupata dallo spazio EES adim
vp frazione di volume occupata dal plasma adim
vi frazione di volume occupata dallo spazio intracellulare adim
Ce Concentrazione del tracciante in EES [mmol/ml]
Cp Concentrazione del tracciante nel plasma [mmol/ml]
Ct Concentrazione del tracciante nel tessuto [mmol/ml]
Kin Costante di trasferimento in ingresso a vp [mmol/min]
Kel Costante di trasferimento in uscita da vp [min−1 ]
K trans
Costante di trasferimento tra plamsa verso EES [min−1 ]
kep Costante di trasferimento tra EES e plasma [min−1 ]
F Flusso per unità di massa del tessuto [mlmin−1 g−1 ]
D dose iniettata per unità di peso corporeo [mmol g−1 ]
PS permeabilità dell’area superficiale [mmolg−1 min−1 ]
EF frazione di estrazione [g ml−1 ]
Le grandezze attraverso le quali si descrive la diffusione dell’agente di contrato nei tessuti sono
riportate in tabella 1.2 con le rispettive unitá di misura.
K trans consiste nella frazione di quantitá di tracciante del compartimento vp che nell’unitá di
tempo passa da vp a ve .
kep consiste nella frazione di quantità di tracciante del compartimento ve che nell’unitá di tempo
passa da ve a vp .
K el consiste nella frazione di quantità di tracciante del compartimento vp che nell’unità di tempo
lascia lo spazio vp .
K in consiste nella quantità di tracciante che nell’unità di tempo arriva in vp .
Nel seguito si vedrá che esiste la seguente relazione:
K trans
k ep = .
ve
Per sviluppare il modello ricordiamo alcuni principi.
Bilancio di massa (principio di Fick)
Sia F un flusso [ml/min] di fluido che contiene una concentrazione C1 [mmol/ml] di una certa
sostanza. Se il fluido fluisce all’interno di un compartimento in cui la sostanza viene aggiunta ad
un tasso M [mmol/min], all’uscita del compartimento avremo:
M
F C2 = F C1 + M → C2 − C1 = .
F
Ad esempio il consumo di ossigeno [MO2 ] si puó ottenere dalla concentrazione di ossigeno nel
sangue arterioso [CA ], dalla concenrazione di ossigeno nel sangue venoso [CV ] e dal flusso sanguigno
[F ]:
F (CA − CV ) = MO2 .

Equazione di diffusione
I modelli cinetici compartimentali della distribuzione di un tracciante hanno il loro fondamento in

una semplice equazione che descrive il flusso del tracciante attraverso una membrana semipermea-
bile.
In generale, i meccanismi di trasporto si possono dividere in:
• trasporto diffusivo (sostanze liposolubili);

• trasporto attraverso i pori della membrana (sostanze idrosolubili).
Il trasporto diffusivo di una sostanza attraverso una membrana semipermeabile é determinato

dalla differenza di concentrazione della sostanza tra i due lati della membrana e dalla libertá con
cui la membrana permette alle molecole di diffondere da un lato all’altro.
L’ammontare di tracciante nell’unitá di tempo [mmol/min] che diffonde attraverso la membrana
(flusso diffusivo) Φd puó essere cosı̀ definito:
Φd = P A(C1 − C2 ), (1.46)
dove P [m/min] é il coefficiente di permeabilitá di transmembrana, A è l’area [m2 ] della sezione

trasversale al moto delle particelle e C1 e C2 [mmol/ml] sono le concentrazioni della sostanza ai due
lati della membrana.
Il processo sopra descritto governa il trasporto di sostanze liposolubili attraverso membrane
integre. Piccole molecole polari, idrosolubili come l’acqua, sono anche soggette ad un trasporto
diffusivo attraverso la membrana, ma in misura inferiore alle sostanze liposolubili.
In questo caso un secondo meccanismo di trasporto é importante da definire il quale avviene at-
traverso i pori della membrana. La velocitá di trasporto causata da questo effetto é influenzata dalla
differenza di pressione attraverso la membrana, ove la pressione interna e la pressione esterna della
membrana sono date dalla sovrapposizione della pressione idrostatica e della pressione osmotica.
Il sistema che si indaga usando traccianti in vivo é molto piú complesso di una singola membrana,
e l’equazione 1.46 é troppo semplicistica. Inoltre, dovendo considerare la presenza di meccanismi di
trasporto multipli, il modello di una singola membrana é ovviamente notevolmente semplicistico.
Fortunatamente é possibile usare l’equazione 1.46 facendo due assunzioni di base.
La prima assunzione é che i meccanismi di trasporto multipli araverso un singolo ostacolo (ad
es. trasporto diffusivo e osmotico attraverso una singola membrana) possono essere trattati come
un sistema di n permeabilitá diffusive in parallelo, ottenendo una permeabilitá totale al flusso delle
molecole pari a:
n
X
π= Pk . (1.47)
k=1
La seconda assunzione é che ostacoli multipli al trasporto (ad es. membrane sovrapposte)
possono essere considerati come N permeabilitá in serie:
N
1 X 1
=
PT πk
k=1
I definitiva il flusso totale ΦT é collegato alla permeabilitá totale PT :
ΦT = PT S(C1 − C2 ), (1.48)
dove S é l’area efficace della superficie.

Frazione di estrazione (modello di Renkin-Crone)
Consideriamo l’estrazione di una sostanza dal sangue da parte di un tessuto (fig. 1.14).
Figura 1.14: Modello di Renkin-Crone
La frazione di estrazione é data da:

CA − CV
E=
CA
In prima approssimazione possiamo usare il seguente ragionamento per determinare una relazione
tra la frazione di estrazione e le caratteristiche della parete vaso/tessuto. Sempre con riferimento alla
fig. 1.14 sia L la circonferenza del vaso e consideriamo il vaso nel tratto (x, x + dx). All’inizio della
diffusione non esiste tracciante nello spazio extravasale e la quantitá di sostanza che fluisce verso
l’esterno attraverso la parete (di superficie Ldx) é, in prima approssimazione (per l’equazione di
diffusione), proporzionale alla concentrazione plasmatica presente nel tratto considerato, ed é data
da P Ldx(Cp (x) − Cest ) dove P é la permeabilitá del vaso giá incontrata nella sezione precedente
mentre Cest = 0. Usando una semplice equazione di bilancio di massa otteniamo (C(x) è la
concentrazione nel punto di ascissa x del vaso):
F (C(x) − C(x + dx)) = P LCp (x)dx
da cui, tenendo conto che:

M (x) M (x)VT C(x)VT C(x)
Cp (x) = = = =
Vp VT Vp (VT − VHct ) 1 − Hct
si ricava:
dC PL
=− dx
C F (1 − Hct)
e quindi integrando ambo i membri:
CV PS
ln =−
CA F (1 − Hct)
dove S é la superficie complessiva del vaso. Quindi in definitiva si ha:
CA − CV
E= = 1 − e−P S/F (1−Hct)
CA
Modello di Kety-Schmidt
Si tratta di un modello compartimentale semplificato in cui si considera in effetti il solo comparti-

mento extra-vasale che scambia con il plasma.
L’equazione di diffusione ci dice che il flusso di tracciante dal plasma verso EES attraverso la
parete del capillare, é proporzionale al gradiente di concentrazione ai lati della parete vasale:
P S(Cp (t) − Ce (t)) (1.49)

Questo flusso va a variare la la concentrazione del tracciante in EES che puó essere descritta
considerando un equazione di bilancio di massa nell’unitá di volume di tessuto:
1 dMe PS
= (Cp (t) − Ce (t)) (1.50)
VT dt VT
dove Ce è la concentrazione dell’agente in Ve ; Cp è la concentrazione dell’agente in Vp .
Tenendo conto che:
1 dMe 1 dVe Ce dCe (t)
= = ve (1.51)
VT dt VT dt dt
e ponendo K trans = P S/VT , in definitiva quindi l’equazione che ci interessa é la seguente:
dCe (t) K trans
= (Cp (t) − Ce (t)) = kep (Cp (t) − Ce (t)), (1.52)
dt ve
L’equazione 1.52 è una semplice equazione differenziale del primo ordine in Ce (t) e può facilmente
essere risolta con il metodo di Laplace:
sCe (s) = kep (Cp (s) − Ce (s)) (1.53)
da cui:
Cp (s)
Ce (s) = kep (1.54)
s + kep
ed antitrasformando:
Ce (t) = Cp (t) ⊗ kep e−kep t (1.55)
La maggior parte dei modelli in letteratura sono un’estensione dell’equazione 1.55 che includono
la concentrazione dell’agente nel plasma, essendo Ct = vp Cp + ve Ce . Usando quest’ultima relazione
e l’equazione 1.55 si ottiene:
Z t
Ct (t) = vp Cp (t) + K trans Cp (τ )e−kep (t−τ ) dτ, (1.56)
0
che può essere espressa come:
Ct (t) = vp Cp (t) + Cp (t) ⊗ H(t), (1.57)

trans −kep t
dove H(t) = K e e ⊗ rappresenta l’operazione di convoluzione.
Nei tessuti normali, il volume del plasma è una frazione piccola del volume totale del tessuto
(approssivativamente il 5%), pertanto, generalmente si assume che la concentrazione del mezzo
di contrasto nel tessuto non è influenzata dalla concentrazione del mezzo di contrasto nel plasma
(Ct ≈ ve Ce ). Questa assunzione è accettabile nelle anormalità che non determinano un aumento
del volume di sangue, mentre non è valida in quei contesti che determinano un aumento del volume
di sangue (come ad es. nei tumori).
Relazione tra Extraction Fraction e K trans
Cerchiamo di ricavare l’equazione 1.52 in un altro modo. Scriviamo:

dCt
= α(Cp − Ce )
dt
dove α va determinato. Ricordando il principio di Fick, avremo:
dCt
= F (CA − CV ) = α(Cp − Ce )
dt

Trascurando il backflow (ritorno del tracciante verso il plasma) potremo ritenere Ce ≈ 0 e quindi:
CA
F (CA − CV ) = α(Cp − Ce ) ≈ αCp = α
1 − Hct
dove Hct é l’ematocrito cioé la frazione di volume del sangue occupata da globuli e non da plasma.
Dal primo e ultimo membro si ricava:
EF (1 − Hct) = α
Tenendo conto che Ct = ve Ce + vp Cp e trascurando vp in questa equazione (tale approssimazione
non é valida nei tumori):
dCt CT
= EF (1 − Hct)(Cp − )
dt ve
e quindi
EF (1 − Hct) = K trans
Considerazioni
Quando la permeabilità superficiale é alta rispetto al flusso (P S F ) la EF é approssivativamente

pari ad 1 e K trans ≈ F,: in questo caso diremo che il comportamento della concentrazione del
mezzo di contrasto nel tessuto é limitata dal flusso.
Al contrario, quando la permeabilitá é bassa rispetto al flusso (P S F ), la frazione di estrazione
é approssivativamente pari a PFS e K trans ≈ P S: in al caso diremo che il comportamento della
concentrazione del mezzo di contrasto nel tessuto é limitato dalla permeabilitá.
A partire da questo approccio una serie di modelli cinetici sono stati stimati in vivo da diversi
autori.
Questo non è dovuto al fatto che i modelli cinetici del mezzo di contrasto sono in dubbio, ma
piuttosto perché la farmacocinetica di quest’ultimo è complessa e l’utilizzo di un modello non ideale
potrebbe portare ad un’analisi istabile e inaffidabile.
La maggior parte di queste tecniche di analisi farmacocinetiche usano metodi di fitting delle
curve per stimare i parametri dei modelli cinetici. Il problema di questi metodi di fitting è che un
ampio range di soluzione possono essere trovate.
Quindi l’uso di un complesso modello multiparametrico che descrive tutte le caratteristiche fisio-
logiche che abbiamo elencato sopra porterà ad instabilità nell’analisi ed ad un crescente numero di
errori nella stima dei parametri. Questo ha portato allo sviluppo di un range di modelli semplificati
che combinano gli effetti di diversi parametri in uno allo scopo di ridurre il numero delle variabili
utilizzate nei metodi di fitting delle curve.
Molti lavori si sono concentrati sul calcolo della costante di volume di trasferimento K trans
([40]).
Un modello molto semplice è stato descritto da Tofts e Kermode nel 1991 che stimano solamente
due parametri, il primo di questi è la dimensione di EES (ve ) e il secondo è K trans il quale in questo
modello è influenzato dal flusso e dalla permeabilità endoteliale. Alti valori di K trans dunque si
potranno osservare quando c’è un alto flusso o una alta permeabilità endoteliale. Quindi attraverso
questa misura si avrà una misura quantitativa della struttura microvascolare dei tessuti.
Un maggiore livello di complessità nell’analisi è introdotta in altri modelli nei quali si separa
l’effetto della frazione di estrazione EF. Questi modelli calcolano la frazione di volume del plasma
(vp ), ve e K trans che è influenzata dal flusso, dalla permeabilità endoteliale e dall’area superficiale
dei capillari.
Comunque c’e una confusione tra i approcci, i quali differiscono per tre principali motivi:
• le procedure per la collezione dei dati sono diverse (la concentrazione del mezzo di contrasto
in alcuni è misurata in altri no; il protocollo utilizzato nell’iniezione del mezzo di contrasto;che
sequenze MRI sono usate);

• sia i modelli teorici che i parametri cinetici estratti cambiano. Differenti parametri sono
riportati, dei quali molti sono equivalenti. Molti modelli sono euristici e non forniscono alcuna
informazione fisiologica;
• i nomi e i simboli usati per descriveri i parametri sono diversi.
Tofts nel 1997 propone di riconciliare i vari modelli, di stabilire simboli di riferimento, di mostrare
le relazioni con le variabili fisiologiche [40].
Assunzioni generali in ogni modello
Tutti i modelli che verranno descritti in seguito hanno assunzioni di base comuni, che includono:
• esistono compartimenti che contengono il tracciante ben miscelato in una concentrazione uni-
forme che non può attraversare la membrana cellulare ed entrare all’interno delle cellule.
L’agente di contrasto diffonde tra lo spazio vascolare del plasma e lo spazio extracellulare
extravascolare;
• il flusso intercompartimentale è lineare: il flusso tra i due compartimenti è proporzionale alla

differenza di concentrazione tra gli stessi;
• l’invarianza temporale: i parametri che descrivono la cinesi del contrasto sono costanti durante
il tempo in cui i dati sono acquisiti;
Principali modelli cinetici
Le principali differenze tra i modelli riguardano come viene modellata la funzione di input arterioso,
se viene o meno considerato il contributo della concentrazione del mezzo di contrasto nel plasma e
quali parametri sono stimati (vedi figura 1.15).
Figura 1.15: Principali differenze dei modelli cinetici proposti in letteratura

Modello di Brix
Non considera il contributo della concentrazione dell’agente di contrasto nel plasma, la AIF segue
un modello mono-esponenziale , i parametri stimati sono K trans e ve . Durante l’infusione del mezzo
di contrasto la concentrazione nel tessuto è:
K trans
t
A (1 − e ve ) (1 − ekel t )
Ct = K trans
( K trans
− ),
kel − ve ve
kel
dove A è la pendenza iniziale della curva,kel è la costante di velocità di diffusione in uscita dall
spazio vascolare del plasma vp .
Modello di Tofts
In questo modello la concentrazione del mezzo di contrasto nel tessuto é data dalla somma di due
contributi. Infatti questo modello aggiunge il contributo della concentrazione del mezzo di contrasto
nel plasma Cp (t) che segue una funzione bi-esponenziale:
2
X
Cp (t) = ai e−mi t , (1.58)
1
dove gli ai e gli mi sono opportuni coefficienti da calcolare.

Nota la concentrazione del mezzo di contrasto in una arteria è possibile risalire alla concentra-
zione del tracciante nel tessuto risolvendo l’equazione ??:
a1 K trans a2 K trans
Ct (t) = K trans { K trans [e−m1 t − e− ve t ] + K trans
[e−m2 t − e− ve t ]} + vp Cp (t).
ve − m1 ve − m2
Tale modello può anche essere usato trascurando il termine relativo alla concentrazione del
mezzo di contrasto nel plasma (vp ≈ 0).
Modello di Lawrence
Anche in questo modello si considera il contributo della concentrazione nel plasma, la AIF è consi-
derata la somma di due esponenziali decrescenti, ma a differenza del precedente quest’ultimo stima
separatamente i parametri F (flusso), E (frazione di estrazione), ve , τ (tempo di transito del mezzo
di contrasto nei capillari) con la seguente equazione:
Z τ Z t
E·F
Ct (t) = F Cp (t − u)du + E · F Cp (u)e− ve (t−u−τ )
,
0 τ
vp
dove F è il flusso, E è la frazione di strazione e τ è il tempo medio di transito nei capillari (= F ).
Risolvendo l’integrale nel quale a Cp (t) sostituiamo l’equazione 1.58 si ottiene:
a1 −m1 (t−τ ) a2 −m2 (t−τ )

Ct (t) = F · [e − e−m1 t ] + F · [e − e−m2 t ]+
m1 m2
a1 E·F E·F
E·F E·F
[e ve τ −m1 t − e− ve (t−2τ )−m1 τ ]+
ve − m1
a2 E·F E·F
+E · F E·F
[e ve τ −m2 t − e− ve (t−2τ )−m2 τ ].
ve − m2

1.9. STIMA DEI PARAMETRI CINETICI MEDIANTE ALGORITMI NON ITERATIVI
Modello di Larsson
Non considera il contributo della concentrazione del mezzo di contrasto nel plasma. La AIF è
assunta essere la somma di tre esponenziali decrescenti. Con queste assunzioni si ottiene:
K trans
3 3
X X Ai (e− ve t
− e−mi t )
Ct = f racĊ(t) Ai K trans
,
i=1 i=1
mi − ve
dove Ċ è la pendenza iniziale di Ct .
Modello di Simpson
In questo modello non si considera il contributo della concentrazione del mezzo di contrasto nel
plasma, si modella la curva AIF (andamento temporale di Cp ) usando l’equazione seguente:
Cp (t) = A · t · e−t·B + C[1 − e−t·D ] · e−t·E ,
dove A, B, C, D, E sono opportuni coefficienti da calcolare.
Nota la curca AIF è possibile modellare la curva Ct (t) come segue:
Z t
ep
Ct (t) = K trans Cp (t)e−k (t−τ ) dτ,
0
risolvendo l’integrale si ottiene:
A · t · eB·t C K trans
Ct (t) = K trans { K trans − K trans [e−B·t − e− ve t ]
ve −B ( ve − B)2
C K trans C K trans
+ K trans [e−E·t − e ve t
]− K trans
[e−(D+E)·t − e− ve t ]}.
ve −E ve −D−E
1.9 Stima dei parametri cinetici mediante algoritmi non ite-

rativi
1.9.1 Algoritmo di Horsfield e Morgan

L’algoritmo seguente é dovuto a Horsfield e Morgan, 2004. Consideriamo l’equazione della concen-
trazione del mezzo di contrasto nel tessuto:
Z t
trans K trans
Ct (t) = K Cp (t) exp(− (t − τ ))dτ
0 ve
con un cambio di variabili t = n∆t, τ = m∆t questa puó essere riscritta piú compattamente come
segue:
Z n∆t 0
0 K trans
Ct (n∆t) = K trans Cp (m) exp(− (n − m))dm (1.59)
0 ve
0
dove K trans = K trans ∆t. Questa puó essere scritta nella forma ricorsiva
Z n∆t 0
0 K trans
Ct (n) = Ct (n − 1)E + K trans Cp (m) exp(− (n − m))dm (1.60)
(n−1)∆t ve
Se Cp e Ct sono campionate regolarmente, in N istanti di tempo discreto equidistanti con un

intervallo di campionamento ∆t tra i campioni, la versione discreta dell’equazione 1.60 puó essere
riscritta come segue 0
Ctn = Ctn−1 E + K trans Cpn (1.61)

per n = 2, ...., N , dove Ctn è l’n-simo campione della concentrazione del mezzo di contrasto nel
tessuto e Cpn é l’n-simo campione della concentrazione del mezzo di contrasto nel plasma. Questa
forma di discretizzazione é equivalente a modellare la funzione di input arterioso con una serie di
impulsi (Figura 1.16).
Dividendo i membri dell’equazione 1.60 per Cpn , abbreviando zn = Ctn /Cpn e sn = Ctn−1 /Cpn
si ottiene: 0
zn = sn E + K trans
per n = 2, ...., N . Comunque, modellare la AIF in questo modo puó essere non sempre efficiente
particolarmente con periodo di campionamento lunghi. Altri modi di modellare la AIF includono
un’approssimazione costante a tratti e lineare a tratti (Figura 1.16).
Figura 1.16: a. Schematizzazione della funzione AIF continua. Le tre forme di approssimazione
discreta sono la rappresentaimpulsiva b., la rappresentazione costante a tratti c., la rappresentazione
lineare a tratti d.
Eseguendo l’integrazione nell’equazione 1.60 si possono ottenere le due espressioni per la Ctn
rispettivamente per l’approssimazione costante a tratti e per l‘approssimazione lineare a tratti come
segue: √ √
trans0 Cpn ( E − 1) + Cpn−1 (E − E)
Ctn = Ctn−1 E + K [ ] (1.62)
log(E)
per n = 2, ...., N e:
0 Cpn (E − log(E) − 1) − Cpn−1 (E − Elog(E) − 1)
Ctn = Ctn−1 E + K trans [ ] (1.63)
log(E)2
per n = 2, ...., N . In tutti e due i casi la stima dei parametri cinetici puó essere fatta mediante una
regressione lineare non iterativa in cui vengono calcolate le costanti che moltiplicano Ctn−1 , Cpn e
Cpn−1 e successivamente estrapolati i parametri cinetici.
1.9.2 Algoritmo di Murase

Ripartiamo dal modello di Kety-Schmidt:
dCe
ve = K trans (Cp − Ce )
dt

1.9. STIMA DEI PARAMETRI CINETICI MEDIANTE ALGORITMI NON ITERATIVI
tenendo conto della relazione

Ct = ve Ce + vp Cp
si ottiene:
d[Ct − vp Cp ] Ct − vp Cp
= K trans (Cp − )
dt ve
Integrando ambo i membri di quest’equazione fino ad un istante tk si ottiene:
Z tk Z tk
trans
Ct (tk ) = vp Cp (tk ) + (K + kep vp ) Cp (τ )dτ − kep Ct (τ )dτ
0 0
considerando k = 1, . . . , N ed organizzando in forma matriciale otteniamo:

 
vp
Ct = [Cp , Ĉp , −Ĉt ]  K trans + kep vp 
kep
da cui si puó trovare la soluzione con il metodo OLS (Ordinary Least Squares).

Tabella 1.3: Grandezze fisiche usate nel modello IDT.
Nome Definizione Unitá
F il flusso di plasma attraverso i vasi [ml/min]
VP volume del plasma [ml]

VI volume interstiziale [ml]
VT volume complessivo del tessuto [ml]
VD volume di distribuzione tracciante (VD = VP + VI ) [ml]
-

fP frazione di tessuto vascolare (= VP /VT )
fI frazione di tessuto interstiziale (= VI /VT ) -
fD frazione della regione in cui il tracciante si distribuisce (= VD /VT = fP + fI ) -
CP concentrazione di tracciante nello spazio intravascolare [mmol/L]
Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016

CI concentrazione di tracciante nello spazio interstiziale [mmol/L]
CT concentrazione di tracciante nel tessuto (= fP CP + fI CI ) [mmol/L]
CD concentrazione di tracciante nello spazio di distribuzione [mmol/L]
CA concentrazione di tracciante nella arteria di ingresso [mmol/L]
CV concentrazione di tracciante nella vena di uscita [mmol/L]
CB concentration within the blood (= CA (1 − HLV )) [mmol/L]
ρT densitá del tessuto [g/ml]
m massa del tessuto (= ρT VT ) [g]
HLV ematocrito del sangue nei grandi vasi (Large Vessels) (≈ 0.45) -
HSV ematocrito del sangue nei piccoli vasi (Small Vessels) (≈ 0.25) -
P P
rBV regional blood volume (volume del plasma) (= (1−HVSV )m
= (1−HfSV )ρT
) [g−1 ]
F F
rBF (= (1−HSV )m = (1−HSV )ρT VT ) [g−1 min−1 ]
38
1.10. ESERCIZI
1.10 Esercizi
1.10.1 Esempio Matlab

In questo esempio supponiamo, a scopo puramente esemplificativo, che i tempi di transito abbiano
una distribuzione di tipo Fisher con certi specifici parametri. Supponiamo inoltre che la funzione
di AIF abbia anch’essa una forma di tipo Fisher (entrambe molto simili a quelle misurate speri-
mentalmente). Simuliamo la concentrazione attesa in uscita all’organo. Proviamo ad effettuare
una deconvoluzione mediante inversione della trasformata di Fourier, cioé partendo dalla CA e CV
cerchiamo di ricavare la h(t) e confrontiamola con quella usata per simulare i dati.
h
6 Ca
Cv
hr
5
4
a.u.
0
0 1 2 3 4 5
time [s]
Figura 1.17: Esempio di funzione di distribuzione dei tempi di transito, Concentrazione arteriosa e
venosa tipici. Ricostruzione della h(t) mediante deconvoluzione per inversione della trasformata di
Fourier.
% IDT
close all
clear all
% asse dei tempi

Ts = 0.01; % tempo in minuti
t = 0:Ts:5;
% distribuzione dei tempi di transito

% [min^-1]
h = fpdf(t,4,6);
% funzione di input arterioso

% [mmol/L]
Ca = 10*fpdf(t,3,5);
% concentrazione in uscita all’organo

% [mmol/L]
Cv = Ts*conv(h,Ca);

90 H
CA
CV
80
Hr
70
60
50
a.u.
40
30
20
10
0
0 0.05 0.1 0.15 0.2 0.25 0.3
frequency [Hz]
Figura 1.18: Esempio di trasformate di Fourier della funzione di distribuzione dei tempi di transito,
Concentrazione arteriosa e venosa tipici.
Cv = Cv(1:length(t));
% processo di deconvoluzione
CA = fft(Ca);
CV = fft(Cv);
Hr = CV ./ CA /Ts;
hr = ifft(Hr);
% trasformata reale di h per confronto con hr

H = fft(h);
% asse frequenze
fax = (0:length(H)-1)/length(H) /Ts / 60; % in Hz
figure
plot(t,h,’r’,t,Ca,’b’,t,Cv,’k--’,t,real(hr),’c’)
legend(’h’,’Ca’,’Cv’,’hr’)
xlabel(’time [s]’)
ylabel(’a.u.’)
axis([0 t(end) 0 max(Ca)])
figure
plot(fax,abs(H),’r’,...
fax,abs(CA),’b’,...
fax,abs(CV),’k--’,...
fax,abs(Hr),’g-.’)
legend(’H’,’CA’,’CV’,’Hr’)
xlabel(’frequency [Hz]’)
ylabel(’a.u.’)
axis([0 20/60 0 max(abs(H))])

1.10. ESERCIZI
Spunto di riflessione: perché la h(t) ottenuta per deconvoluzione non é identica a quella
usata per simulare i dati?
1.10.2 Esempio: modello a due compartimenti

É interessante considerare il modello a due compartimenti illustrato in figura 1.19. Per esso potremo
scrivere le seguenti equazioni:
q̇1 (t) = −g21 q1 (t) − g01 q1 (t) + g12 q2 (t) + b10 (t) (1.64)
q̇2 (t) = g21 q1 (t) − g12 q2 (t) (1.65)
che si puó riscrivere:

q̇1 −(g21 + g01 ) g12 q1 (t) b10 (t)
= + (1.66)
q̇2 g21 −g12 q2 (t) 0
Figura 1.19: Un esempio di modello a due compartimenti.
Si puó verificare che la matrice A é di tipo compartimentale. Gli autovalori possono essere
trovati usando l’equazione caratteristica:

−(g21 + g01 ) − λ g12 = λ2 + λ(g12 + g21 + g01 ) + g12 g21

|A − λI| = (1.67)
g21 −g12 − λ
Indichiamo con λ1 e λ2 le due soluzioni.Si ha λ1 + λ2 = −(g12 + g21 + g01 ) e λ1 λ2 = g12 g01

Consideriamo la soluzione nel caso di iniezine di un bolo. Ció equivale a considerare q(0) =
q0 = [q0 , 0]T e b(t) = 0. Pertanto si avrá q(t) = eAt q0 .
Facendo l’ipotesi di autovalori distinti la matrice A é diagonalizzabile: A = SΛS−1 . Tenendo
conto che An = SΛn S−1 allora la eq. (1.18) si puó riscrivere
2
X
q(t) = eAt q0 = SeΛt S−1 q(0) = sk s−
k q0 e
λk t
(1.68)
k=1

dove
S = [s1 s2 ]
e
s−

S−1 = 1
s−
2
Ponendo poi:
a b
S= (1.69)
c d
si ottiene:
q0
q1 (t) = (adeλ1 t − bceλ2 t ) (1.70)
ad − bc
q0 cd
q2 (t) = (eλ1 t − eλ2 t ) (1.71)
ad − bc
La risposta ad una infusione costante si puó ottenere ponendo q0 = 0 e b(t) = b0 = [b10 0]T per
t > 0. Dalla 1.17 si ha:
2
X 1
q(t) = sk s−
k b0 (1 − e
λk t
) (1.72)
|λk |
k=1
usando la 1.69 si ottiene:

b10 ad bc
q1 (t) = (1 − eλ1 t ) − (1 − eλ2 t ) (1.73)
ad − bc |λ1 | |λ2 |
λ1 t
1 − eλ 2 t

b10 cd 1−e
q2 (t) = + (1.74)
ad − bc |λ1 | |λ2 |
1.10.3 Esercizio
Dimostrare le 1.17,1.68, 1.72,1.70 e le 1.73.

I risultati del seguente codice sono visualizzati nella figura 1.20
% modello a due compartimenti

clear all
close all
% iniezione di bolo
b10 = 0.1; % mmol/min
q0 = [b10 0]’;
% coefficenti di trasferimento frazionale

g01 = 0.6; % min^{-1}
g12 = 0.3; % min^{-1}
g21 = 0.7; % min^{-1}
% matrice compartimentale
A = [ -(g21 + g01) g12; g21 -g12];
% polinomio caratteristico
p = poly(A);

1.10. ESERCIZI
% autovalori
lambda = roots(p);
% metodo alternativo
[S,D]=eig(A);
% asse dei tempi

Ts = 0.1; % in minuti
t = (0:Ts:50)’; % durata totale
S_ = inv(S);
q = zeros(2,length(t));
for k=1:2
q = q + ...
((S(:,k)*S_(k,:)*q0) * ones(1,length(t))) .* ...
(ones(2,1)*exp(lambda(k)*t’));
end
q = q’;
figure
plot(t,q(:,1),’r’,t,q(:,2),’c’)
xlabel(’time [min]’)
ylabel(’quantità di tracciante [mmol]’)
title(’iniezione di un bolo’)
legend(’q_1’,’q_2’)
axis([0 t(end) 0 b10])
% infusione costante
b0 = [b10 0]’;
q = zeros(2,length(t));
for k=1:2
q = q + ...
(1/abs(lambda(k)))*((S(:,k)*S_(k,:)*b0) * ones(1,length(t))) .* ...
(ones(2,length(t))-(ones(2,1)*exp(lambda(k)*t’)));
end
q = q’;
figure
plot(t,q(:,1),’r’,t,q(:,2),’c’)
line([0 t(end)],[ b10 b10])
ylabel(’quantità di tracciante [mmol]’)
title(’infusione costante’)
legend(’q_1’,’q_2’,’b_{10}’)
axis([0 t(end) 0 max(q(:))])
1.10.5 Esercizio
Provare a modificare i vari coefficienti nel codice illustrato ed osservare come cambiano le curve di
assorbimento nel tempo.

iniezione di un bolo
0.1
q1
0.09 q2
quantità di tracciante [mmol] 0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0 10 20 30 40 50
time [min]
(a)
infusione costante
q
1
0.35 q
2
b
10
0.3
quantità di tracciante [mmol]
0.25
0.2
0.15
0.1
0.05
0
0 10 20 30 40 50
time [min]
(b)
Figura 1.20: Risultato del codice Matlab.

1.10. ESERCIZI

% Algoritmi non iterativi
clear all
close all
Ts = 0.01; %minuti
t = (0:Ts:10)’;
% AIF di Weinmann
a1 = 3.99; %[kg/L]
a2 = 4.78; %[kg/L]
m1 = 0.144; % [min^-1]
m2 = 0.0111; % [min^-1]
D = 0.1; % [mmol/kg] [dose somministrata]
Ktrans = 0.8;
ve = 0.6;
kep = Ktrans / ve;
Ct = D * Ktrans * (a1 * (exp(-m1*t)-exp(-kep*t))./(kep-m1) + ...

a2 * (exp(-m2*t)-exp(-kep*t))./(kep-m2));
Cp = D * (a1 * exp(-m1*t) + a2 * exp(-m2*t));
figure
plot(t,Ct,’r’)
ylabel(’Ct [mmol/L]’)
% algoritmo di Horsfield & Morgan

deltaT = t(2)-t(1);
z = Ct(2:end) ./ Cp(2:end);
s = Ct(1:end-1) ./ Cp(2:end);
P = [s ones(length(s),1)] \ z;
E = P(1);
Ktrans_est = P(2)/deltaT;
kep_est = -log(E) /deltaT;
% algoritmo di Murase
A = [Cp cumsum(Cp)*deltaT -cumsum(Ct)*deltaT];
P2 = A \ Ct;
kep_est2 = P2(3);
Ktrans_est2 = P2(2)-P2(3)*P2(1);
1.10.7 Esercizio
Dimostriamo la 1.21. Per il compartimento n-simo possiamo scrivere:
q̇n = kqn−1 − kqn
Ricordando che la trasformata di Laplace della derivata è L(q̇) = sL(q) − q(0), e assumendo che il
tracciante viene iniettato nel compartimento 1 e quindi qn (0) = 0 per n 6= 1, si ha:
kqn−1 (s)
qn (s) =
s+k

che applicata iterativamente da:

k n−1 q1 (s)
qn (s) =
(s + k)n−1
q1 (0)
Essendo q1 (s) = s+k si ha:
k n−1 q1 (0)
qn (s) =
(s + k)n
R∞
Ora ricordiamo la trasformata L(tn ) = 0
tn e−st dt = n!/sn+1 e la trasformata L(e−αt q(t)) =
q(s + α) per cui si ha:
k n−1 q1 (0)tn−1 −kt
qn (t) = e
(n − 1)!
1.10.8 Esercizio
Con riferimento all’algoritmo di Murase, usare approssimazioni migliori dell’integrale. Aggiungere
rumore ai dati e ricalcolare le stime dei parametri.

Capitolo 2
Modello del segnale

elettromiografico (EMG)
Per una descrizione esauriente della fisiologia neuromuscolare si rimanda a testi appositi (ad es.
[20]), in questo paragrafo si ricordano i principali aspetti utili per la modellazione.
Come é noto si definisce unitá motoria (MU, motor unit) la struttura fisiologica costituita da un
motoneurone delle corna anteriori e dalle fibre muscolari che esso innerva (fig. 2.1, 2.3). Il numero di
fibre muscolari per motoneurone é noto come rapporto di innervazione. Muscoli di grosse dimensioni
possono avere un rapporto di innervazione dell’ordine delle centinaia; muscoli per movimenti fini
invece hanno un rapporto di qualche decina.
Si definisce potenziale d’azione di singola unitá motoria (Single Motor Unit Action Potential,
SMUAP) l’attivitá elettrica di una singola unitá motoria. Le SMUAP possono esser tipicamente
bi-fasiche o tri-fasiche, della durata di circa 3 − 15ms e di ampiezza di 100 − 300µV , con una
frequenza di scarica di circa 6 − 30Hz.
Il segnale elettro-miografico (EMG) é una manifestazione della attivitá elettrica muscolare com-
plessiva di tutte le MU attive in un certo intervallo di tempo; puó essere prelevato con elettrodi di
superficie o percutanei.
Nel seguito si descrivono alcuni modelli di tale segnale che si ispirano alla fisiologia neuro-
muscolare.
Figura 2.1: Organizzazione delle unitá motorie
47
Capitolo 2. Modello del segnale elettromiografico (EMG)
Figura 2.2: Prelievo del segnale EMG da una singola MUAP. [de Luca 1979, IEEE transactions on
Biomedical Engineering]
2.1 Singola unitá motoria

Il modello che sará illustrato nel seguito é stato proposto da Agarwal et al. [19]. Sia h(t) la risposta
della MU ad un impulso proveniente dal moto-neurone (vedi fig. 2.2, 2.4).
Quest’ultimo emette impulsi con cadenza aleatoria: l’intervallo τ tra un impulso e l’altro (Inter
Pulse Interval, IPI; oppure Inter Spike Interval, ISI) puó essere schematizzato con una successione
di v.a. gaussiane i.i.d. di media pari alla frequenza media di scarica µ e varianza σ 2 .
É stata trovata una relazione tra la media e la varianza della ISI: ad esempio per il bicipite
brachiale umano si é trovata la relazione (2.1)
σ = 9.1 × 10−4 µ2 + 4msec (2.1)
Consideriamo un intervallo finito di osservazione in cui il moto-neurone emette N + 1 scariche.

Pertanto la risposta della MU sará data da
N
X
y(t) = h(t) ∗ δ(t − tk ) = h(t) ∗ x(t) (2.2)
k=0
dove tk , é il k-esimo istante di scarica ed x(t) é il treno di impulsi in ingresso al motoneurone.

Si ha tk = t0 + (t1 − t0 ) + ... + (tk − tk−1 ) = t0 + τ1 + τ2 + ... + τk dove ogni intervallo τi é una
v.a. gaussiana; t0 é il primo istante di scarica. Senza perdere in generalitá possiamo porre t0 = 0.
Pertanto in definitiva si ha: E[tk ] = kµ e E[(tk − kµ)2 ] = kσ 2 .
Calcoliamo ora la trasformata di Fourier del treno di impulsi x(t):
N
Z X N
X
X(ω) = δ(t − tk )e−jωt dt = e−jωtk
k=0 k=0

2.1. SINGOLA UNITÁ MOTORIA
Figura 2.3: Anatomia, modello fisiologico e prelievo da un insieme di MU. [de Luca 1979, IEEE
transactions on Biomedical Engineering]
Essendo tk una variabile aleatoria, anche X(ω) é una variabile aleatoria. Per calcolarne la media
si puó procedere come segue, sfruttando la linearitá dell’operatore di media statistica:
N N N
(tk −kµ)2
Z
X X X 1
E[X(ω)] = E[ e −jωtk
]= −jωtk
E[e ]= √ e−jωtk e− 2kσ 2 dtk
k=0 k=0 k=0
2πkσ 2
ponendo tk − kµ = r otteniamo:
r2
Z
−jωtk 1
E[e ]= √ exp(−jωkµ) exp(− ) exp(−jωr)dr
2πkσ 2 2kσ 2
Ricordando che la trasformata di Fourier di:

t2
exp(− ) (2.3)
2σ 2
é
√ σ2 ω2
σ 2π exp(− ), (2.4)
2

Figura 2.4: Modello di Agarwal. Un treno di impulsi stimola la fibra muscolare. A ciascun impulso
corrisponde un potenziale d’azione bifasico.
e ricordando la (2.2) otteniamo:
N
X kσ 2 ω 2
E[X(ω)] = exp(−jωkµ) exp(− )
2
k=0
E[Y (ω)] = E[X(ω)]H(ω)
2.1.1 Esempio in Matlab

I risultati corrispondenti a questa simulaizone sono riportate in fig. 2.5.
% Modello di Agarwal
close all
clear all
% generiamo una risposta h(t) bifasica

len = 0.020; % secondi, lunghezza di una risposta
A = 100; % microvolt
Ts = len/100; % campionamento
t1 = (Ts:Ts:len)’;
h = A*sin(2*pi*1/len*t1);
% generiamo un treno di impulsi

% separato da intervalli casuali
mu = 0.020; % intervallo medio in secondi
sd = 9.1*10^-4 * mu^2+0.004; % variabilità in secondi
N = 20; % numero di impulsi
M = 50; % numero di MU
tau = randn(N,M)*sd + mu; % inervalli tau
interv = round(tau / Ts); % conversione in campioni 1ms == 1 campione
L = 1600; % consideriamo un intervallo di uguale durata per tutte le MU

treni = [];
for m = 1:M
treno = [];
for k=1:N
treno = [treno; zeros(interv(k,m),1); 1];
end
treno = treno(1:L);

2.1. SINGOLA UNITÁ MOTORIA
treni(:,m) = treno;
end
t = (0:L-1)’ * Ts;
% genera le SMUAP
for m = 1:M
dum = conv(h,treni(:,m));
smuap(:,m) = dum(1:L);
end
smuap = sum(smuap’)’;
% Spettro reale
SMUAP = abs(fft(smuap));
fax = (0:length(SMUAP(:,1))-1)’ /length(SMUAP(:,1))/(Ts);
% spettro teorico
w = fax * 2 * pi;
Pw = zeros(size(w));
for n = 1:N
Pw = Pw + exp(-j * w.^2 * sd^2 / 2 ) .* exp(-j * w * n * mu);
end
Hw = fft(h,L);
PH = abs(Pw .* Hw) * sqrt(M);
% Figure
figure
plot(t1,h)
title(’Single Motor Unit Action Potential’)
ylabel(’Amplitude [\mu V]’)
figure
plot(t,smuap)
title(’EMG sintetico’)
ylabel(’Amplitude [\mu V]’)
figure
plot(fax,SMUAP,’r’,fax,PH,’k’)
title(’spettro teorico e reale’)
ylabel(’Amplitude’)
legend(’Spettro dell’’EMG sintetico’,’Spettro teorico’)
axis([0 500 0 max(abs(PH))])

Single Motor Unit Action Potential

100
80
60
40
Amplitude [µ V]
20
−20
−40
−60
−80
−100
0 0.005 0.01 0.015 0.02
time [s]
(a)
EMG sintetico
3000
2500
2000
1500
Amplitude [µ V]
1000
500
−500
−1000
−1500
−2000
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
time [s]
(b)
5 spettro teorico e reale

x 10
7
Spettro dell’EMG sintetico
Spettro teorico
6
5
Amplitude
0
0 100 200 300 400 500
frequency [Hz]
(c)
Figura 2.5: (a) Potenziale bifasico simulato. (b) EMG sintetico. (c) Spettro teorico e reale dell’EMG
sintetico.
2.2 Insieme di unitá motorie

Il seguente modello é stato proposto da Shwedik et al. [12].

2.2. INSIEME DI UNITÁ MOTORIE
Figura 2.6: Modello di shwedik
Con riferimento allo schema di fig. 2.6 facciamo le seguenti assunzioni (vedi [12]):
• il segnale EMG e(t) é dato dalla somma delle risposte delle singole unitá motorie
• la j-sima unitá motoria é guidata da unaP

serie di impulsi che costituiscono la derivata di un
∞
processo aleatorio di Poisson (vedi A.13) m=−∞ δ(t − tjm ), di media ka
• la risposta impulsiva della j-sima unitá motoria é hj (t)
• i coefficienti di peso kj sono tratti da una variabile aleatoria che tiene conto della disposizione
degli elettrodi (E[kj ] = k̄)
• all’istante t vi sono n(t) unitá motorie attive
Pertanto il segnale EMG ha la seguente espressione:
n(t) ∞
X X
e(t) = kj [hj (t) ⊗ δ(t − tjm )] (2.5)
j=1 m=−∞
Per semplificare la trattabilitá matematica possiamo supporre che tutte le unitá motorie abbiano
la medesima risposta impulsiva h(t), pertanto l’eq 2.5 diventa, essendo l’operatore di convoluzione
lineare:
n(t) ∞
X X
e(t) = h(t) ⊗ kj δ(t − tjm )
j=1 m=−∞
Per caratterizzare il processo aleatorio e(t) calcoliamone media e varianza. Tenendo conto della
linearitá dell’operatore di media statistica, ePconsiderando che kj (disposizione degli elettrodi) sono
∞
indipendenti tra loro e rispetto al processo m=−∞ δ(t − tjm ) (treni di impulsi):

Figura 2.7: Tipico MUAP del muscolo brachiale [Shwedik 1977 IEEE Biomedical Engineering]
n(t) ∞
X X
µe (t) = E[e(t)] = h(t) ⊗ E[ kj δ(t − tjm )] =
j=1 m=−∞
X∞
= h(t) ⊗ n(t)E[kj ]E[ δ(t − tjm )]
m=−∞
adesso basta ricordare che la media della derivata del processo di Poisson é uguale a ka per ogni j
e si ottiene:
µe (t) = h(t) ⊗ n(t)k̄ka
Dal momento che, per via sperimentale [12] si vede che n(t) e h(t) occupano bande di frequenze
differenti, questo valore medio é zero: µe (t) = 0.
La varianza del segnale e(t) é:
σe2 (t) = E[e2 (t)]

   
n(t) ∞ n(t) ∞
X X X X
= E h(t) ⊗ kj δ(t − tij ) · h(t) ⊗ kl δ(t − tlm )
j=1 i=−∞ l=1 m=−∞
 
Z n(τ ) ∞ Z n(λ) ∞
X X X X
= E  h(t − τ ) kj δ(τ − tij )dτ h(t − λ) kj δ(λ − tij )dλ
j=1 i=−∞ j=1 i=−∞
Z Z
= dλdτ h(t − τ )h(t − λ)E[kj2 ] min[n(λ), n(τ )]φ(τ − λ)
con φ(τ ) = ka δ(τ ) + ka2 funzione di autocorrelazione del processo di Poisson con trasformata di
Fourier Φ(ω) = ka + ka2 δ(ω)].
Da dati sperimentali si osserva che:
• Un tipico MUAP del bmuscolo brachiale umano (h(t)) é presentato in figura 2.7

2.2. INSIEME DI UNITÁ MOTORIE
Figura 2.8: Spettro del MUAP brachiale di figura 2.7 [Shwedik 1977 IEEE Biomedical Engineering]
• Il contenuto frequenziale del MUAP (H(ω)) è praticamente nullo al di sotto di circa 40 Hz

(vedi fig. 2.8)
• H(ω)⊗H(ω) é praticamente costante nel range di frequenza in cui F [σ(t)] é apprezzabilmente
6= 0
• Φ(ω) é costante nel range di frequenze in cui H(ω) é apprezzabilmente 6= 0
tenendo cono delle considerazioni precedenti, trasformando secondo Fourier ed effettuando alcune
semplificazioni, e quindi antritrasformando si ottiene:
n(t) = σe2 (t)/K
Quindi il segnale EMG può essere modellato come e(t) = [Kn(t)]1/2 w(t) dove w(t) é un processo
stazionario a media zero e varianza unitaria.
Problema Generare un processo derivata di poisson in Matlab. Usando tale processo ed una
n(t) sinusoidale con frequenza 1 Hz generare un EMG sintetico e confrontaro con l’EMG di figura
2.5(b). [suggerimento: usare i risultati della sezione A.13]


Capitolo 3
Modello della Heart Rate

Variability (HRV)
La frequenza cardiaca non é costante ma varia in conseguenza delle esigenze dell’organismo [20].
Come noto la frequenza cardiaca é controllata dal nodo del seno il quale risente dell’azione dei sistemi
vago e simpatico (vedi fig. 3.1). Secondo linee guida internazionali la analisi della variabilitá della
frequenza cardiaca (Heart Rate Variability) fornisce informazioni su tale sistema di controllo [16].
La attivitá dei due sistemi simpatico e parasimpatico puó essere quantificata mediante l’analisi delle
componenti frequenziali del segnale HRV.
La frequenza cardiaca puó essere ricavata dall’ECG. Nel seguito si esaminano tecniche di mo-
dellazione del HRV e metodiche di elaborazione correlate all’analisi dell’HRV: un algoritmo per la
rilevazione dei complessi QRS dall’ECG; algoritmi per la riduzione dell’errore nella determinazione
dell’onda R; definizione della HRV.
3.1 Modello Integral Pulse Frequency Modulation (IPFM)

Si tratta di un modello deterministico (vedi fig. 3.2), in cui (vedi fig. 3.3) detti tk e tk−1 gli istanti di
occorrenza del k-simo e k − 1-simo battiti, l’intervallo RR tra di essi soddisfa la seguente relazione:
Z tk
T0 = [1 + m(t)]dt (3.1)
tk−1
Figura 3.1: Influenza dei sistemi simpatico e parasimpatico sul nodo del seno.
57
Capitolo 3. Modello della Heart Rate Variability (HRV)
Figura 3.2: Modello IPFM: schema a blocchi
dove T0 é l’intervallo RR medio che é una costante fissata; m(t) é un segnale modulante che sup-
poniamo |m(t)| < 1 e senza componente continua. Se m(t) = 0 allora l’intervallo RR k-simo
é dato da T0 ; se m(t) → 1 =⇒ [1 + m(t)] → 2 e quindi la distanza (tk − tk−1 ) → T0 /2; se
m(t) → −1 =⇒ [1 + m(t)] → 0 e quindi (tk − tk−1 ) → ∞.
Per capire le proprietá di tale modello, analizziamone lo spettro nel caso in cui il segnale
modulante sia una sinusoide m(t) = mcos(ωm t).
Sommando l’eq. (3.1) su N intervalli e ponendo t0 = 0 si ha:
N
X N Z
X tk
N T0 = T0 = [1 + m(t)]dt
k=1 k=1 tk−1
Z tN
m
= [1 + mcos(ωm t)]dt = tN + sin(ωm tN ) (3.2)
0 ωm
Supponiamo che ogni impulso sia rettangolare di ampiezza a. Tale impulso é caratterizzato
da un fronte di salita ed uno di discesa. Il fronte di salita occorre negli istanti tN che soddisfano
la relazione precedente. Pertanto, definendo una nuova variabile tempo t+ = t + ωmm sin(ωm t), e
tenendo conto della relazione precedente, l’N − simo fronte di salita é rappresentato dalla funzione
gradino u(t+ − N T0 ).
Gli istanti di occorrenza dei fronti di discesa possono essere determinati traslando l’asse dei
tempi di a e definendo una nuova variabile t− = (t − a) + ωmm sin(ωm (t − a)), pertanto i fronti di
discesa sono rappresentati da u(t− − N T0 )
In definitiva la successione degli impulsi ha la seguente espressione:

3.1. MODELLO INTEGRAL PULSE FREQUENCY MODULATION (IPFM)
Figura 3.3: Modello IPFM: relazione tra ingresso ed uscita
∞
X
u(t+ − N T0 ) − u(t− − N T0 ) (3.3)
N =−∞
1
Usando la formula di Poisson si puó pertanto scrivere:
∞ ∞
X 1 X 1 + −
u(t+ − N T0 ) − u(t− − N T0 ) = (ejN ω0 t − ejN ω0 t ) (3.4)
T0 jω0 N
N =−∞ N =−∞
e sostituendo le variabili t+ e t− per esteso:
∞
X 1 m m
(ejN ω0 (t+ ωm sin(ωm t)) − ejN ω0 [(t−a)+ ωm sin(ωm (t−a))] ) (3.5)
j2πN
N =−∞
2
Questa espressione si semplifica tenendo conto della relazione di Bessel
La singolarità della sommatoria nel punto N = 0 può essere risolta usando il teorema dell’Ho-
pital:
1 ω0 m ω0 m
· j(ω0 t + sin(ωm t) − ω0 (t − a) − sin(ωm (t − a)))
j2π ωm ωm
1 ω0 m
= · (ω0 a + 2cos(ωm (t − a/2))sin(ωm a/2)) (3.6)
2π ωm
quindi possiamo scrivere, per N 6= 0, e tenendo conto delle proprietà di simmetria delle funzioni di
Bessel:
1
P∞Data una funzione1 qualunque
P∞ φ(t) e la sua trasformata di Fourier Φ(ω) la formula di Poisson é la seguente:
jkω0 t Φ(kω ) con ω = 2π .
k=−∞ φ(t + kT ) = T k=−∞ e 0 0 T
1 1
2
P∞La relazione di Bessel riguarda lo sviluppo in serie di Laurent P∞ della seguente funzione: e 2 β(z− z ) =
k jωt jβsin(ωt) jkωt
k=−∞ Jk (β)z . In particolare se z = e si ha: e = k=−∞ Jk (β)e . Alcune proprietá della
funzione di Bessel Jn (β) sono: J0 (0) = 1, Jn (0) = 0, J−n (β) = (−1)n Jn (β), Jn (−β) = (−1)n Jn (β)

Figura 3.4: Spettro del modello IPFM
∞
1 X 1 jN ω0 t jNωω0 m sin(ωm t) jN ω0 m
e (e m − e−jN ω0 a e ωm sin(ωm (t−a)) )
j2π N
N =−∞
∞ ∞ ∞
1 X 1 jN ω0 t X X
= e ( Jk (N β)ejkωm t − e−jN ω0 a Jk (N β)ejkωm (t−a) )
j2π N
N =−∞ k=−∞ k=−∞
∞ ∞
1 X 1 jN ω0 t X
= e ( Jk (N β)ejkωm t (1 − e−jN ω0 a e−jkωm a )) (3.7)
j2π N
N =−∞ k=−∞
(3.8)
pertanto in definitiva:
aω0 aω0 m sin(aωm /2)

+ cos(ωm (t − a/2))+
2π 2π aωm /2
∞ ∞
X X sin((N ω0 + kωm )a/2)
+ aω0 Jk (N β) cos[(N ω0 + kωm )(t − a/2)]
N ω0 a/2
N =1 k=−∞
Lo spettro che si ottiene ha le seguenti caratteristiche (vedi fig. 3.4):
• il primo termine rappresenta la componente continua

• il secondo termine rappresenta il segnale modulante
• gli altri temrini appaiono alle frequenze multiple di ω0 con bande laterali costituite da multipli
della ωm
Pertanto in linea di principio é possibile isolare la componente di modulante mediante un

filtraggio passa basso.

% IPFM
close all
clear all
% tempi
Ts = 0.01; % secondi

3.1. MODELLO INTEGRAL PULSE FREQUENCY MODULATION (IPFM)
L = 5*60; % durata totale in secondi

tempo = 0:Ts:L;
fm1 = 0.05;
m1 = 0.1*cos(2*pi*fm1*tempo+pi/3);
fm2 = 0.04;
m2 = 0.3*cos(2*pi*fm2*tempo);
fm3 = 0.02;
m3 = 0.4*cos(2*pi*fm3*tempo);
m = m1+m2+m3;
%m = zeros(size(tempo));
T0 = .7; % secondi
k=1;
occorrenze = [];
while(k<length(m))
integrale = 0;
while(integrale<T0 & k<length(m))
integrale = integrale + (1 + m(k))*Ts ;
k = k+1;
end
occorrenze = [occorrenze ; k];
integrale = 0;
end
occorrenze(end)=[];
segnale = zeros(size(tempo));
segnale(occorrenze) = ones(size(occorrenze));
figure
plot(tempo,m,’r’)%,tempo(occorrenze),ones(size(occorrenze)),’o’)
ylabel(’Segnale modulante m(t) [a.u.]’)
figure
plot(tempo,segnale,’r’,tempo,m,’--’)
axis([25 60 -0.5 1.5])
ylabel(’Occorrenze dell’’RR’)
legend(’ocorrenze’,’modulante’)
figure
S = abs(fft(segnale));
fax = (0:length(tempo)-1)/length(tempo)/Ts;
plot(fax,S)
axis([0 0.1 0 max(S)])
ylabel(’Spettro [a.u.]’)

Figura 3.5: IPFM. Segnale modulante.
3.2 Poincare plot
Il plot di Poincare é una modalitá di rappresentazione dell’HRV costituita da uno scatter plot
dell’intervallo RRk rispetto a quello precedente RRk−1 . Il plot fornisce informazioni globali ed
informazioni battito battito.
I punti al di sopra della linea identitá indicano intervalli che sono piú lunghi del precedente. I
punti al di sotto della linea identitá indicano intervalli piú brevi del precedente. Conseguentemente
la dispersione dei punti perpendicolarmente alla linea identitá riflette la variabioitá a medio termine.
La deviazione dei punti lungo al linea di identitá (lunghezza) riflette la variabilitá degli intertvalli
RR.
1.5
ocorrenze
modulante
integrale
1
Occorrenze dell’RR
0.5
−0.5
25 30 35 40 45 50 55 60
time [s]
Figura 3.6: IPFM. Sequenza di impulsi.

3.2. POINCARE PLOT
400
350
300
Spettro [a.u.]
250
200
150
100
50
0
0 0.02 0.04 0.06 0.08 0.1
frequency [Hz]
Figura 3.7: IPFM. Spettro.
3.2.1 Esempio in Matlab

Visualizziamo il diagramma di Poicare del segnale ottenuto con modello IPFM nell’esempio prece-
dente.
RR = diff(occorrenze*Ts);
figure
plot(RR(2:end),RR(1:end-1),’.’)
axis equal
axis([0.2 2*T0 0.2 2*T0])
xlabel(’RR_{k-1} [s]’)
ylabel(’RR_{k} [s]’)

1.2
1
RR [s]
0.8
k
0.6
0.4
0.2
0.2 0.4 0.6 0.8 1 1.2 1.4
RRk−1 [s]
Figura 3.8: Poincare plot. Diagramma del segnale di fig. 3.6

3.3. RILEVAZIONE DEI COMPLESSI QRS
50
Magnitude (dB)
0
−50
−100
0 20 40 60 80 100
Frequency (Hz)
Phase (degrees)
−200
−400
−600
−800
−1000
0 20 40 60 80 100
Frequency (Hz)
Figura 3.9: Risposta in frequenza e in fase del filtro passa basso.
3.3 Rilevazione dei complessi QRS
Nel seguito si illustra un semplice algoritmo per la rilevazione dei complessi QRS proposto da [15].
Il segnale ECG é filtrato con un filtro analogico con taglio a 50Hz ed in seguito campionato a
200Hz. In seguito il segnale digitale viene elaborato per estrarre i complessi QRS.
Il primo filtro é un passa banda il cui scopo é di ridurre le interferenze della 60Hz 3 , del rumore
muscolare, delle oscillazioni della linea di base. La banda desiderata é 5-15Hz. Il filtro é ottenuto
come cascata di un low-pass e di un high-pass. Il secondo filtro é un derivatore il cui scopo é
prelevare informazioni sulla pendenza del complesso QRS. Il terzo filtro effettua il quadrato del
segnale effettuando cosı́ un filtraggio non lineare che esalta le alte frequenze (quelle del QRS). Il
quarto filtro é un integratore di tipo moving average il cui scopo é fornire ulteriori informazioni
sulla forma d’onda R. Vi é infine un algoritmo di identificazione dei picchi QRS.
Il fiducial mark, cioé il punto che identifica l’occorrenza temporale del QRS é costituito dal
massimo dell’onda R.
Low-pass
Scriviamo di seguito la funzione di trasferimento, la risposta in frequenza (vedi fig. 3.9) e l’equazione
alle differenze del filtro (T é il periodo di campionamento):
(1 − z −6 )2
H(z) =
(1 − z −1 )2
sin2 (3ωT )
|H(ωT )| =
sin2 (ωT /2)
y(n) = 2y(n − 1) − y(n − 2) + x(n) − 2x(n − 6) + x(n − 12)
quesito: trovare la frequenza di taglio, il guadagno e il ritardo del filtro.
3 nei paesi anglosassoni é la frequenza della rete elettrica di alimentazione

20
Magnitude (dB)
0
−20
−40
−60
0 20 40 60 80 100
Frequency (Hz)
1000
Phase (degrees)
0
−1000
−2000
−3000
0 20 40 60 80 100
Frequency (Hz)
Figura 3.10: Risposta in frequenza e in fase del filtro passa alto.
High-pass
Scriviamo di seguito la funzione di trasferimento, la risposta in frequenza e l’equazione alle differenze

del filtro (vedi fig. 3.10):
−1 + 32z −16 + z −32
H(z) =
1 + z −1
(256 + sin2 (16ωT ))1/2
|H(ωT )| =
cos(ωT /2)
y(n) = 32x(n − 16) − [y(n − 1) + x(n) − x(n − 32)]
Derivata
Scriviamo di seguito la funzione di trasferimento, la risposta in frequenza e l’equazione alle differenze

del filtro (vedi fig. 3.11):
H(z) = (1/8T )(−z −2 − 2z −1 + 2z 1 + z 2 )
|H(ωT )| = (1/4T )[sin(2ωT ) + 2sin(ωT )]
y(n) = (1/8T )(−x(n − 2) − 2x(n − 1) + 2x(n + 1) + x(n + 2))
Quadratore
L’operazione é la seguente:
y(n) = [x(n)]2
Moving average
Il numero di punti della finestra deve essere approssimativamente uguale alla larghezza del complesso
QRS. Se troppo ampia l’integratore fonderá il complesso QRS con il successivo T; se troppo stretta
alcuni QRS possono provocare diversi picchi. La larghezza si determina empiricamente.
x(n) + x(n − 1) + ... + x(n − N + 1)

y(n) =
N

3.4. ERRORI NELLA DETERMINAZIONE DELLA POSIZIONE DEL PICCO R
Magnitude (dB)
−20
−40
−60
−80
0 20 40 60 80 100
Frequency (Hz)
100
Phase (degrees)
0
−100
−200
0 20 40 60 80 100
Frequency (Hz)
Figura 3.11: Risposta in frequenza e in fase del filtro derivatore.
Algoritmo a soglia
Un picco é un massimo locale definito dal fatto che il segnale cambia direzione in un certo intervallo
di tempo. L’algoritmo di identificazione del QRS prevede una soglia che si adatta nel tempo a
seconda della potenza di segnale e di rumore. Se un picco supera la soglia allora viene classificato
come picco QRS. Il meccanismo della soglia si applica sia al segnale in uscita al secondo filtro
sia al segnale in uscita dall’integratore: se un picco é classificato come QRS in entrambi allora la
classificazione viene ritenuta affidabile.
Si usa la seguente notazione:
SPK é la stima corrente dell’ampiezza dei picchi QRS

NPK é la stima corrente dell’ampiezza dei picchi che non sono correlai al QRS ad es. onde T
PEAK é l’ampiezza del picco corrente
THRESHOLD é l’ampiezza della soglia
le soglie sono variate con il seguente algoritmo:
SP K = 0.125P EAK + 0.875SP K

N P K = 0.125P EAK + 0.875N P K
T HRESHOLD = N P K + 0.25(SP K − N P K)
3.4 Errori nella determinazione della posizione del picco R

Si vede facilmente che la posizione del picco R stimata con il metodo precedente é affetta da un
errore dipendente dalla frequenza di campionamento. Ció é particolarmente importante nel caso in
cui la frequenza di campionamento dell’ECG sia bassa (ad es. Holter).
Piú precisamente detto tk l’istante del k-simo picco R reale, t̂k la posizione stimata, l’errore é
dato da ek = tk − t̂k . Possiamo supporre che le ek siano variabili aleatorie i.i.d. uniformemente
distribuite tra −T /2 e T /2 ed incorrelate (rumore bianco). Pertanto la varianza sará T 2 /12 mentre
2
l’autocorrelazione Ree (m) = T12 δ(m) é impulsiva.
Si puó valutare anche l’errore introdotto nella stima dell’HRV. Infatti l’intervallo RR k-simo
vero e quello misurato sono dati da:

xt (k) = tk − tk−1
xm (k) = t̂k − t̂k−1 = tk − ek − (tk−1 − ek−1 ) = xt (k) − (ek − ek−1 ) = xt (k) − dk
Rxm (m) = Rxt (m) + Rd (m)
dove si é supposto che xt (k) ed dk siano incorrelati, l’indice t in xt non indica il tempo ma la parola
true.
Si hanno le seguenti relazioni:
E[dk ] = E[ek ] − E[ek−1 ] = 0

E[d2k ] = E[e2k ] + E[e2k−1 ] − 2E[ek ]E[ek−1 ] = 2σe2
Rdd (m) = E[dk dk−m ] = E[(ek − ek−1 )(ek−m − ek−m−1 )] =
T2 T2
= 2Ree (m) − Ree (m + 1) − Ree (m − 1) = δ(m) − (δ(m − 1) + δ(m + 1))
6 12
3.4.1 Interpolazione mediante DFT
La tecnica dello zero-padding consiste nel estendere la lunghezza di una serie di numeri aggiungendo
degli zeri. Computando la DFT di una serie trattata in questo modo otterremo una trasformata di
Fourier con campioni aggiuntivi interpolati rispetto al caso senza zero-padding. In generale dopo
zero-padding lo spettro é piú smussato.
Analogamente se lo spettro del segnale ECG viene trattato con zero-padding, la trasformata
inversa IDFT conterra’ campioni aggiuntivi interpolati.
3.5 Smoothing
Nel contesto dell’elaborazione del segnali biomedici tra le operazioni piú frequenti troviamo lo
smoothing e la derivazione.
Lo smoothing consiste nel tracciare una linea che si ’adatta’ ai dati rumorosi. Puó essere
considerato equivalente ad un filtraggio passa-basso. Se si considera il segnale acquisito come somma
del segnale effettivamente desiderato e di un segnale rumore, lo smoothing tende ad attenuare le
rapide variazioni dovute al rumore.
Un esempio di smoothing é il filtro moving-average, in cui la media locale sostituisce il campione
corrente del segnale. Si puó pensare in tal caso ad una interpolazione di ordine zero.
Un approccio che generalizza il precedente é quello del filtro di Savitzky-Golay trattato nel
paragrafo che segue.
Il filtro di Savitzky-Golay risolve elegantemente anche un altro problema: quello della deriva-
zione. L’operazione di derivazione é fortemente influenzata dalla presenza di rumore. In termini di
risposta in frequenza un filtro derivatore amplifica le alte frequenze pertanto se il segnale é corrotto
da rumore in alta frequenza, il segnale derivato presenta tali frequenze maggiormente amplificate.
Pertanto prima di derivare un segnale bisognerá porre attenzione nel filtrarlo opportunamente per
diminuire l’apporto di alte frequenze rumorose.

3.5. SMOOTHING
3.5.1 Filtro di Savitzky-Golay

In questo filtro (proposto in [14]) l’idea é quella di generalizzare la procedura di moving-average,
usando il polinomio che minimizza l’errore quadratico medio rispetto ai dati.
Piú precisamente denotiamo con x(n) il campione n-simo del segnale x. Consideriamo N cam-
pioni prima e dopo l’istante n. Abbiamo dunque 2N + 1 campioni di x centrati intorno all’istante
n. Vogliamo determinare i coefficienti di un polinomio (di grado j ≤ 2N + 1) che minimizzi l’errore
quadratico medio:
N
X
e= (x(n + k) − p(k))2
k=−N
con
p(k) = a0 + a1 k + a2 k 2 + ... + aj k j
A questo punto per ’smussare’ x potremo sostituire al campione n-simo il valore p(0). Come
vedremo tra breve p(0) é una combinazione lineare dei valori x(n − N )...x(n + N ) pertanto si puó
interpretare p(0) come l’uscita di un filtro lineare (non causale poiché sono contenuti anche i valori
futuri di x(n)).
Vediamo come si possono ottenere i coefficienti del polinomio. sia a = [a0 , ..., aj ]T e p =
[p(−N ), ..., p(N )]T abbiamo:
(−N )2 (−N )j
 
1 −N ...
 1 (−N + 1) (−N + 1)2 ... (−N + 1)j 
p=
 .
 a = Na
. . . . 
1 N N2 ... Nj
Inoltre ponendo x(n) = [x(n − N ), ..., x(n + N )]T , l’errore quadratico sará:
e = (x(n) − p)T (x(n) − p) = xT (n)x(n) + pT p − xT (n)p − pT x(n)

= xT (n)x(n) + aT NT Na − xT (n)Na − aT NT x(n)
pertanto derivando rispetto ad a ed uguagliando a zero si ha:
NT Na − NT x(n) = 0 → a = (NT N)−1 NT x(n)
In definitiva possiamo ottenere una versione filtrata di x(n) usando il valore
x(n) ≈ p(0) = a0
Per quanto riguarda la derivata prima di x(n) si puó usare la versione smussata:
dx dp
≈ |k=0 = a1
dn dk
e per la derivata seconda
d2 x d2 p
≈ |k=0 = 2a2
dn2 dk 2
ed in generale per la derivata m-sima :
dm x dm p
≈ |k=0 = m!am
dnm dk m


Capitolo 4
Modello per Magnetic Resonance

Spectroscopic Imaging
4.1 Modello del segnale

Come noto, quando i nuclei di idrogeno con spin-1/2 sono posti in un campo magnetico omogeneo
statico, i nuclei popolano due stati energetici - uno stato a piú bassa energia, detto parallelo al
campo, ed uno stato ad alta energia, detto antiparallelo. Usando la relazione di Boltzmann si vede
che c’è un leggero eccesso di nuclei parallei 1 .
La differenza energetica tra i due livelli é data da ∆E = hf dove h é la costante di Planck.
L’applicazione di una radiofrequenza, consente di ruotare il vettore di magnetizzazione nel piano
trasverso (vedi equazioni di Bloch[]). Rimuovendo l’eccitazione i nuclei tendono a tornare nello stato
di rilassamento emettendo l’energia acquisita in seguito all’impulso di eccitazione.
Il segnale ricevuto, se tutti i nuclei risuonassero alla stessa frequenza, dovrebbe contenere
appunto solo tale frequenza.
In realtá il segnale contiene molte frequenze a causa dell’effetto detto chemical shift. Infatti
ogni nucleo percepisce il campo magnetico totale intorno a se’ come la somma del campo statico
omogeneo piú il campo magnetico prodotto dall’ambiente molecolare che lo circonda. In particolare
ogni molecola ha un suo particolare campo magnetico per cui nello spettro complessivo, si possono
distinguere vari picchi la cui frequenza dipende dalla particolare molecola, mentre l’ampiezza dal
numero di tali molecole. Infine bisogna considerare che il segnale decade esponenzialmente a causa
dei processi T1 e T2 pertanto bisogna introdurre un opportuno fattore di attenuazione (damping
factor).
Sfruttando opportunamente i gradienti di selezione, é possibile eccitare selettivamente singoli
voxels i modo da ottenere mappe di distribuzione delle varie molecole (ad es. per ricavare la mappa
di distribuzione dei principali metaboliti cerebrali NAA, Cholina e Creatina).
Per poter ”quantificare” le varie molecole (cioé misurare le concentrazioni) é necessario elaborare
il segnale ricevuto. Tale segnale (Spettroscopia con risonanza Magnetica) ha la seguente forma:
K
X
sn = s(n) = ck ζkn + (n)
k=1
dove ck = ak ejφk , ζk = e−αk +j2πνk , (n) è il rumore.

A partire dai dati acquisiti si può costruire una matrice dei dati con struttura Hankel:
1 La relazione di Boltzmann esprime la probabilità di trovare un oggetto microscopico in un certo stato energetico.
71
Capitolo 4. Modello per Magnetic Resonance Spectroscopic Imaging
 
s0 s1 s2 ... sM −1
 s1 s2 s3 ... sM 
S=
 
.. .. .. .. 
 . . . ... . 
sL−1 sL sL+1 ... sN −1
Se il segnale fosse costituito solo da sinusoidi senza rumore avremmo una matrice dei dati con
rango K. La presenza del rumore fa sı̀ che il rango della matrice sia pieno pari al min(L, M ).
Un modo per effettuare una analisi del rango consiste nella Singular Value Decomposition (SVD).
Graficando i valori singolari in ordine decresecente si osserva in genere una netta discontinuità tra
i valori songolari corrispondneti al segnale ed i valori corrispondenti al rumore.
4.2 Singular Value Decomposition

Una qualunque matrice X reale N × M di rango r può essere scritta come:
X = UΣVH
dove U è un matrice unitaria N × N , V è un matrice unitaria M × M , e Σ è una matrice N × M

diagonale con Σii = σi per i = 1, ..., r. I numeri σi sono i valori singolari. Di solito sono arrangiati
in ordine decrescente σ1 > σ2 > ... > σr .
Infatti la matrice XH X è semidefinita positiva pertanto i suoi autovalori sono non negativi chia-
miamoli σ12 , σ22 , ..., σM
2
. Poichè il rango è r i primi r autovalori saranno non negativi mentre i restanti
M − r sarano 0. Se v1 , v2 , ..., vM , sono gli autovalroi corrispondenti, consideriamo l’arrangiamento
seguente V = [V1 , V2 ] dove V1 consiste nelle prime r colonne di V. Ponendo Σr = diag(σ1 , ..., σr )
sia ha V1H XH XV1 = Σ2r .
Pertanto Σ−1 H H
r V1 X XV1 Σr
−1
= I. Inoltre V2H XH XV2 = 0 implica che XV2 = 0. Ponendo
−1 H
U1 = XV1 Σr abbiamo U1 U1 = I. E’ possibile costruire la matrice unitaria U = [U1 , U2 ]
scegliendo opportunamente U2 , avremo quindi:
UH UH UH

1 XV1 1 XV2 Σr 0
UH XV = 1
X[V1 V2 ] = =
UH
2 UH
2 XV1 UH
2 XV2 0 0
essendo UH H
2 XV1 = U2 U1 Σr = 0 per la definizione di U
4.3 Linear Prediction SVD

Se il segnale di spettroscopia non presenta rumore sovrapposto, si può vedere che soddisfa la seguente
equazione (predizione lineare all’indietro):
ŝn = q1 sn+1 + q2 sn+2 + ... + qM sn+M (4.1)
dove i qk sono i coefficienti del modello a predizione lineare. Quando nel segnale è presente rumore,
l’equazione 4.1 no è esattamente verificata; in tal caso è opportuno scegliere M ≫ K in modo che
le componenti di rumore siano tenute in conto dai coefficienti aggiuntivi.
In termini matriciali si puiò scriver ela seguente equazione:
ŝ = Sq (4.2)

4.3. LINEAR PREDICTION SVD
con ŝ = [ŝ0 , ..., ŝN −M −1 ] e q = [q1 , ..., qM ]. Poichè S = UH ΣV, e tenendo conto che i valori singolari
del rumore sono prossimi a zero si può ottenere una pulizia del rumore ponendo i valori songlari del
rumore esattamente uguali a zero. In questo modo si ottiene una nuova Ŝ pulita, ma che non ha
più la struttura di matrice di Henkel. Tale struttura può essere ripristinata effettuando ponendo su
ciascuna antidiagonale il valor medio dei temrin isu quella diagonale. Succesisvamente si ricava la
soluzione dell’equaiozne 4.2 usano solo la pseudo inversa di Ŝ.
A questo punto per calcolare le componenti armoniche presenti nel segnale si procede calcolando
i poli che sono locati all’esterno del cerchio unitario.
Un metodo alternativo è quello proposto da Kumaresan te al. nel 1982 [R. Kumaresan, D. W.
Tufts IEEE Trans. Acoust. Speech Signal Processing vol. ASSP-30, 837-840, 1982]. Arrangiamo
il segnale nel modo ’backward direction’ con un modello di predizione lineare, secondo la seguente
equazione:
−s∗0 b1 s∗1 bL s∗L
 
= ...
 −s∗1 = b1 s∗2 . . . bL s∗L+1 
 
 .. .. .. .. 
 . = . . . 
−s∗N −L = b1 s∗N −L+1 ... bL s∗N −1
che puó essere riscritta come:
−h = Ab
dove si è posto:
h = [s∗0 , s∗1 , . . . , s∗N −L ]T

b = [b1 , b2 , . . . , bL ]T
s∗1 s∗2 s∗L
 
...
∗
 s2 s∗3 ... s∗L+1 
A =
 
 .. .. .. 
 . . . 
s∗N −L+1 s∗N −L+2 ... s∗N −1
e che in forma ’aumentata’ si puó scrivere:

1
[h, A] = Ãb̃ = 0
b
Osserviamo che le righe della matrice Ã si possono scrivere come combinazioni lineari del vettore:
∗ ∗ ∗
fk = [1, e−rk , e−2rk , . . . , e−Lrk ]
dove rk∗ = (−αk + j2πνk )∗ .

Consideriamo ora il polinomio:
L
X
B(z) = bk z −m
m=0
PL ∗
con b̃ = [1, b1 , . . . , bL ]T . Poiché b̃ appartiene allo spazio nullo di Ã allora fk b̃ = 0 → m=0 bm e−mrk =
∗
0 e quindi il polinomio B(z) ha come radici erk . Quindi una volta determinato B(z) e le sue radici
possiamo calcolare la frequenza e il damping factor delle varie componenti sinusoidali presenti nel
segnale.
Per determinare b̃ si puó usare un approccio Ordinary Least Square (OLS):
A = UΣVH
b = −VΣ−1 UH h

Infine si puó dimostrare [Cadzow , 1988, ITT TRans Acoutsic Speech n6, pp. 833] che nello
spazio delle matrici di rango K la matrice che ha distanza di Frobenius2 minore da quella dei dati
reali misurati (affetti da rumore) è quella che si ottiene usando in Σ solo i primi K valori singolari.
Per la determinazione dell’ampiezza e fase delle sinusoidi si veda il seguente esempio.
4.4 Esempio Matlab

% LPSVD
% Linear Prediction Singular Value Decomposition
clear all
close all
c1 = 1 * exp(j*pi/3);
c2 = 2 * exp(j*pi/4);
f1 = 10; %Hz
f2 = 20; %Hz
a1 = 1;
a2 = 5;
Ts = 1e-3; % ms
N = 500;
tempo = (0:N)*Ts;
s1 = c1 * exp((-a1 + j*2*pi*f1)*tempo);
s2 = c2 * exp((-a2 + j*2*pi*f2)*tempo);
s = s1+s2;
% senza rumore
para = lpsvd(s,2)
para(:,1:2) = para(:,1:2)/Ts;
% con rumore
para = lpsvd(sn,2)
para(:,1:2)/Ts
% aggiungo rumore
sd = 0.5;
sn = s + 0.5*(randn(size(s)) + j*randn(size(s)));
figure
plot(tempo,real(s1),’r’,tempo,real(s2),’b’,tempo,real(s),’g’)
legend(’s1’,’s2’,’s’)
ylabel(’a.u.’)
figure
plot(tempo,real(s),’r’,tempo,real(sn),’b’)
legend(’s’,’sn’)
ylabel(’a.u.’)
function [para]=lpsvd(y,M)
hP P i1/2
2 la distanza di Frobenius di due matrici xij e yij é data da |xij − yij |2
i j

4.4. ESEMPIO MATLAB
% LPSVD linear prediction with singular value decomposition

% function [para]=lpsvd(y,M)
% reference: R. Kumaresan, D. W. Tufts IEEE Trans. Acoust. Speech
% Signal Processing
% vol. ASSP-30, 837-840, 1982.
% arguments:
% y: complex vector, NMR FID time series
% M: real scalar, number of signals or effective matrix rank
% para: real M*4 matrix, estimated damping factor, frequency,
% amplitude, phase
y=y(:);
N=length(y); % # of complex data points in FID
L=floor(N*3/4); % linear prediction order L = 3/4*N
% backward prediction data matrix
A=hankel(conj(y(2:N-L+1)),conj(y(N-L+1:N)));
h=conj(y(1:N-L)); % backward prediction data vector
[U,S,V]=svd(A); % singular value decomposition
clear A;
S=diag(S);
% prediction polynomial coefficients
b=-V(:,1:M)*(diag(1./(S(1:M)))*(U(:,1:M)’*h));
% polynomial rooting
s=conj(log(roots([b(length(b):-1:1);1])));
% extract true signal poles
s=s(find(real(s)<0));
Z=zeros(N,length(s));
for k=1:length(s)
Z(:,k)=exp(s(k)).^[0:N-1].’;
end;
% linear least squares analysis
a=Z\y;
para=[-real(s) imag(s)/2/pi abs(a) imag(log(a./abs(a)))];
return


Capitolo 5
Stima dei parametri mediante

regressione
5.1 Regressione lineare

Siano t1 , . . . , tN degli istanti di tempo in cui osserviamo una grandezza y(t). Siano y1 , . . . , yN tali
PP
osservazioni. Supponiamo che il modello generativo dei dati sia del tipo y(t) = p=1 θp φp (t) dove
θp sono dei parametri e φp (t) son funzioni qualsiasi del tempo. Per ciascuna osservazione potremo
PP
scrivere un equazione del tipo: yk = p=1 θp φp (tk ) = θ1 φ1 (tk ) + θ2 φ2 (tk ) + . . . , θP φP (tk ). In forma
matriciale:
y1 = θ1 φ1 (t1 ) θ2 φ2 (t1 )
. . . θP φP (t1 )
y2 = θ1 φ1 (t2 ) θ2 φ2 (t2 )
. . . θP φP (t2 )
.. .. .... ..
. . . . .
yN = θ1 φ1 (tN ) θ2 φ2 (tN ) . . . θP φP (tN )
cioé
       
y1 φ1 (t1 ) φ2 (t1 ) φP (t1 )
 y2   φ1 (t2 )   φ2 (t2 )   φP (t2 ) 
=  θ1 +   θ2 + . . . +   θP
       
 .. .. .. ..
 .   .   .   . 
yN φ1 (tN ) φ2 (tN ) φP (tN )
oppure
 
θ1
 θ2 
y = [φ1 , φ2 , . . . , φP ]   = Xθ (5.1)
 
..
 . 
θP
Chiamiamo ora θ ∗ il valore vero dei parametri e di consenguenza y∗ = Xθ ∗ sará il valore vero
del vettore delle osservazioni.
I vari elementi del vettore delle misure y sono in genere affetti da rumore approssimabile come
variabili aleatorie k i.i.d a media nulla, sia = [1 , . . . , N ]. Per cui avremo:
y = Xθ ∗ + (5.2)
77
Capitolo 5. Stima dei parametri mediante regressione
5.2 Ordinary Least Squares

L’obiettivo della regressione lineare é trovare un vettore di parametri θ̂ che sia una stima di θ ∗
ottima secondo un qualche criterio. In genere il criterio piú usato é l’Ordinary Least Square (OLS).
Secondo uesto criterio il vettore θ̂ deve soddisfare el seguente relazione:
θ̂ = arg min ky − Xθk2 (5.3)

θ
cioé deve rendere minima la distanza tra le misure y e le previsioni del modello Xθ.
Usando il calcolo matriciale si puó scrivere:
ky − Xθk2 = (y − Xθ)T (y − Xθ)
da cui svolgendo i prodotti:
S(θ) = ky − Xθk2 = yT y + θ T XT Xθ − yT Xθ − θ T XT y
e tenendo conto che gli ultimi due termini sono scalari (uguali ciascuno al trasposto dell’altro)
potremo scrivere
S(θ) = yT y + θ T XT Xθ − 2yT Xθ
PoichÃ¨ siamo interessati a cercare il valore θ̂ che minimizza la 5.3 sará sufficiente effettuare il
gradiente rispetto a θ ed eguagliarlo a zero:
∂S
= 2XT Xθ − 2yT X = 2XT Xθ − 2XT y = 0
∂θ
da cui, moltiplicando a sinistra per (XT X)−1 si ottiene la soluzione Ordinary Least Squares (OLS):
θ̂ = (XT X)−1 XT y (5.4)
5.3 Proprietá statistiche della soluzione OLS

Supponiamo che il rumore sia a media nulla E[] = 0 e con matrice di covarianza E[T ] = σ 2 I.
In tal caso si puó vedere facilmente che:
E[θ̂] = E[(XT X)−1 XT y] = (XT X)−1 XT E[y]
ma considerando la 5.2
E[θ̂] = (XT X)−1 XT E[y∗ + ] = (XT X)−1 XT Xθ ∗ + 0 = θ ∗
e quindi la stima é non polarizzata (unbiased). Calcoliamo ora la matrice di covarianza:
E[(θ̂ − θ ∗ )(θ̂ − θ ∗ )T ] = (XT X)−1 XT E[T ]X(XT X)−T
ma essendo E[T ] = σ 2 I si ha (tenendo anche conto che (XT X) é simmetrica e che la inversa di
una matrice simmetrica é anch’essa simmetrica):
E[(θ̂ − θ ∗ )(θ̂ − θ ∗ )T ] = σ 2 (XT X)−1
Fiora non abbiamo fatto ipotesi sulla particolare distribuzione statistic del rumore. Se assumiamo
da ora in poi che il rumore sia gaussinao, anche θ̂ é gaussiana.
In particolare (diamo i prossimi risultati senza dimostrazione) sia ha che la seguente quantitá si
distribuisce come una v.a. di Fisher di parametri P e N − P :
(θ ∗ − θ̂)T XT X(θ ∗ − θ̂)

∼ FP,N −P
P s2

5.4. LA TRASFORMATA DI FOURIER DISCRETA COME PROBLEMA LS
dove
S(θ̂) ky − Xθ̂k2
s2 = =
N −P N −P
Inoltre si ha che la seguente quantitá si distribuisce come una variabile T di Student di parametro
N − P:
θ∗ − θˆk
p k ∼ TN −P
s {(X T X)−1 }kk
Infine anche la seguente quantitá si distribuisce come T di Student di parametro N − P :
aT (θ ∗ − θ̂)
∼ TN −P
saT (X T X)−1 a
5.4 La trasformata di Fourier discreta come problema LS

Consideriamo N campioni di un segnale x(n) con n = 0, . . . , N − 1 e raccogliamoli in un vettore
x = [x0 , . . . , xN −1 ]T . Vogliamo determinare i coefficienti del modello LS usando le seguenti N
funzioni φk (n) con k = 0, . . . , N − 1:
kn
φk (n) = ej2π N (5.5)
Ponendo k(N −1)
k0 k1
ek = [ej2π N , ej2π N , . . . , ej2π N ]T (5.6)
possiamo costruire la matrice X in questo modo (vedi la 5.1):
X = [e0 , e1 , . . . , eN −1 ] (5.7)
Ora si ha (nel caso di segnali complessi sostituiamo l’operatore di trasposizione con quello di
Hermitiano ):
eH
 
0
 eH 1

XH X =   [e0 , e1 , . . . , eN −1 ] (5.8)
 
..
 . 
eH
N −1
cioé
eH eH eH
 
0 e0 0 e1 ... 0 eN −1
 eH
1 e0 eH
1 e1 ... eH
1 eN −1

XH X = 
 
.. .. .. .. 
 . . . . 
eH
N −1 e0 eH
N −1 e1 ... eH
N −1 eN −1
ma
N −1 N −1
X kq kr
X k(q−r)
eH
q er = e−j2π N ej2π N = e−j2π N
k=1 k=1
e ricordando che
N −1
X 1 − zN
zk =
1−z
k=0
2π(q−r)
ponendo z = ej N si ha: (
N se q = r
eH
q er =
0 6 r
se q =
in quanto z N = ej2π(q−r) = 1 per q 6= r. Pertanto in definitiva:
XH X = N IN

dove IN é la matrice identica di ordine N . La soluzione LS del problema diventa

1 H
θ̂ = (XH X)−1 XH x = X x
N
e per il p-simo parametro (p = 0, . . . , N − 1) si ha:
N −1
1 H 1 X 2π
θ̂p = ep x = x(k)e−j N kp
N N
k=0
che é la trasformata di fourier discreta (DFT) della sequenza x.
5.5 Criteri di ottimo

Fino ad ora il criterio di ottimo usato é stato la minimizzazione dello scarto quadratico. Si tratta
di un criterio intuitivo di facile trattabilitá matematica.
Un altro criterio molto usato é la massimizzazione della verosimiglianza (Maximum Likelihood,
ML).
Consideriamo una singola estrazione di un campione x da una variabile aleatoria gaussiana
di parametri (ignoti) µ e σ. Il nostro obiettivo é stimare i parametri della distribuzione dalla
osservazione di questa singola estrazione. Si puó ritenere intuitivamente che la scelta piú plausibile
per i parametri sia quella che rende massima la probabilitá che x sia stato estratto proprio da quella
distribuzione. Sia p(x; µ, σ) tale probabilitá, chiameremo verosimiglianza la quantitaá L(µ, σ) =
p(x; µ, σ) cioé la probabilitá di x ma considerata come funzione dei parametri (osserviamo che la
verosimiglianza non é normalizzata ad 1 mentre la pdf lo é).
Nel caso di N estrazioni dalla stessa distribuzione x1 , . . . , xN il ragionamento é identico salvo che
la quantitá da massimizzare é la probabilitá congiunta delle estrazioni L(µ, σ) = p(x1 , . . . , xN ; µ, σ),
QN
che nel caso di estrazioni indipendenti si riduce al prodotto delle probabilitá L(µ, σ) = k=1 p(xk ; µ, σ).
Nel caso di una distribuzione con P parametri θ = [θ1 , . . . , θP ]T avremo L(θ) = p(x1 , . . . , xN ; θ)
QN
che si riduce a L(θ) = k=1 p(xk ; θ) nel caso di indipendenza.
Tipicamente, per questioni legate alla trattazione matematica, in luogo della verosimiglianza si
preferisce massimizzare il suo logaritmo log L(θ).
Il discorso fatto vale per qualunque tipo di distribuzione (anche non gaussiana).
Nel caso particolare di variabili gaussiane si ha il seguente interessante risultato:
N
Y 1 1
log L(θ) = log exp(− (x − µ)T Σ−1 (x − µ)) (5.9)
k=1
(2π)N/2 |Σ|1/2 2
dove x = [x1 , . . . , xN ]T e θ = [µ1 , . . . , µP , σ11 , σ12 , . . . , σP P ].

da cui ricordano che il logaritmo di un prodtto é la somma dei logaritmi:
N
X N 1 1
log L(θ) = − log(2π) − log |Σ| − (x − µ)T Σ−1 (x − µ) (5.10)
2 2 2
k=1
da cui, per variabili gaussiane i.i.d (cioé matrice di covarianza Σ = σ 2 I) si ottiene:

N
X 1 N N
log L(θ) = − (x − µ)T (x − µ) − log(2π) − log σ 2
2σ 2 2 2
k=1
ovvero
N
X 1 N N
log L(θ) = − 2
kx − µk2 − log(2π) − log σ 2
2σ 2 2
k=1

5.5. CRITERI DI OTTIMO
Applichiamo
PP ora la massima verosimiglianza al modello 5.2. In questo caso le estrazioni sono
yk = p=1 φp (tk )θp∗ + k . Se ipotizziamo che il rumore sia di tipo gaussiano a media nulla e i.i.d
avremo che il vettore y é congiuntamente gaussiano a media Xθ ∗ e matrice di covarianza σ 2 I.
Pertanto potremo scrivere il logaritmo della verosimiglianza delle nostre osservazioni:
1 N N
log L(θ, σ) = − 2
ky − Xθk2 − log σ 2 − log(2π) (5.11)
2σ 2 2
per cui si riconosce che (nel caso in cui la varianza σ sia nota a priori) la massimizzazione della
verosimiglianza coincide con la minimizzazione dello scarto quadratico 5.3.
Nel caso in cui la varianza non sia nota é necessario effettuare il gradiente dell verosimiglianza
ed eguagliarlo a zero:
∂ log L
= 0
∂θ
∂ log L
= 0
∂σ 2
Dalla prima equazione si ricava esattamente la stessa soluzione OLS; dalla seconda si ricava:
1 N
4
ky − Xθk2 − 2 = 0
2σ 2σ
ovvero
ky − Xθk2
σ2 =
N

5.6 Regressione Non Lineare

Consideriamo un insieme di osservazioni [y1 , . . . , yN ]T = y, corrispondenti a certi istanti temporali
[x1 , . . . , xN ]T = x, e soggetti ad un rumore [1 , . . . , N ]T = e supponiamo di conoscere a priori
che i punti debbano soddisfare ad una relazione del tipo:
y = f (x, θ) + i (5.12)
dove θ = [θ1 , . . . , θp ] sono dei parametri che caratterizzano la relazione tra x ed y. Si intende con il
termine regressione non lineare l’operazione di determinare i valori dei parametri che garantiscono
il miglior fitting dei dati. L’aggettivo non-lineare caratterizza la relazione f . Chiaramente la bontá
del fitting deve essere misurata con una funzione di costo. Come al solito la funzione costo piú
comunemente scelta é:
S(θ) = ky − f (x, θ)k2 = kk2 (5.13)
e pertanto il metodo consiste nella ricerca dei parametri θ che minimizzano la somma dei quadrati
(Minimum Least Squares).
5.7 Differenze rispetto alla stima nel caso non-lineare

Nel caso non-lineare invece vi possono essere minimi locali e non é possibile trovare una formula
chiusa. Pertanto si deve ricorrere a procedure iterative che cercano il valore ottimo dei parametri.
Chiaramente l’algoritmo di ricerca determina la precisione della stima dei parametri ottimi, e il
tempo di convergenza.
Si deve notare che se l’errore additivo a media nulla e a varianza σ 2 é distribuito normalmente,
la soluzione θ̂ che minimizza la somma dei quadrati é la stima a massima verosimiglianza di θ.
La regressione non lineare puó essere vista come una forma di smoothing. Questo metodo va
distinto dall’interpolazione dove si richiede che la funzione calcolata passi esattamente per i punti
dati.
5.8 Generalitá sulla ottimizzazione di funzioni

Consideriamo una funzione scalare (reale) f (θ) di p variabili θ = [θ1 , . . . , θp ]T . Ci soffermiamo solo
sulla minimizzazione in quanto la massimizzazione di f (θ) implica la minimizzazione di −f (θ). In
generale possiamo distinguere tra minimi locali e globali. Un valore θ̂ é un minimo locale se
∃δ > 0 : kθ̂ − θk < δ ⇒ f (θ) > f (θ̂) = 0
Ricordiamo le condizioni sufficienti affinché θ̂ sia un minimo locale:
∂f (θ)
g = =0
∂θ θ=θ̂

 ∂ 2 f (θ) ∂ 2 f (θ)

∂θ ∂θ ... ∂θ1 ∂θp
 1. 1 . .. 
H(θ̂) = 
 .. .. .
>0

2
∂ f (θ) ∂ 2 f (θ)
∂θp ∂θ1 ... ∂θp ∂θp
cioé: il gradiente devee essere nullo in θ̂, mentre l’Hessiano deve ivi essere definito positivo.

5.9. ALGORITMO DI NEWTON
Queste condizioni possono essere intuitivamente comprese considerando una forma quadratica
in uno spazio n-dimensionale:
1
f (θ) = a + bT x + θ T Cθ
2
dove f (θ) é una funzione scalare di n variabili, a é uno scalare, b é un vettore, C é una matrice
simmetrica, non singolare, definita positiva.
Il gradiente é:
∂f (θ)
g= = b + Cθ (5.14)
∂θ
per cui la condizione di punto di minimo é:
θ̂ = −C−1 b (5.15)
Nel caso della forma quadratica considerata si ha:
H(θ̂) = C (5.16)
Ora chiamiamo λ1 , . . . , λp gli autovalori (positivi) dell’Hessiano e chiamiamo u1 , . . . , up i corri-

spondenti autovettori ortonormali. Possiamo scrivere:
1
f (θ̂ + αuk ) = a + bT (θ̂ + αuk ) + (θ̂ + αuk )T C(θ̂ + αuk )
2
1 T 1 1 T 1
= a + b θ̂ + θ̂ Cθ̂ + αbT uk + αuTk Cθ̂ + αθ̂ Cuk + α2 uTk Cuk
T
2 2 2 2
1 2
= f (θ̂) + α λk
2
in quanto Cuk = λk uk .
Quindi si vede che partendo da θ̂ e muovendosi in direzione uk il valore di cui si incrementa f
dipende dal segno dell’autovalore λk . Pertanto se tutti gli autovalori sono positivi la funzione cresce
in ogni direzione intorno a θ̂ che risulta in punto di minimo.
5.9 Algoritmo di Newton

Come é giá detto nel caso di regressione non-lineare é necessario effettuare una ricerca iterativa del
punto di minimo. Se indichiamo con θ (n) il valore trovato alla n-sima iterazione, si ipotizza che sia
possibile trovare una successione di valori θ (1) , θ (2) , . . . , θ (n) , . . .) che converge al valore ottimo. In
genere gli algoritmi calcolano il valore di θ (n+1) sulla base di θ (n) :
θ (n+1) = θ (n) + δ (n)
il criterio con cui va scelto δ (n) é il punto critico degli algoritmi. Una considerazione generale ci
fa pensare che la direzione di δ (n) debba essere una direzione lungo cui la funzione f (θ) abbia un
decremento, cioé la derivata direzionale lungo δ (n) deve essere negativa:
∂ ∂f (n)
f (θ (a) + ρδ (n) ) = δ = gT δ (n) < 0
∂ρ ∂θ T
Scegliendo δ (n) = −Rg con R definita positiva si ha la certezza di avere una direzione di
decremento: gT δ (n) = −gT Rg < 0.
La direzione di massima discesa δ (n) = −g (che corrisponde a R = I) in genere non é una
buona soluzione poiché dipende dallo scaling delle variabili θ. Una soluzione migliore si ottiene

considerando che nei pressi del punto di minimo θ̂ la funzione f si puó approssimare con al sua
serie di Taylor al secondo ordine e quindi si ha :
θ̂ = −C−1 b
= −H−1 (g(n) − Hθ (n) )
= −H−1 g(n) + θ (n)
−1 (n)
Pertanto viene naturale scegliere come direzione δ (n) = −H(n) g che viene chiamato il passo
di Newton o la direzione di Newton.
Si puó dimostrare che la direzione di Newton é invariante per cambiamenti di scala delle variabili
θ. Infatti, sia
φ = Aθ (5.17)
una trasformazione invertibile dei parametri, verifichiamo che la direzione di Newton ottenuta nelle
variabili φ coincide, a meno della trasformazione inversa A−1 , con la direzione di Newton calcolata
nelle variabili θ.
La funzione di costo da minimizzare é:
Sφ (φ) = Sφ (Aθ) = Sθ (θ)
Esprimiamo la trasformazione 5.17 in notazione di Einstein:
φk = akm θm
Il gradiente di Sθ sará:
∂Sθ ∂Sφ (Aθ) ∂Sφ ∂φm ∂Sφ
= = = amk
∂θk ∂θk ∂φm ∂θk ∂φm
dove vale la notazione con indici ripetuti. In forma matriciale avremo:
∂Sθ ∂Sφ
gθ = = AT = AT gφ
∂θ ∂φ
Per quanto riguarda l’Hessiano si ha:

∂ 2 Sθ

∂ ∂Sθ ∂ ∂Sφ ∂φj
= =
∂θk ∂θm ∂θk ∂θm ∂θk ∂φj ∂θm
∂Sφ ∂ 2 φj

∂ ∂Sφ ∂φj
= +
∂θk ∂φj ∂θm ∂φj ∂θk ∂θm
∂ 2 Sφ ∂φp ∂φj
= +0
∂φp ∂φj ∂θk ∂θm
che i forma matriciale diventa:

2
Sθ T ∂ Sφ
Hθ = = A A = AT Hφ A
∂θ∂θ T ∂φ∂φT
Pertanto detta δφ la direzioen di Newton calcolata usando le variabili φ si ha:
δφ = −H−1
φ gφ
= −(A−T Hθ A−1 )−1 A−T gθ

= −AH−1 T −T
θ A A gθ
= −A(H−1
θ gθ ) = Aδθ
e quindi la direzione di Newton risulta indipendente dalla trasformazione delle variabili.

5.10. ALGORITMO DI GAUSS-NEWTON
5.10 Algoritmo di Gauss-Newton

Le considerazioni precedenti valgono per l’ottimizzazione di funzioni di tipo generale.
Nel caso particolare di regressione lineare, cioé quando consideriamo la minimizzazione della
funzione di costo:
XN
S(θ) = ky − f (θ)k2 = ri2 (θ)
k=1
dove ri (θ) = yi − f (i, θ), la espressione del gradiente di S(θ) diventa:
N
∂S(θ) X ∂ri
g(θ) = =2 ri (θ) = 2J(θ)r(θ)
∂θ i=1
∂θ
dove abbiamo posto:

∂ri
J(θ) = Jji =
∂θj
Per quanto riguarda l’hessiano si ha:
N N
∂S(θ) X ∂ri ∂ri X ∂ 2 ri
H(θ) = T
= 2 T
+ 2 ri (θ) T
= 2(JT J + A)
∂θ∂θ ∂θ ∂θ ∂θ∂θ
k=1 k=1
Il passo di Newton diventa:
−1 (a) T
δ (a) = −H(a) g = −(J(a) J(a) + A(a) )−1 J(a) r(a) (5.18)
Il termine A tiene conto delle non-linearitá di secondo ordine della expectation surface. Se A
puó essere ignorato (la funzione é abbastanza lineare in θ nei dintorni del valore corrente θ (a) )
allora il passo di Newton diventa:
−1 (a) T
δ (a) = −H(a) g = −(J(a) J(a) )−1 J(a) r(a) (5.19)
che corrisponde alla risoluzione del problema LS linearizzato approssimando f al primo ordine:
(a) ∂f (t, θ (a) ) (a)

f (t, θ) = f (t, θ̂ )+ (θ − θ (a) ) = f (t, θ̂ ) − J(a) (θ − θ (a) )
∂θ
5.11 Algoritmo di Levenberg-Marquardt

Il calcolo di A é dispendioso pertanto, se non é possibile ignorare il termine A (questo accade se il
residuo r non é trascurabile oppure se il modello non é abbastanza lineare) allora si puó usare la
formula (approssimativamente invariante per scala dei parametri):
T
δ (a) == −(J(a) J(a) + η (a) D(a) )−1 J(a) r(a) (5.20)
dove D(a) é una matrice diagonale con gli elementi diaognali uuali a quelli di JT J. Inizialmente
η (1) vale un numero piccolo (ad es. 0.01); se il passo δ (a) riduce S(θ) allora η viene diviso per 10
(in modo che il passo si avvicina all’algoritmo di Gauss-Newton); se il passo δ (a) non riduce S(θ)
allora η viene moltiplicato per 10 finché non si raggiunge una riduzione per S(θ).

5.12 Algoritmo VARiable PROjection

Se la funzione f é lineare rispetto ad alcuni parametri α = [α1 , . . . , αm ] ad es.:
f (α, θ) = K(θ)α
dove f = [f (t1 ), . . . , f (tN )]T e K = [k1 , . . . , km ] sono m funzioni di θ. La funzione costo diventa:
S(θ) = ky − f (α, θ)k2 = ky − K(θ)αk2 (5.21)
per cui se θ é fissato ad un valore θ (a) allora la souzione ottima per α é data dalla formula per il
Least Squares:
αopt = (KT (θ (a) )K(θ (a) ))−1 KT (θ (a) )y
inserendolo nella 5.22 si ha la nuova funzione di costo:
S(θ) = ky − K(θ (a) )(KT (θ (a) )K(θ (a) ))−1 KT (θ (a) )yk2 (5.22)
L’uso di questa funzione di costo si dimostra essere piú veloce ed accurato.
5.13 Criteri per valutare la bontá di uno stimatore

Un criterio spesso usato per valutare le prestazioni di uno stimatore é l’errore quadratico medio
definito come momento del secondo ordine dell’errore di stima. Poiché in molti problemi di stima,
quando si ha a che fare con modelli non lineari e/o non Gaussiani, risulta impossibile determinare
analiticamente lo stimatore ottimo (a minimo errore quadratico medio, minimum mean square error,
MMSE) si deve fare ricorso a stimatori approssimati e, quindi, sub-ottimi. In tal caso, é di grande
importanza pratica valutare l’entitá dell’approssimazione introdotta. Nonostante l’impossibilitá di
determinare in forma chiusa lo stimatore MMSE, risulta possibile valutare un limite teorico, detto
limite inferiore di Cramer-Rao (Cramer Rao Lower Bound) al di sotto del quale l’errore quadratico
medio di un qualunque stimatore non puó scendere.
In questo paragrafo si pone l’attenzione sul problema della stima di un vettore di parametri
θ ∈ RP sulla base di un’osservazione y ∈ RN della variabile aleatoria Y. Si definisce stimatore di
θ una funzione θ̂(Y) della variabile aleatoria Y (cioé una operazione che dalle osservazioni ci porti
alla stima) e, data l’osservazione y di Y, si dice che θ̂(y) é la corrispondente stima (cioé il valore
numerico ottenuto dall’operazione di stima).
Detto θ il valore vero del vettore di parametri, uno stimatore θ̂(Y) di θ si dice non polarizzato
se E[θ̂(Y)] = θ o, equivalentemente, definito l’errore di stima θ̃ = θ − θ̂(Y), E[θ̃] = 0. Assumendo
che, in generale, lo stimatore possa essere polarizzato cioé E[θ̂(Y)] = γ(θ) vale il seguente risultato
fondamentale noto come disuguaglianza di Cramer-Rao. Qualunque sia lo stimatore θ̂(Y), il
suo errore quadratico medio (mean square error, MSE) definito come
M SE(θ̂(Y)) ≥ E[(θ − θ̂(Y))(θ − θ̂(Y))T ] (5.23)
soddisfa la seguente disuguaglianza matriciale:
∂γ(θ) −1 ∂γ(θ)
M SE(θ̂(Y)) ≥ J (θ) (5.24)
∂θ ∂θ T
dove J(θ), detta matrice di informazione di Fisher (Fisher Information Matrix, FIM), é definita nel
seguente modo:
∂2

∂ ∂
J(θ) = E ln p(y|θ) T ln p(y|θ) = −E ln p(y|θ) (5.25)
∂θ ∂θ ∂θ∂θ T

5.13. CRITERI PER VALUTARE LA BONTÁ DI UNO STIMATORE
Nel seguito verrá illustrata la dimostrazione.

Per comoditá di scrittura si definisce la funzione
∂
Φ(θ, y) , ln p(y|θ) (5.26)
∂θ
da cui J = E[Φ(θ, y)ΦT (θ, y)]

Si noti che, per la derivata delle funzioni composte:
∂ ∂ 1 ∂
Φ(θ, y) = [ln p(y|θ)] p(y|θ) = p(y|θ) (5.27)
∂p ∂θ p(y|θ) ∂θ
per cui
∂
p(y|θ) = Φ(θ, y)p(y|θ). (5.28)
∂θ
Poiché p(y|θ) é una densitá di probabilitá, si deve avere
Z
p(y|θ)dy = 1 (5.29)
Inoltre, si ha Z
γ(θ) = E[θ̂(Y)] = θ̂(y)p(y|θ)dy (5.30)
Differenziando la 5.29 rispetto ad x, assumendo condizioni di regolaritá tali da poter differenziare

sotto il segno di integrale, ed usando la 5.28 si ottiene:
Z Z
∂
0= p(y|θ)dy = Φ(θ, y)p(y|θ)dy = E[Φ(θ, y)] (5.31)
∂θ
Analogamente differenziando la 5.30 rispetto a ad x, si ha
Z Z
∂γ ∂
(θ) = θ̂(y)[ p(y|θ)]T dy = θ̂(y)ΦT (θ, y)p(y|θ)dy = E[θ̂(y)ΦT (θ, y)] (5.32)
∂θ ∂θ
Sottraendo 5.31 e 5.32 membro a membro, si ottiene
∂γ
(θ) = E[(θ̂(y) − θ)ΦT (θ, y)] (5.33)
∂θ
Si consideri adesso la matrice di covarianza semidefinita positiva:
∂γ
θ̂(y) − θ M SE(θ̂) ∂θ (θ)
E[ ][ (θ̂(y) − θ)T ΦT (θ, y) ] = [ ∂γ T
]≥0 (5.34)
Φ(θ, y)
∂θ (θ) J
dove si é fatto uso di 5.33 e del fatto che E[Φ(θ, y)ΦT (θ, y)] coincide con la FIM definita in
precedenza.
1
Applicando il seguente risultato
1 Dire che 5.35 é semidefinita positiva significa dire che ∀ (u, v)

A B u
(uT , vT ) T = uT Au + 2uT Bv + vT Cv ≥ 0.
B C v
In particolare fissato un certo u la disuguaglianza dovrá valere per tutti gli v ed in quindi anche per v =
arg minv uT Au + 2uT Bv + vT Cv = −C−1 BT u (essendo una forma quadratica la posizione del minimo si puó
trovare facilmente). Sostituendo quest’ultima espressione in quella precedente si ricava uT Au − 2uT BC−1 BT u +
uT BC−1 CC−1 BT u ≥ 0 da cui si ricava l’espressione 5.35.


A B
≥ 0 ⇒ A − BC−1 BT ≥ 0 (5.35)
BT C
si ottiene la diseguaglianza di Cramer-Rao 5.24.

Differenziando 5.31 rispetto ad θ si ottiene
Z
∂ T ∂
0= [ Φ (θ, y) + Φ(θ, y)ΦT (θ, y)]p(y|θ)dy = E[ ΦT (θ, y) + Φ(θ, y)ΦT (θ, y)] (5.36)
∂θ ∂θ
∂
che implica J = E[Φ(θ, y)ΦT (θ, y)] = −E[ ∂θ ΦT (θ, y)] da cui si deduce immediatamente la 5.25.
Nel caso di stimatori non polarizzati, si ha
∂γ
γ(θ) = θ ⇒ (θ) = I
∂θ
Quindi la disuguaglianza di Cramer-Rao si riduce semplicemente a
M SE(θ̂) ≥ J−1
E’ opportuno osservare che sia M SE(θ̂) sia la J−1 sono simmetriche, ed inoltre che gli elementi
della diagonale della matrice M SE(θ̂) − J−1 devono essere tutti positivi 2 , pertanto l’elemento (i, i)
della matrice J−1 rappresenta il limite inferiore della varianza della stima della componente i-esima
del vettore di parametri x.
5.14 Un approccio geometrico

Il problema della ricerca del minimo della funzione di costo puó essere interpretato in maniera
geometrica grazie all’introduzione di alcuni concetti di geometria delle superfici.
Consideriamo prima di tutto la cosa nello spazio dei parametri. La funzione di costo S(θ) =
|r|2 = |yi − f (ti , θ)|2 é una funzione scalare che generalmente presenta un minimo globale θ ∗ nello
spazio dei parametri (sorprendentemente non sono comuni i casi di minimi locali multipli). Partendo
da una stima iniziale θ 0 bisogna individuare in che direzione muoversi per andare verso il minimo
globale. Quale direzione scegliere? Il concetto di gradiente di funzione ci dá una prima risposta.
Come noto il gradiente ∇S = JT r é ortogonale alle curve isolivello ed individua la direzione di
massima crescita della funzione; pertanto la direzione −∇S individua la massima decrescita. Tale
direzione non é sempre efficiente nella ricerca, poiché non punta verso il minimo globale ma solo
in direzione ortogonale alle isolivello. Infatti se la funzione di costo é ’sloppy’ sono necessari molti
piccoli passi all’interno dello spazio dei parametri per giungere al minimo.
5.15 Misure di non linearitá: Curvatura Relativa

La stima a minimima quadrati di modelli non lineari (Non Linear Least Squares, NLLS) puó essere
usata nell’analisi di un set di dati {yi } con i = 1, . . . , N misurati negli istanti ti . Posto che tali dati
debbano soddisfare al modello:
yi = f (ti , θ) + i
dove i é un termine di rumore con media nulla, la risposta attesa, per un dato valore dei parametri
é la seguente:
ηi (θ) = E[yi |θ] = f (ti , θ)
2 basta osservare che la positivitá implica eT (M SE(θ̂) − J−1 )e ≥ 0, dove e sono i vettori della base naturale in
R nx

5.15. MISURE DI NON LINEARITÁ: CURVATURA RELATIVA
e in forma vettoriale:
η(θ) = E[y|θ] = f (θ)
dove
η(θ) = (η1 (θ), η2 (θ), . . . , ηN (θ))T .
Osserviamo che θ é un vettore p-dimensionale e η é un vettore ad N dimensioni; pertanto, η

descrive una superficie p-dimensionale al variare di θ. Tale superficie, immersa (embedded ) nello
spazio ad N dimensioni, é chiamata expectation-surface.
Osserviamo anche che la funzione di costo puó essere scritta come:
S(θ) = ky − η(θ)k2
e che quindi S(θ) puó essere interpretato geometricamente come la distanza tra i vettori y e η(θ)
in uno spazio N -dimensionale.
Molti algoritmi per calcolare la stima θ̂ ai minimi quadrati e molti metodi di inferenza statistica
per modelli non lineari sono basati, come anche detto precedentemente, su un’approssimazione
lineare del modello. In un intorno sufficientemente piccolo di un fissato valore dei parametri θ̂ la
funzione del modello é approssimata da
∂f
f (θ) ≈ f (θ̂) + (θ − θ̂)
∂θ |θ=θ̂
Questa relazione si puó riscrivere anche nella forma:

η(θ) ≈ η(θ̂) + J(θ − θ̂)
dove J é lo Jacobiano di f .
L’effetto di questa approssimazione consiste nel rimpiazzare la expectation-surface con il suo
piano tangente a η(θ̂), e simultaneamnte imporre un sistema di coordinate sul piano tangente.
Le espressioni che indicano l’adeguatezza di un’approssimazione lineare e i suoi effetti sulle
inferenze sono chiamate misure di non linearitá. Possibili misure di non linearitá sono basate sul
concetto geometrico di curvatura che é riportato nel seguito.
Una linea retta arbitraria nello spazio dei parametri p-dimensionale passante per θ̂ puó essere
espressa usando un parametro b:
θ(b) = θ̂ + bh
dove h = (h1 , . . . , hp )T é un vettore non nullo che rappresenta la direzione della retta considerata.
A questa linea retta corrisponde una curva η h (b) sulla expectation-surface:
η h (b) = η(θ̂ + bh).
La tangente alla curva η h (b) a b = 0 é

p p
dη h X ∂η dθi X
η̇ h (θ) = = = vi hi = V̇h
db |b=0 i=1
∂θi |θ db |b=0 i=1
i =θ̂i
dove la matrice V̇ ha dimensione N × p che ha disposti per colonna i vettori vi .

Il vettore tangente η̇ h (che puó essere assimilato ad una velocitá sulla traiettoria η h (b) con
parametro temporale b) é dunque una combinazione lineare dei vettori vi e il set di tutte queste
combinazioni lineari é il piano tangente alla expectation-surface in η(θ̂).
L’accelerazione lungo la traiettoria η̈ h é anch’essa una combinazione lineare dei vettori deter-
minati dai parametri del modello. Infatti la derivata seconda alla curva η h (b) in b = 0 puó essere
scritta come segue:
dη̇ h X ∂ X dθj X X ∂vi
η̈ h = = ( vi hi ) = hi hj = hT V̈h
db |b=0 j
∂θj | i
db |b=0
i j
∂θj
θj =θ̂j

Figura 5.1: Interpretazione fisica del vettore tangente della expectation-surface
dove abbiamo definito la matrice p × p × N :
∂vi ∂2η
V̈ = =
∂θj ∂θj ∂θi
I vettori η̇ h e η̈ h hanno quindi un interpretazione fisica se noi immaginiamo un punto muoversi

attraverso lo spazio ad N dimensioni cosı́ che al tempo b esso si trova in η h (b) (vedi fig. 5.1). La
tangente η̇ h é la velocitá istantanea e η̈ h é l’accelerazione istantanea per b = 0.
In generale il vettore accelerazione puó essere scritto come somma di tre componenti: una
normale al piano tangente (η̈ N
h ); due appartenenti al piano tangente di cui una parallela alla velocitá
(η̈ P G
h ) e l’altra η̈ h :
η̈ h = η̈ N P G
h + η̈ h + η̈ h .
Il vettore velocitá ed il vettore accelerazione sono coinvolti nello sviluppo in serie di Taylor della
expectation-surface:
∂η ∂2η
η(θ) ≈ η(θ̂) + (θ − θ̂) + (θ − θ̂)T (θ − θ̂)
∂θ ∂θ∂θ T
1
= η(θ̂) + V̇(θ − θ̂) + (θ − θ̂)T V̈(θ − θ̂)
2
Pertanto le misure di non linearitá mirano a valutare l’entitá di V̇ rispetto a V̈. Si puó dimostrare
che tali misure coincidono con la misura di curvatura della expectation surface (vedi Seber and Wild,
2003). Una prima misura detta curvatura normale nella direzione h é data da:
kη̈ N
h k
K̈N
h =
kη̇ h k2
Tale curvatura é anche detta curvatura intrinseca poiché dipende solamente dal modello matematico
utilizzato, essa é una proprietá intrinseca della expectation-superficie.

5.15. MISURE DI NON LINEARITÁ: CURVATURA RELATIVA
La componente tangenziale dell’accelerazione data da:
η̈ Th = η̈ P G
h + η̈ h
puó essere usata per calcolare la curvatura tangenziale anche detta parameters-effect curvature che
tiene conto degli effetti dei parametri nella direzione h.
kη̈ Th k
K̈Th = .
kη̇ h k2
A differenza della curvatura intrinseca, tale curvatura dipende dalla particolare parametrizza-
zione scelta: pertanto una ri-parametrizzazione del modello puó cambiare considerevolmente tale
curvatura.
Le due misure suddette K̈N T
h e K̈h rappresentano l’intrinseca non linearitá della expectation-
surface e la non linearitá apparente causata dalla parametrizzazione del modello.
Quindi con tali misure possiamo quantificare la non linearitá e capire se l’approssimazione lineare
del modello nella risoluzione della stima a minimi quadrati é applicabile. In fatti, se la curvatura é
bassa la expectation-surface é praticamente piatta e l’approssimazione lineare puó essere ritenuta
valida, al crescere della curvatura lo spazio non sará piú piatto e pertanto l’approssimazione lineare
potrebbe non essere valida.

In questo esempio vogliamo mostrare come si puó studiare con Matlab una forma quadratica,
per comprenderne le proprietá, con particolare riferimento alle direzioni principali (autovettori ed
autovalori dell’Hessiano della forma) delle curve iso-livello sullo spazio dei parametri. Per semplicitá
di rappresentazione grafica si limita lo studio al caso di una coppi adi parametri. I risultati del
codice sono mostrati in figura 5.2
% Studio di una forma quadratica

clear all
close all
x = (-10:0.1:20)’;
y = (-10:0.1:10)’;
[X,Y] = meshgrid(x,y);
b = [1;2];
CC = [3 2; 2 4];
[V,D]=eig(CC);
for k1 = 1:length(y)
for k2 = 1:length(x)
teta = [x(k2);y(k1)];
S(k1,k2) = b’*teta + teta’*CC*teta;
end
end
[dum,dum_pos_k1]=min(S);
[dum,pos_k2]=min(dum);
pos_k1 = dum_pos_k1(pos_k2);
[C,h]=contour(x,y,S,(10:20:100));
axis equal
clabel(C,h);
hold on
plot(x(pos_k2),y(pos_k1),’x’)
x0 = x(pos_k2);

10
70 0
9
50
30 90
70
10
30
0
10
70
50
50
30
90
−5 70
90
−10
−10 −5 0 5 10 15 20
Figura 5.2: Curve isolivello di una forma quadratica nello spazio dei parametri e loro relazione con
gli autovalori dell’Hessiano.
y0 = y(pos_k1);
quiver(x0,y0,V(1,1),V(2,1),sqrt(30)/sqrt(D(1,1)))
quiver(x0,y0,V(1,2),V(2,2),sqrt(30)/sqrt(D(2,2)))
5.16 Funzioni di costo

Finora abbiamo considerato un approccio Non Linear Least Squares (NLLS) basato su una funzione
di costo del tipo:
S(θ) = ky − f (θ)k2 ,
in questa sezione vogliamo esaminare altri approcci per la scelta della funzione di costo.
In un approccio di tipo Bayesiano viene naturale considerare la seguente probabilitá:
p(y|θ)p(θ)
p(θ|y) =
p(y)
in cui p(θ) é la probabilitá a priori (prima di effettuare le misure y) che i parametri abbiamo un
determinato valore, p(θ|y) é la probabilitá a posteriori (dopo aver effettuato le misure y), p(y) é la
probabilitá dei dati (che in genere viene assunta uniforme), ed infine p(y|θ) é la verosimiglianza dei
dati. In questo contesto viene naturale scegliere la probabilitá a posteriori come funzione di costo,
massimizzare, cioé, la probabilitá che i parametri abbiano un certo valore a fronte di certe misure.
Per quanto riguarda la probabilitá a priori dei parametri, questa non é facilmente conoscibile se non
in casi particolari: puó essere ad esempio, valutata sulla base dell’esperienza precedente, oppure da
considerazioni di carattere generale.
Nonostante il maggiore rigore dell’approccio Bayesiaio, date le difficoltá nella conoscenza della
probabilitá a priori, spesso si preferisce considerare la probabilitá a priori come uniforme. In tal
caso la funzione di costo da massimizzare diventa:
p(θ|y) ∝ p(y|θ)

5.17. SCELTA DELL’ORDINE DEL MODELLO
cioé massimizzare la probabilitá a posteriori é equivalente a massimizzare la verosimiglianza.

Nel caso particolare di errori di tipo Gaussiano a media nulla indipendenti ed identicamente
distribuiti con varianza σ 2 su vari campioni misurati la verosimiglianza diventa:
N
Y 1 [yk − f (tk , θ)]2 1 ky − f (θ)k2
p(y|θ) = √ exp(− 2
)= exp(− )
2πσ 2 2σ (2πσ 2 )N/2 2σ 2
k=1
e quindi il suo logaritmo (log-likelihood ):

ky − f (θ)k2
log p(y|θ) = − +c
2σ 2
dove c é una costante che non dipende dai parametri. Si vede che quindi massimizzare la verosimi-
glianza coincide con la minimizzazione dell’errore quadratico. Quest’ultima osservazione giustifica
l’enorme quantitá di ricerca sul metodo dei minimi quadrati che esiste nella letteratura scientifica.
5.17 Scelta dell’ordine del modello

La bontá di un modello é data dalla sua capacitá di ’fitting’ cioé di avvicinarsi ai dati misurati. In
generale si puó immaginare che aumentando il numero di parametri di un certo modello si puó fare
in modo da avvicinarsi indefinitamente ai dati fino ad ottenere errore nullo.
Pertanto non é possibile basare la scelta di un modello unicamente sul fitting. In letteratura
sono stati proposti diversi approcci per determinare un criterio di scelta.
In genere si segue l’approccio basato sulla verosimiglianza.
Consideriamo delle osservazioni yi che sono funzione di una certa variabile indipendente xi
(i = 1 . . . N ) mediante una certa funzione f che dipende dai k parametri θ. Supponiamo che i
residui yi − f (xi , θ) = i siano i.i.d. con una distribuzione normale di media zero e varianza σ 2 . La
probabilitá di osservare i é data da:
2

1
p(i |θ) = √ exp − i 2
2πσ 2σ
Pertanto la probabilitá congiunta di osservare gli N residui é:
N
2i

Y 1
g(|θ) = L(θ|) = √ exp − 2
i=1
2πσ 2σ
dove L(θ|) é la verosimiglianza e si ottiene semplicementeconsiderando la probabilitá come funzione

dei parametri.
Ora il valore di θ che massimizza la L(θ|) (Maximum Likelihood, ML) é lo stesso che massimizza
la:
X 2
i
√
log L(θ|) = − 2
− N log σ + N log 2π
2σ
P 2
Denotiamo il valore minimo di RSS = ˆi la Residual Sum of Squares cioé la somma dei
residui al quadrato quando i parametri sono tali da massimizzare la verosimiglianza (si tenga conto
che anche σ é un parametro). Derivando la log-likelihood rispetto a σ ed eguagliando a zero si ha
che la stima ML é:
RSS
σ̂ 2 =
N
Quindi possiamo calcolare il valore della verosimiglianza quando i parametri sono tali da massimiz-
zarla (in tal caso bisogna sostituire σ̂ in luogo di σ ):
N N √
log L(θ̂|) = − − log σ̂ 2 − N log 2π
2 2

5.17.1 Criterio di Akaike
Il criterio di Aklaike é sicuramente il piú diffuso criterio di scelta. La formula da applicare é

semplicemente:
AIC(k) = −2 · log L(θ̂|y) + 2k
dove k é il numero dei parametri del modello (incluso σ), y = {yi } sono i dati osservati, θ̂ é la stima
a massima verosimiglianza dei parametri.
Il punto di partenza di questo criterio é la divergenza di Kullback-Leibler:
Z
f (x)
I(f, g) = f (x) log dx
g(x|θ)
che é l’informazione persa quando g é usata per approssimare f : g ed f sono due distribuzioni, f é la
veritá (che non conosciamo, e da cui sono estratti i dati osservati) mentre g é una approssimazione
di f di cui stiamo cercando i parametri per avere la migliore approssimazione ai dati osservati. Si
tratta di una ’distanza’ asimmetrica tra g e f , infatti se inveritmao g con f otteniamo una formula
diversa. É sempre positiva ed é zero se e solo se f = g.
Akaike ha dimostrato che il punto chiave per ricavare il suo criterio é calcolare:
Ey Ex [log g(x|θ̂(y))]
dove θ̂ é la stima a massima verosimiglianza del vettore dei parametri ottenuta a partire dalle
osservazioni y, le medie sono prese rispetto ad f , ed x, y sono osservazioni indipendenti dalla stessa
distribuzione f . Per campioni molto grandi (un gran numero di osservazioni) si puó approssiamre
con:
log L(θ̂|dati) − k
dove k é il numero di parametri da stimare, L(θ̂) é la verosimiglianza dei dati.

Nel caso di rumore gaussiano i.i.d la massima versoimiglianza coincide con i minimi quadrati e
il criterio si scrive:
AIC(k) = N · log(σˆ2 ) + 2 · k
N é il numero di osservazioni e σˆ2 é la stima ML della varianza.

Vediamo ora come si arriva al criterio AIC. Partiamo dalla divergenza di Kullback-Leibler:
Z
f (x)
I(f, g) = f (x) log dx
g(x|θ)
che é una misura, molto usata, della distanza tra due distribuzioni. Tuttavia bisogna osservare
che é improprio parlare di distanza in quanto non é simmetrica e non soddisfa la disuguaglianza
triangolare, ma é uguale a zero se e solo se f = g, altrimenti é > 0.
Sia y un campione di N osservazioni. Sia θ 0 il valore ’reale’ dei parametri [cioé sia f (x) =
g(x|θ 0 )] e sia θ̂(y) la stima di θ 0 ottenibile da y. Per la divergenza KL si deve avere I(f, g(•|θ 0 )) = 0
e I(f, g(•|θ̂(y))) > 0. Nell’ottica di fare una stima ottima di θ 0 il mio obiettivo é di minimizzare
(renderla il piú possibile vicina allo zero) la seguente quantitá:
Z
Ey [I(f, g(•|θ̂(y)))] = f (y)I(f, g(•|θ̂(y)))dy (5.37)
tenendo conto della definizione di KL, il primo membro si puó riscrivere:

Z Z
Ey [ f (x) log f (x)dx] − Ey [ f (x) log g(x|θ(y))dx] (5.38)

5.18. ESEMPI ED ESERCIZI
5.18 Esempi ed esercizi
5.18.1 Esempio: uso dell’algoritmo di Levenberg-Marquardt

I risultati dell’esempio sono mostrati in figura 5.3.
% Levenberg-Marquardt
clear all
close all
Ts = 0.5; %minuti
t = (0:Ts:10)’;
% parametri reali
Ktrans = 0.8;
ve = 0.6;
kep = Ktrans / ve;
Ct = tofts([Ktrans, kep],t);
sdn = 0.05; %rumore
Ctn = Ct + sdn * randn(size(Ct));
% stima iniziale
Ktrans0 = 0.5;
kep0 = 2;
FUN = @tofts;
X0 = [Ktrans0, kep0];
XDATA = t;
YDATA = Ctn;
OPTIONS = optimset(’algorithm’,’levenberg-marquardt’);
LB = [];
UB = [];
[X,RESNORM,RESIDUAL,EXITFLAG,OUTPUT,LAMBDA] = ...
LSQCURVEFIT(FUN,X0,XDATA,YDATA,LB,UB,OPTIONS);
Ct_est = tofts(X,t);
figure
plot(t,Ct,’r’,t,Ctn,’bo’,t,Ct_est,’--’)
ylabel(’Ct [mmol/L]’)
legend(’Ct simulata’,’Ct + noise’,’Ct stimata’)
dove la funzione tofts.m é definita da:
function Ct = tofts(p,t)
% AIF di Weinmann
a1 = 3.99; %[kg/L]
a2 = 4.78; %[kg/L]
m1 = 0.144; % [min^-1]
m2 = 0.0111; % [min^-1]

0.7
Ct simulata
Ct + noise
0.6 Ct stimata
0.5
Ct [mmol/L]
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10
time [min]
Figura 5.3: Risultato dell’applicazione dell’algoritmo di Levenberg-Marquardt
Ktrans = p(1);
kep = p(2);
5.18.2 Esercizio: implementazione del metodo VARPRO
Implementare in Matlab la funzione di costo VARPRO usando come metodo di ottimizzazione

Levenberg-Marquardt.
5.18.3 Esempio: applicazione del teroema di Cramer-Rao ad una varia-

bile gaussiana
Consideriamo y1 , . . . , yN estrazioni indipendenti da una variabile aleatoria di tipo

PNgaussiano di media
µ e varianza σ. Valutiamo la bontá dello stimatore della media x̂(Y ) = N1 k=1 yk . Osserviamo
che lo stimatore é non polarizzato infatti:
N N
1 X 1 X 1
E[x̂(Y )|µ] = E[ yk ] = E[yk ] = N µ = µ
N N N
k=1 k=1
pertanto nel teorema di Cramer-Rao γ(µ) = µ. Inoltre:
− µ)2
P
1 k (yk
p(y|µ) = exp(− ).
(2π)N/2 σ N 2σ 2

Calcoliamo la matrice di Fisher in questo caso:
∂
J = E{[ ln p(y|µ)]2 } =
∂µ
" PN !#2
2
∂ k=1 (yk − µ) N/2 N
= E{ − − ln((2π) σ ) }=
∂µ 2σ 2
P 2 P 2
k (yk − µ) k E[(yk − µ) ]
= E[ ] = =
σ2 σ4
P 2
kσ N
= = 2
σ4 σ
pertanto l’inversa sará J−1 = σ 2 /N , che quindi é il limite inferiore della varianza dello stimatore.
Valutiamo ora la varianza dello stimatore:
N N
1 X 1 X
E[(x̂(Y ) − µ)2 ] = E[( yk − µ)2 ] = E[( (yk − µ))2 ]
N N
k=1 k=1
N 2
1 X σ
= E[(yk − µ)2 ] =
N2 N
k=1
Come si vede la varianza dello stimatore coincide con il limite inferiore di Cramer-Rao e quindi lo
stimatore considerato é ottimo.
5.18.4 Esercizio: Cramer-Rao per variabile gaussiana con due parametri

Calcolare la matrice di Fisher nelle stesse condizioni del caso precedente, ma considerando sia il
parametro µ sia il parametro σ 2 .
5.18.5 Esempio: metodo Monte Carlo

In questo esempio introduciamo il metodo Monte Carlo usato nell’inferenza statistica. L’inferenza
statistica é una scienza che studia le proprietá statistiche di una popolazione e consente di trarre
delle informazioni sulla popolazione intera basandosi su un campione estratto a caso. Tipicamente
é di interesse stimare parametri di popolazione quali la media la varianza etc. Tale stima é tipi-
camente basata su un campione estratto dalla popolazione e non sulla popolazione intera. Inoltre
é di interesse valutare l’affidabilitá della stima effettuata, cioé ad esempio calcolare intervalli di
confidenza.
Valutare l’affidabilitá di una stima di un parametro in genere richiede una conoscenza della
distribuzione statistica che si sta studiando. In casi semplici, quali la media di un campione estratto
da una popolazione gaussiana tale analisi puó essere effettuata agevolmente per via analitica. In
casi piú complessi é necessario ricorrere alla simulazione Monte Carlo [Von Neumann 1940].
L’idea di base del metodo Monte Carlo consiste nell’estrazione ripetuta (mediante generazione di
numeri casuali con il computer) di campioni da una popolazione e nell’applicazione del modello per
stimare il parametro di interesse. Le stime ripetute consentono di studiare le proprietá statistiche
della stima.
L’esempio seguente mostra come stimare le proprietá dello stimatore della media. I risultati
sono mostrati in figura 5.4.
% Metodo Monte Carlo

% da una popolazione gaussiana
% estraiamo N elementi (campione di popolazione)

% per M volte e per ciascuna estrazione calcoliamo la media;

% la varianza di tale stima approssima il limite di cramer-rao
clear all
close all
N=100; % numero di elementi in un campione

M = 10000; % numero estrazioni
mu = 1;
sigma = 3;
X = sigma*randn(N,M)+mu;
medie = mean(X);
% varianza stimata
std(medie)
% CRLB
sqrt(sigma^2/N)
figure
hist(X(:),100)
title(’Distribuzione delle popolazione studiata’)
figure
hist(medie,100)
title(’Distribuzione statistica della media del campione’)
5.18.6 Esempio: applicazione del teorema di Cramer-Rao nel caso di

modello non-lineare con rumore gaussiano
Consideriamo un modello non lineare yk = f (tk , θ1 , . . . , θp )+k dove k sono variabili gaussiane i.i.d.
a media nulla e varianza σ 2 . Valutiamo il limite inferiore di Cramer-Rao nella stima dei parametri
θ1 , . . . , θp . In forma matriciale scriveremo y = [y1 , . . . , yN ]T , = [1 , . . . , N ]T , θ = [θ1 , . . . , θN ]T ,
f (θ) = [f (t1 , θ), . . . , f (tN , θ)]T , y = f (θ) + . Osserviamo che:
pY (y|θ) = p (y − f (θ))
Essendo le k congiuntamente gaussiane avremo che:
1 1
p() = exp(− 2 T )
(2πσ 2 )N/2 2σ
pertanto:
1 T 1
ln pY (y|θ) = − + c = − 2 (y − f (θ))T (y − f (θ)) + c
2σ 2 2σ
dove c é una costante indipendente da θ. Ora si ha:
∂ 1 ∂f
ln pY (y|θ) = 2 (y − f (θ))
∂θ σ ∂θ

4 Distribuzione delle popolazione studiata

x 10
4
3.5
2.5
1.5
0.5
0
−15 −10 −5 0 5 10 15 20
(a)
Distribuzione statistica della media del campione

400
350
300
250
200
150
100
50
0
−0.5 0 0.5 1 1.5 2 2.5
(b)
Figura 5.4: Metodo Monte Carlo. (a) Distribuzione della popolazione. (b) Distribuzione dello
stimatore della media.

e quindi:

∂ ∂
J = E ln pY (y|θ) T ln pY (y|θ)
∂θ ∂θ
"
T
T #
1 ∂f T

1 ∂f
= E (y − f (θ)) 2 (y − f (θ)) =
σ 2 ∂θ σ ∂θ
T
1 ∂f T ∂f
= E (y − f (θ))(y − f (θ))
σ4 ∂θ ∂θ T
1 ∂f T T ∂f
= E =
σ 4 ∂θ ∂θ T
1 ∂f T 2 ∂f
= σ I T
σ 4 ∂θ ∂θ
T
1 ∂f ∂f
=
σ 2 ∂θ ∂θ T
dove:  ∂f (t1 ) ∂f (t2 ) ∂f (tN ) 
∂θ1 ∂θ1 ... ∂θ1
∂f (t1 ) ∂f (t2 ) ∂f (tN )
∂f T ...
 
 ∂θ2 ∂θ2 ∂θ2 
= .. .. .. .. 
∂θ 
 . . . .


∂f (t1 ) ∂f (t2 ) ∂f (tN )
∂θp ∂θp ... ∂θp
5.18.7 Esempio: applicazione del metodo Monte Carlo

Usiamo il metodo Monte Carlo per studiare il limite teorico di Cramer-Rao nel caso del modello di
Tofts. I risultati del codice sono mostrati nella figura 5.5.
% Modello di Tofts
% CRLB confronto tra il valore teorico e l’analisi Monte Carlo
close all
clear all
Ktrans = 0.8;
ve = 0.5;
kep = Ktrans/ve;
Ts = 0.1;
t = (0:Ts:10)’;
[Ct,Dkt,Dke] = tofts([Ktrans kep],t);
% rumore
v = 0.1; % deviazione standard
% CRLB
A = [Dkt,Dke]’;
J = A*A’;
s = v^2 * inv(J)
% Monte Carlo
M = 1000;
Ktrans0 = 0.5;

kep0 = 2;
FUN = @tofts;
X0 = [Ktrans0, kep0];
XDATA = t;
options = optimset(’algorithm’,’levenberg-marquardt’,’display’,’off’);
X = zeros(M,2);
for k=1:M
YDATA = Ct + randn(size(Ct))*v;
[X(k,:),RESNORM,RESIDUAL,EXITFLAG,OUTPUT,LAMBDA] = ...
LSQCURVEFIT(FUN,X0,XDATA,YDATA,[],[],options);
end
% varianza stimata da confrontare con CRLB

var(X)
p = mean(X);
Ktrans_m = p(1);
kep_m = p(2);
figure
hist(X(:,1),100)
title(’Distribuzione delle stime di K^{trans}’)
xlabel(’K^{trans} [min^{-1}]’)
h = line([Ktrans Ktrans],[0 40]);
set(h,’color’,’r’)
h = line([Ktrans_m Ktrans_m],[0 40]);
set(h,’color’,’g’)
legend(’distribuzione’,’K^{trans} reale’,’K^{trans} medio’)
figure
hist(X(:,2),100)
title(’Distribuzione delle stime di k_{ep}’)
xlabel(’k^{ep} [min^{-1}]’)
h = line([kep kep],[0 40]);
h = line([kep_m kep_m],[0 40]);
set(h,’color’,’g’)
legend(’distribuzione’,’k_{ep} reale’,’k_{ep} medio’)
In questo caso la funzione tofts.m é stata modificata in modo da includere il calcolo delle derivate.
function [Ct, Dktrans, Dkep]= tofts(p,t)

% AIF di Weinmann
a1 = 3.99; %[kg/L]
a2 = 4.78; %[kg/L]
m1 = 0.144; % [min^-1]
m2 = 0.0111; % [min^-1]
Ktrans = p(1);
kep = p(2);
% derivata di Ct rispetto a Ktrans

Dktrans = D * (a1 * (exp(-m1*t)-exp(-kep*t))./(kep-m1) + ...

% derivata di Ct rispetto a kep

Dkep = D * Ktrans * (...
a1 * (t.*exp(-kep*t).* (kep-m1) - (exp(-m1*t)-exp(-kep*t)))./(kep-m1)^2 + ...
+ a2 * (t.*exp(-kep*t).* (kep-m2) - (exp(-m2*t)-exp(-kep*t)))./(kep-m2)^2);

Distribuzione delle stime di Ktrans

70
distribuzione
Ktrans reale
60
Ktrans medio
50
40
30
20
10
0
0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2
Ktrans [min−1]
(a)
Distribuzione delle stime di k

ep
60
distribuzione
k reale
ep
50 kep medio
40
30
20
10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
kep [min−1]
(b)
Figura 5.5: Simulazione Monte Carlo applicata al modello di Tofts. (a) Distribuzione delle stime
di K trans . (b) Distribuzione delle stime di kep .


Parte II
Introduzione all’uso di tecniche di

Pattern Recognition per modelli
fisiologici
105
Capitolo 6
Introduzione al pattern recognition
6.1 Il problema del pattern recognition

Supponiamo di essere il portiere di un albergo in cui si svolgano contemporaneamente due congressi:
uno dei giocatori di basket, e l’altro dei giocatori di ping-pong. Il nostro compito é quello di
indirizzare alla corretta sala ciascun visitatore. Quando ci si presenterá il primo visitatore gli
chiederemo se é interessato all’uno o all’altro congresso e lo indirizzeremo opportunamente. Nel
frattempo noteremo che le caratteristiche fisiche dei giocatori di basket sono diverse da quelle dei
giocatori di ping-pong: prevalentemente alti e pesanti gli uni e prevalentemente bassini e leggeri
gli altri. In questo modo dopo un certo numero di visitatori non avremo piú bisogno di chiedere a
quale congresso sono diretti, ma ci basterá guardarli per individuare la categoria di appartenenza.
Il problema del Pattern Recognition é esattamente quello di classificare gli individui di una
popolazione in base a certe ‘features’.
Si puó procedere alla classificazione in diversi modi a seconda se si abbia o meno una conoscenza
priori delle caratteristiche della popolazione.
6.2 Principi della classificazione

Le considerazioni seguenti sono basate su [70].
Un individuo possede determinate caratteristiche (o features) che possono essere raccolte in
un pattern x = [x1 , x2 , ..., xN ]T . L’insieme di tutti i possibili pattern costituisce uno spazio N -
dimensionale chiamato lo spazio dei pattern X (o spazio delle misure).
L’idea di fondo é che individui simili (ad es. soggetti affetti da una determinata patologia)
abbiano caratteristiche simili e quindi nello spazio dei pattern siano rappresentati da pattern vicini.
Diremo che oggetti vicini formano una classe o cluster. I cluster possono occupare varie regioni
all’intero dello spazio dei pattern. Se i cluster possono essere separati da iper-superfici allora
parleremo di classi separabili; in particolare, se la separazione puó avvenire con degli iper-piani
allora diremo che i cluster sono linearmente separabili.
Supponendo che gli individui possano appartenere ad una fra R classi, un classificatore é un
dispositivo al cui ingresso viene presentato il pattern relativo ad un certo individuo x e fornisce in
uscita un identificatore ωr {ω1 , ...ωR } della classe di appartenenza di x.
La funzione d(x) = ωr che assegna a ciascun pattern la classe di appartenenza si chiama regola
di decisione. La regola di decisione divide lo spazio dei pattern in R regioni disgiunte {Kr },
r = 1, . . . , R. Ad es. le iper-superfici di separazione tra le regioni possono essere definite da R
funzioni scalari (discriminanti ) g1 (x), ..., gR (x), scelte in modo tale che se xKr allora gr (x) ≥ gs (x)
107
Capitolo 6. Introduzione al pattern recognition
per tutti gli s 6= r. La regola di decisione puó essere scritta in termini delle funzioni discriminanti:
d(x) = ωr ⇔ gr (x) = max gs (x)

s=1,...,R
Un classificatore lineare é caratterizzato da funzioni discriminanti lineari:
gr (x) = qr0 + qr1 x1 + qr2 x2 + .... + qrN xN = qTr · x
Un altro modo di costruire un classificatore é basato sul principio della minima distanza o
nearest neighbor (si tratta di un caso particolare del precedente metodo delle funzioni discriminanti).
Supponiamo di avere R esemplari (detti template) v1 , ..., vR dei pattern che stiamo analizzando. Il
classificatore di tipo nearest neighbor assegnerá il pattern x in base all’esemplare piú vicino:
d(x) = ωr ⇔ |vr − x| = min |vs − x|

s=1,...,R
6.3 Concetti di base

Il problema del pattern recognition coinvolge essenzialmente tre aspetti:
• acquisizione dei dati e preprocessing

• rappresentazione dei dati
• decision making
6.3.1 Acquisizione dei dati e preprocessing

Questo aspetto é caratteristico di ciascuna applicazione e non puó essere trattato in modo generale.
Ad es. si puó acquisire il segnale ECG, poi rilevare gli eventi QRS e dall’analisi di features mor-
fologiche o di tempificazione, si possono classificare le aritmie o le patologie cardiache; nel caso di
indagini con DCE-MRI si possono acquisire i valori della concentrazione di Gd nel corso del tempo
ed associare a ciascun voxel il vettore di features corrispondente per separare voxel sospetti da voxel
sani o benigni; nell’analisi di immagini PET si puó usare il SUV (Standard Uptake Value) come
feature per classificare i voxel che fanno parte del Gross Tumor Volume (GTV) che sará irradia-
to durante la radio-terapia; gli esami di laboratorio forniscono un vettore di features (ematocrito,
etc.) che puó servire ad individuare situazioni di rischio per determinati soggetti. É possibile fare
moltissimi altri esempi nell’ambito delle applicazioni biomedicali.
Spesso le grandezze misurate direttamente dai soggetti non possono essere subito adoperate
come features per la classificazione, ma devono subire un trattamento (pre-processing) che ha lo
scopo di estrarre features opportune (si pensi al caso dell’ECG da cui si estraggono i QRS).
6.3.2 Rappresentazione dei dati

Spesso esistono delle scelte ovvie che consentono di estrarre le caratteristiche salienti del fenomeno
di interesse ma in altri casi non é ben chiaro quali siano le features migliori per la classificazione.
Per risolvere questo problema, in genere si individuano due attivitá: una di feature selection e
l’altra di features extraction. Nella feature selection si cerca di selezionare tra le varie features
disponibili quelle che hanno il potere di rendere ottima la classificazione (in un senso che sará
chiarito nel seguito). In particolare, le features non vengono manipolate ma conservano il loro
significato fisiologico. La features extraction invece é un attivitá in cui si cerca di combinare le
feature disponibili per ottenere nuove features mediante le quali la classificazione sia ottima. In
questo caso le feature ottenute perdono una diretta interpretazione fisiologica.

6.3. CONCETTI DI BASE
6.3.3 Decision making
Il processo di decision making si basa sulle seguenti considerazioni. Il pattern x appartenente alla
classe ωj é visto come una osservazione estratta dalla pdf condizionata p(x|ωj ). Supponiamo di
conoscere le probabilitá a priori di occorrenza di ciascuna classe p(ωr ), r = 1, . . . , R. Osserviamo
PR
che p(x) = k=1 p(ωr )p(x|ωr ).
Cerchiamo di individuare la regola di decisione ottima in questo caso. Per semplicitá consi-
deriamo innanzitutto il caso di due classi soltanto. La probabilitá a posteriori che l’individuo
caratterizzato dal pattern x appartenga alla classe ω1 é data da p(ω1 |x). É naturale in questo caso
decidere che l’individuo appartiene alla classe ω1 se p(ω1 |x) > p(ω2 |x). Usando il teorema di Bayes
avremo:
p(x|ω1 )p(ω1 ) p(x|ω2 )p(ω2 )
p(ω1 |x) > p(ω2 |x) ⇐⇒ >
p(x) p(x)
e quindi:
p(x|ω1 ) p(ω2 )
x ∈ ω1 ⇐⇒ > (6.1)
p(x|ω2 ) p(ω1 )
Vediamo quale é la probabilitá di errore detta anche probabilitá di mis-classification. Se abbiamo

deciso per la classe ω1 allora p(ω1 |x) > p(ω2 |x). Pertanto una misura dell’errore dovuto a questa
regola di decisione é r(x) = p(ω2 |x). Analogamente, in base alla regola che abbiamo scelto se
avessimo deciso per ω1 allora p(ω2 |x) > p(ω1 |x) e quindi una misura dell’errore sarebbe stata
r(x) = p(ω2 |x). Quindi per un generico pattern x l’errore che commettiamo usando la regola di
decisione 6.1 é dato da r(x) = min[p(ω2 |x), p(ω1 |x)]. L’errore medio é pertanto:
Z Z
E[r(x)] = r(x)p(x)dx = min[p(ω2 |x), p(ω1 |x)]dx
Z
= min[p(ω2 )p(x|ω2 ), p(ω1 )p(x|ω1 )]dx
Z Z
= p(ω2 ) p(x|ω2 )dx + p(ω1 ) p(x|ω1 )dx
L1 L2
= p(ω2 )ε2 + p(ω1 )ε1
dove L1 é la regione di in cui decidiamo che il vettore appartiene alla classe ω1 ed L2 é la regione
di in cui decidiamo che il vettore appartiene alla classe ω2 ; ε2 é l’errore di assegnare erroneamente
x alla classe ω1 e ε1 é l’errore di assegnare erroneamente x alla classe ω2 . L’errore totale é una
somma pesata dei due errori.
Abbiamo pertanto determinato sia la regola di decisione ottima sia l’errore medio che si com-
mette con tale regola di decisione.
Il criterio adottato finora assegna a tutti gli errori la stessa importanza. Tuttavia possiamo
pensare ad un altro criterio decisionale che include un costo per la decisione. Introduciamo pertanto
il concetto di costo cij legato alla decisione ωi quando la classe vera é ωj . Dato un certo vettore x
il costo ri (x) di decidere per la classe ωi sará dato da:
ri (x) = ci1 p(ω1 |x) + ci2 p(ω2 |x)
In questo caso la regola di decisione tende a minimizzare il costo:
x ∈ ω1 ⇐⇒ r1 (x) < r2 (x)

Il costo della decisione sará dato pertanto da r(x) = min[r1 (x), r2 (x)]. E quindi il costo medio
sará, analogamente al caso precedente:
Z
E[r(x)] = min[r1 (x), r2 (x)]p(x)dx
Z
= c11 p(ω1 )p(x|ω1 ) + c12 p(ω2 )p(x|ω2 )dx +
L1
Z
c21 p(ω1 )p(x|ω1 ) + c22 p(ω2 )p(x|ω2 )dx
L2
I ragionamenti precedenti possono essere estesi al caso di R classi. La regola di decisione di

Bayes sará data da:
x ∈ ωk ⇐⇒ p(ωk |x) = max p(ωi |x)
i
mentre l’errore di Bayes sará:

X
r(x) = p(ωj |x) = 1 − p(ωk |x)
j6=k
Quando consideriamo le funzioni di costo invece avremo:
x ∈ ωk ⇐⇒ rk (x) = min ri (x)

i
dove: X
ri (x) = cik p(ωk |x)
k
Esempio Matlab
In questo esempio si vuole mostrare come generare dei dati artificiali estratti da distribuzioni
gaussiane con certe caratteristiche. Inoltre si verifica il funzionamento del classificatore a minima
distanza euclidea (vedi fig. 6.1).
% generiamo dati corrispondenti a 3 classi

% gaussiane con stessa covarianza e diversa media
clear all
close all
P = [1/3 1/3 1/3];% probabilità a priori delle classi
N = 100; % totale estrazioni

SIGMA = [1 0;0 1];
MU = [
0 4 0
0 0 5
];
R = [];
for k = 1: length(P)
R = [R; MVNRND(MU(:,k),SIGMA,round(N*P(k))) ...
k*ones(round(N*P(k)),1)];
end
% classificatore a minima distanza

% nelle ipotesi di classi gaussiane con medesima covarianza

% diagonale e equiprobabili
% il classificatore Bayesiano è equivalente al classificatore
% a minima distanza
lab = zeros(length(R),length(P));
lab(:,k) = diag(sqrt((R(:,1:2)-ones(length(R),1)*MU(:,k)’) * ...
(R(:,1:2)-ones(length(R),1)*MU(:,k)’)’));
end
[dum,classi] = min(lab’);
errori = not(classi’==R(:,3));
% Invece di usare i valori veri delle medie

% usiamo le stime
MU2 = [mean(R(R(:,3)==1,1:2))’ mean(R(R(:,3)==2,1:2))’ ...
mean(R(R(:,3)==3,1:2))’];
lab2 = zeros(length(R),length(P));
lab2(:,k) = diag(sqrt((R(:,1:2)-ones(length(R),1)*MU2(:,k)’) * ...
(R(:,1:2)-ones(length(R),1)*MU2(:,k)’)’));
end
[dum,classi2] = min(lab2’);
errori2 = not(classi2’==R(:,3));
colori = [’r’,’g’,’b’];
figure
hold on
for k = 1:length(P)
plot(R(R(:,3)==k,1),R(R(:,3)==k,2),[’+’ colori(k)],’markersize’,2)
plot(MU(1,k),MU(2,k),’*M’)
plot(MU2(1,k),MU2(2,k),’V’)
end
axis equal
plot(R(errori,1),R(errori,2),’o’)
plot(R(errori2,1),R(errori2,2),’d’)
6.3.4 Criteri di separabilitá tra classi
Vogliamo individuare degli indici che ci diano un idea della separabilitá tra le classi. A tale scopo
consideriamo la matrice di dispersione intra-classe (within-class scatter matrix):
R
X
Sw = p(ωr )Sr
r=1
dove Sr é la matrice di covarianza della classe ωr :
Sr = E[(x − µr )(x − µr )T ]

−1
−2
−2 0 2 4 6
Figura 6.1: Risultati del classificatore a minima distanza.
inoltre consideriamo la matrice di dispersione tra classi (between-class scatter matrix):

R
X
Sb = p(ωr )(µr − µ0 )(µr − µ0 )T
r=1
dove µ0 é il vettore globale della media:

R
X
µ0 = p(ωr )µr
r=1
Infine consideriamo la matrice di dispersione mista (mixture scatter matrix):
Sm = E[(x − µ0 )(x − µ0 )T ]
Osserviamo che tr{Sw } é una misura della varianza delle features mediata su tutte le classi;
inoltre tr{Sb } é una misura (mediata su tutte le classi) della distanza della media di ciascuna classe
dalla media globale; Sm é la matrice di covarianza del vettore delle features rispetto alla media
globale: tr{Sm } é la somma delle varianze delle features rispetto alla media globale.
Vale la seguente relazione:
Sm = Sw + Sb
Da queste definizioni si vede che:

tr{Sm }
J1 =
tr{Sw }
assume valori elevati se le singole classi hanno una varianza piccola (sono concentrate ciascuna
intorno al proprio valore medio) mentre le varie classi sono bene separate (le medie di ciascuna
classe sono distanti dalla media globale). Al posto di Sm si puó usare Sb .
Analogamente si vede che:
|Sm | −1
J2 = = |Sw Sm |
|Sw |
−1
J3 = tr{Sw Sm }

Figura 6.2: esempio di curva ROC.
hanno le stesse caratteristiche di J1 .

Nel caso di spazio delle features mono-dimensionale e due classi si ha:
|Sb | ∝ (µ1 − µ2 )2
|Sw | ∝ σ12 + σ22
e quindi il criterio J1 diventa il Fisher Discriminant Ratio (FDR):

(µ1 − µ2 )2
F DR =
σ12 + σ22
Nel caso multiclasse si ha:

X X (µi − µj )2
F DRm =
i j6=i
σi2 + σ2j
Un altro criterio usato é la curva Receiver Operating Characteristic (ROC). Supponiamo di avere
due classi con certe distribuzioni. Immaginiamo di spostare la soglia di decisione e di calcolare per
ciascun valore della soglia gli errori di mis-classificazione (in questo contesto tali errori sono chiamati
α e β). Andando a visualizzare la curva che ah come ascisse e ordinate rispettivamente α e β si
ottiene qualcosa di simile a quanto raffigurato in fig. 6.2. Se le due distribuzioni fossero uguali allora
avremmo α = 1 − β cioé la retta in figura. Se le due distribuzioni si allontanano allora la curva si
discosta dalla retta. L’area compresa tra la curva e la retta pertanto rappresenta una misura della
separabilitá delle due classi: per completa separabilitá si ottiene che l’area é uguale ad 1/2.
6.3.5 Feature selection

Come giá osservato spesso é necessario selezionare le features che rendono ottima la classificazione
(cioé minimizzano l’errore di Bayes). In generale le features ottime per un certo tipo di classificatore
(ad es. un classificatore con iper-superfici di separazione lineare) potrebbero non essere ottime per
un altro tipo di classificatore (ad es. con iper-superfici di separazione di tipo quadratico). Pertanto
nel ragionamento seguente per fissare il tipo di classificatore faremo riferimento al classificatore
Bayesiano.
Un primo passo consiste nel guardare alle varie features indipendentemente l’una dall’altra,
Questo puó aiutare ad individuare le features ’cattive’. Come criterio si puó usare il FDR: il criterio
C(k) viene valutato per ciascuna feature k, le feature vengono ordinate in ordine decrescente di C(k)
e si scelgono le prime features.
6.3.6 Feature extraction

Nella feature selection, come visto, le features vengono analizzate separatamente per esaminare la
capacitá di ottenere la desiderata separazione i classi usando un sottoinsieme di tutte le features
possibili.

Un altra possibilitá consiste nel manipolare le features per ottenere delle features ottime. Spesso
tale trasformazione é di tipo lineare e corrisponde a ruotare gli assi di riferimento dello spazio
multidimensionale delle features misurate.
Poiché tale operazione presenta interesse anche in altri contesti ed inoltre di per se stessa con-
sente di ottenere informazioni sulla struttura dei dati, sará trattata nei capitolo seguenti (Principal
Component Analysis, Independent Component Analysis).
6.3.7 Supervised learning
Il progetto del classificatore deve essere effettuato sulla base della conoscenza delle caratteristi-
che della distribuzione dei dati. Il processo con cui tale conoscenza viene acquisita si chiama
apprendimento o addestramento (’learning’).
Il classificatore puó esser visto come una macchina ’adattativa’ che apprende dalla propria
esperienza cosı́ come fanno gli esseri umani. In particolare un classificatore di questo tipo avrá
una struttura dipendente da alcuni parametri ed il processo di apprendimento consiste nel trovare
i valori i ottimi di tali parametri in termini di errore di classificazione. Le reti neurali costituiscono
un esempio di classificatori di tipo adattativo ed alcuni aspetti saranno esaminati in un capitolo
successivo.
Possiamo immaginare una situazione in cui un ’teacher’ che conosca la classe di appartenenza di
ogni individuo esaminato osservi il risultato della classificazione da perte del classificatore adatta-
tivo: se il classificatore commette un errore il teacher lo comunica alla machcina che aggiusta i suoi
parametri interni per ridurre l’errore. La procedeura descritta prende il nome di apprendimento
supervisionato (supervised learning)
6.3.8 Unsupervised learning
Si puó immaginare anche un altra situazione in cui non si conosce la classe di appartenenza degli
individui ma si vuole cercare di suddividere i dati in gruppi o ’cluster’ tali che soddisfino certi criteri
ragionevoli di saparabilitá tra gruppi.
Tale processo estremamente complesso puó essere supportato da certe metodologie ed algortimi
che saranno trattati in un capitolo seguente.
6.3.9 Prestazioni del classificatore
Le prestazioni del classificatore coincidono con l’errore di mis-classification. Il classificatore Baye-

siano costituisce il classificatore ottimo per cui la valutazione delle sue prestazioni é il primo passo
per misurare la possibilitá di classificare correttamente i dati. Poiché la valutazione dell’errore
bayesiano é possibile solo in casi particolari, sono state proposte delle procedure per stimare i limiti
di tale errore (lower bound, upper bound).
La procedura resubstituion consente di stimare il lower bound dell’errore bayesiano. Tale pro-
cedura consiste nell’usare l’intero insieme di dati a disposizione per progettare il classificatore
(supervised learning) e poi nell’usare lo stesso insieme di dati per testare il classificatore.
La procedura di leave-one-out consente invece di valutare l’estremo superiore. In questa pro-
cedura un campione xi viene eliminato dagli N dati ed il classificatore viene progettato sulla base
degli N − 1 dati rimanenti, ed il classificatore viene testato sul campione xi . La procedura di
progettazione-testing viene ripetuta per tutti i campioni xi , i = 1, . . . , N . Il numero di mis-
classification consente di valutare il limite superiore della proabbilitá di errore del classificatore
bayesiano.

6.4 Esempi ed esercizi
6.4.1 Esempio: stima a massima verosimiglianza dei parametri di distri-

buzioni gaussiane multivariate
Siano {xn } un insieme di N osservazioni tratte da K classi con distribuzioni gaussiane di medie
µk e matrici di covarianza Σk e probabilitá a priori πk . Sia tn il vettore che codifica la label della
osservazione xn , costruito nel modo seguente: tnj = 1 se j coincide con la classe di appartenenza,
tnj = 0 in caso contrario. Pertanto i vettori avranno la forma tn = [0, . . . , 1, . . . , 0]T .
Se le varie osservazioni sono indipendenti tra loro, la probabilitá di osservare l’intero insieme
{xn , tn } sará data da:
N
Y N Y
Y K tnj
p({xn , tn }) = p(xn , tn ) = p(xn |tn )p(πk ) (6.2)
n=1 n=1 j=1
Questa quantitá coincide con la verosimiglianza dei parametri l(µk , Σk , πk ). Considerandone,

come al solito, il logaritmo L si ha:
N X
X K
L= tnj (log(p(xn |tn )) + log πj ) (6.3)
n=1 j=1
Per stimare
PK i parametri delle distribuzioni, dobiamo massimizzare tale quantitá soggetto al
vincolo che k=1 πk = 1. Per cui dobbiamo considerare la lagrangiana:
N X
X K K
X
L= tnj (log(p(xn |tn )) + log πj ) − λ( πk − 1) (6.4)
n=1 j=1 k=1
Effettuando la derivata parziale rispetto alle probabilitá a priori ed eguagliandola a zero:

N
∂L X 1
= tnk −λ=0 (6.5)
∂πk n=1
πk
da cui si ricava:
Nk
πk = (6.6)
λ
P
dove Nk = n tnk é il numero di osservazioni appartenenti alla classe k. Sostituendo λ = Nk /πk
all’interno della 6.4 e derivando rispetto a λ si ottiene:
N X K
∂L X 1
=− tnj + 1 = 0 (6.7)
∂λ n=1 j=1
λ
da cui λ = N . Quindi in definitiva:

Nk
πk = (6.8)
N
che é un risultato intuitivamente accettabile.
Fino ad ora non abbiamo usato il fatto che le distribuzioni sono gaussiane. Sostituiamo l’espres-
sione delle gaussiane all’interno della 6.4, e trascuriamo i termini che non dipendono dalle µk , e le
costanti moltiplicative, dato che scompariranno nella derivazione rispetto a µk e nell’eguaglianza a
zero:
XN X K
L= tnj (xn − µj )T Σj (xn − µj ) (6.9)
n=1 j=1

derivando rispetto a µk :
N
∂L X
= tnk (xn − µk )T Σk = 0 (6.10)
∂µk n=1
da cui, moltiplicando per Σ−1

k si ricava:
N
X N
X
tnk xn = µk tnk = µk Nk (6.11)
n=1 n=1
e quindi: P
n∈Ck xn
µk = (6.12)
Nk
anche questo risultato é intuitivo.
6.4.2 Esercizio
Ricavare un espressione per la stima a massima verosimiglianza della matrice di covarianza usando
metodi simili a quelli dell’esempio 6.4.1.

Capitolo 7
Principal component Analysis
L’idea principale nell’analisi delle componenti principali é ridurre la dimensionalitá di un set di dati
costituito da un gran numero di variabili correlate, lasciando inalterato il contenuto informativo.
Tale operazione é possible dal momento che le variabili originarie sono correlate tra loro. Pertanto
é ragionevole supporre che una loro combinazione lineare possa essere ugualmente rappresentativa
dei dati a patto di scegliere opportunamente tale combinazione.
Un esempio puó essere utile a chiarire il concetto. Consideriamo per semplicitá due variabili
aleatorie x1 e x2 . Una loro realizzazione possibile è mostrata in fig. 7.1. Si vede chiaramente
che le realizzazioni sono allineate lungo una retta. Effettuando una rotazione degli assi coordinati
(=combinazione lineare di x1 e x2 ) si ottiene la fig. 7.2: si vede chiaramente che lungo la nuova
variabile z2 i dati hanno varianza minima, ció significa che tale variabile non porta informazione:
i dati sono quasi costanti rispetto a questa variabile. Al contrario la variabile z1 porta nuova
informazione consentendo di discriminare le osservazioni, avendo varianza massima.
La riduzione del numero di variabili avviene tramite una trasformazione lineare delle variabili
che proietta quelle originarie in un nuovo sistema cartesiano nel quale la nuova variabile avente
varianza massima vine proiettata sul primo asse, la nuova variabile seconda per dimensione della
varianza sul secondo asse e cosı́ via. La riduzione della complessitá avviene limitandosi ad analizzare
le principali (con varianza piú elevata) tra le nuove variabili. Sono gli stessi dati che determinano
i vettori di trasformazione. I dati originali sono poi proiettati nello spazio vettoriale ridotto.
Supponiamo di avere un vettore x di p variabili aleatorie
x = [x1 , . . . , xp ]T
Le componenti principali si desiderano essere combinazione lineare delle variabili di x con varianza
massima. Pertanto il primo step è calcolare la prima componente principale come segue
z1 = aT1 x
con a1
a1 = [a11 , . . . , a1p ]T
e poi massimizzare la varianza di tale componente
var[aT1 x] = E[aT1 (x − mx )(x − mx )T a1 ] = aT1 Cx a1
dove mx é il vettore delle medie e dove si é posto Cx = E[(x − mx )(x − mx )T ]. Per massimizzare
questa quantità si introduce un vincolo su a1 ovvero che abbia modulo unitario aT1 a1 = 1, pertanto
utilizzando il metodo dei moltiplicatori di Lagrange si deve ricercare un punto stazionario della
seguente funzione Lagrangiana:
L(a1 , λ) = aT1 Cx a1 − λ(aT1 a1 − 1)
117
Capitolo 7. Principal component Analysis
Figura 7.1: Una realizzazione delle variabili x1 e x2
Figura 7.2: Le variabili x1 e x2 dopo una rotazione

Effettuando la derivata di tale funzione rispetto ad a1 e ponendola uguale a zero otteniamo:
Cx a1 = λa1
Ovvero a1 é un autovettore della matrice Cx . Osserviamo che é l’autovettore di Cx associato
all’autovalore massimo, infatti:
aT1 Cx a1 = λaT1 a1 = λ
Adesso occorre calcolare la seconda componente principale che deve essere incorrelata con la prima
e deve avere varianza massima appena inferiore alla varianza associata alla prima componente
principale:
z2 = aT2 x
con a2
a2 = [a21 , . . . , a2p ]T
var[aT2 x] = aT2 Cx a2
In questo caso abbiamo due condizioni di vincolo:
aT2 a2 = 1
cov[aT1 x, aT2 x] = E[aT2 (x − mx )(x − mx )T a1 ]
= aT2 Cx a1 = aT1 Cx a2
= λmax aT2 a1 = λmax aT1 a2
= 0
Utilizzando ancora i moltiplicatori di lagrange il massimo si ha dove si annulla la derivata rispetto

a a2 della Lagrangiana:
aT2 Cx a2 − λ1 (aT2 a2 − 1) − λ2 (λmax aT2 a1 )
cioé:
Cx a2 − λ1 a2 − λ2 λmax a1 = 0
e moltiplicando per aT1 ambo i membri:
aT1 Cx a2 − aT1 λ1 a2 − λ2 λmax aT1 a1 = 0
Il primo ed il secondo termine della precedente espressione sono nulli per il vincolo di incorrela-
zione ed inoltre essendo aT1 a1 = 1 si deve avere necessariamente λ2 = 0. Sostituendo questo valore
nella espresisone della Lagrangiana si ottiene una espressione foralmente identica a quella ottenuta
in precedenza per la prima componente principale. Ripetendo lo stesso procedimento i passaggi
algebrici sono del tutto analoghi a quelli fatti per il calcolo della prima componente principale.
Otteniamo anche in questo caso:
Cx a2 = λa2
aT2 Cx a2 = λaT2 a2 = λ
Ovvero a2 è l’autovettore di Cx associato all’autovalore immediatamente inferiore a λmax .
Iterando questo ragionamento per a3 , . . . , ap si costruisce un nuovo set di variabili ottenute
trasformando linearmente il vettore x con gli autovettori relativi agli autovalori via via decrescenti
della matrice Cx . Il nuovo vettore sarà
   T 
z1 a1 x
 ..   .. 
z =  .  =  .  = AT x
zp aTp x
dove A è la matrice che ha gli autovettori di Cx disposti per colonna:
A = [a1 , . . . , ap ]

7.1 Proprietà delle componenti principali

Consideriamo la trasformazione ortonormale:
 
y1
y =  ...  = BT x
 
yq
dove B = [b1 .....bq ] possiamo elencare le seguenti proprietà:
Proprietá 1
La traccia tr(Cy ) è massima se B = Aq = [a1 .....aq ] che rappresenta la matrice dei primi q
autovettori disposti per colonna. Queste q variabili sono quelle che mantengono la massima varianza
delle variabili originali ovvero sono quelle che hanno il maggiore contributo informativo.
Questá proprietá si puó mostrare nel modo seguente. Sia bk una colonna di B; poiché le colonne
di A formano una base nello spazio p-dimensionale, si ha:
 
p c1k
cjk aj = [a1 , . . . , ap ]  ... 
X
bk =
 
j=1 cpk
pertanto si potrá scrivere B = AC dove C é la matrice p × q dei coefficienti {cjk }.

Si ha inoltre:
Cy = E[yyT ] = E[BT xxT B]

p
X
= BT Cx B = CT AT Cx AC = CT ΛC = λj cj cTj
j=1
dove cTj é la j-sima riga di C. Ora si ha1 :

p
X
tr(Cy ) = λj tr(cj cTj )
j=1
Xp
= λj tr(cTj cj )
j=1
p
X
= λj cTj cj
j=1
p
X q
X
= λj c2jk (7.1)
j=1 k=1
Osserviamo che C = AT B e quindi CT C = BT AAT B = Iq (poiché A é ortonormale e le

colonne di B ortonormali). Dunque le colonne di C sono ortonormali. Possiamo pensare a C come
1 La traccia é un operatore lineare, infatti:
tr(λA) = λtr(A)
tr(A + B) = tr(A) + tr(B)
inoltre, usando la notazione di Einstein:
tr(AB) = aij bji = bji aij = tr(BA)

7.1. PROPRIETÀ DELLE COMPONENTI PRINCIPALI
T
alle prime q colonne di una matrice p × p ortonormale, diciamo D tale che
Pq DD2 = 1. Le righe di C
T
sono costituite dai primi q elementi delle righe di D. Pertanto cj cj = k=1 cjk ≤ 1. Quest’ultimo
termine é il coefficiente di λj nella eq. 7.1.
Allo scopo di massimizzare tr(Cy ) vorremo che questi termini fossero tutti uguali ad 1. Ció é
vero se B = Aq , infatti cjk = 1 per 1 ≤ j = k ≤ q e cjk = 0 altrove.
Proprietá 2
La traccia tr(Cy ) è minima se B = [aq+1 , . . . , ap ];
Proprietá 3
Cx si P
può decomporre in autovalori e autovettori mediante il teorema di decomposizione spettrale
p
Cx = k=1 λk ak aTk
Proprietá 4
Consideriamo la famiglia di ellissoidi nello spazio p-dimensionale
xT Cx−1 x = costante
le componenti principali definiscono gli assi principali di questi ellissoidi.

Quest’ultima proprietà può essere dimostrata come segue. Se definiamo la trasformazione z =
AT x con A ortonormale, possiamo considerare la trasformazione inversa x = Az sostituendo tale
valore di x nell’espressione xT C−1
x x otteniamo
zT AT C−1
x Az = costante
Ricordando che gli autovettori di C−1 x sono gli stessi di Cx e che gli autovalori di C−1
x sono i
reciproci di quelli di Cx possiamo scrivere2
zT AT AΛ−1 AT Az = zT Λ−1 z = costante
Quest’ultima equazione può essere riscritta

p
X 1 2
z = costante
λk k
k=1
è questa è l’equazione di un’ellissoide riferita ai suoi assi principali. Questo risultato è statisticamen-
te importante per un vettore alatorio che ha una distribuzione di probabilità congiunta gaussiana,
in questo caso la famiglia di ellissoidi
xT Cx−1 x = costante
definisce i contorni a probabilità costante nella distribuzione del vettore gausssiano.

2 Si ha:
1
Cx v = λv ⇔ v = C−1
x v
λ
Cx = AΛAT ⇔ C−1
x = AΛ
−1 T
A
essendo (AB)−1 = B−1 A−1 .

7.2 PCA di un campione di osservazioni

Se per ogni componente del vettore x abbiamo a disposizione n realizzazioni indipendenti e non
conosciamo la matrice di covarianza il problema si riformula in questo modo:
xT1
 
X =  ... 
 
xTn
dove xTj = [xj1 , . . . , xjp ] é la j-sima osservazione. Quindi calcolo le componenti principali in questo
modo
zi1 = aT1 xi
per i = 1, . . . , n . Devo calcolare tale componente principale sempre massimizzando la varianza ma

avendo detto che non conosciamo la matrice di covarianza adottiamo un approccio statistico ovvero
calcoliamo la varianza come segue
n
1 X
var[zi1 ] = (zi1 − mz1 )2
n − 1 i=1
ove la media delle osservazioni si calcola:

n
X 1 T
mz1 = a xi
i=1
n 1
Quindi:
n n n
1 X T 1X T 1 X T
var[zi1 ] = (a1 xi − a1 xk )2 = (a (xi − mx ))2
n − 1 i=1 n n − 1 i=1 1
k=1
Posso sempre ipotizzare variabili a media nulla (basa sottrarre la media) ed in tal caso:
n
1 X T
var[zi1 ] = (a xi xTi a1 )
n − 1 i=1 1
n
1 T
X
= a (xi xTi )a1
n − 1 1 i=1
xT1
 
1
= aT [x1 , . . . , xn ]  ...  a1
 
n−1 1
xTn
1
= aT XT Xa1
n−1 1
1
Ponendo S = n−1 XT X che rappresenta la matrice di covarianza dei dati ottengo che la varianza
di zi1 è pari ad aT1 Sa1 pertanto posso ripetere gli stessi ragionamenti fatti nel caso di p variabili
aleatorie e quindi ritroverò che a1 è l’autovettore della matrice S relativo all’autovalore massimo.
Ed in modo del tutto analogo calcolo le altre componenti principali ottenendo infine la seguente
matrice di componenti principali:
  T
xT1 ap
 
z11 ... z1p x1 a1 ...
 .. .. ..  =  .. .. ..  = XA
Z= . . .   . . . 
zn1 ... znp xTn a1 ... T
xn ap

7.3. APPROCCIO GEOMETRICO
7.3 Approccio geometrico

Supponiamo che le osservazioni x1 , ..., xn sono trasformate mediante la seguente trasformazione
yi = BT xi ove B è una matrice di dimensioni p × q con colonne ortonormali cosı̀ che y1 , . . . , yn
sono proiezione di x1 , . . . , xn nel sottospazio di q dimensioni. Se ad yi è associato mi nello spazio
di partenza ovvero mi denota la posizione di yi in termini di coordinate originarie si può definire
la distanza tra xi e mi come segue
ri = xi − mi
e questa è ortogonale ad mi
rTi mi = 0
Pn
Vogliamo dimostrare che la somma modulo quadro delle distanze perpendicolare ovvero i=1 (rTi ri )
è minima quando B = [b1 , . . . , bq ] = Aq . Essendo: xTi xi = (ri + mi )T (ri + mi ) = rTi ri + mTi mi si
ha:
X n n
X
(rTi ri ) = (xTi xi − mTi mi )
i=1 i=1
Pn T
Pn T
Siccome non possiamo minimizzare Pn i=1Txi xi dobbiamo massimizzare necessariamente i=1 mi mi
che corrisponde a massimizzare i=1 yi yi perchè le distanze non cambiano nell’effettuare delle
rotazioni nello spazio euclideo. Osserviamo che:
n
X n
X Xn
yiT yi = xTi BBT xi = tr( xTi BBT xi )
i=1 i=1 i=1
Sfruttando le proprietà della traccia si può riscrivere l’espressione come segue:

n
X n
X n
X
tr(xTi BBT xi ) = tr(BT xi xTi B) = tr(BT xi xTi B)
i=1 i=1 i=1
Pn
Ponendo S = i=1 xTi xi si ha:
tr(BT SB) = tr(BT AΛAT B)
e ponendo AT B = C otteniamo:
p
X p
X
T
tr(C ΛC) = tr( λk ck cTk ) = λk cTk ck
k=1 k=1
dove cTj é la riga j-sima di C Quindi in definitiva si devono massimizzare i termini cTk ck . Con-
sideriamo una matrice D ortonormale di dimensione p × p in cui le prime q colonne coincidono
con le colonne di C. Dovendo essere D ortonormale essa deve soddisfare la seguente espressione
DDT = Ip  T
c1 dT1


T  .. .
.  c1 . . . cp
DD =  . .  d1 . . . dp = Ip
cTp dTp
Questo significa che cTj cj ≤ 1 per j = 1, . . . , p. Se scelgo B = Aq ovvero la matrice dei primi q
autovettori disposti per colonna ottengo
 
 T  1 0 ... 0
a1  0 1 ... 0 
C = AT Aq =  ...  [a1 , . . . , aq ] =  .
   
.. .. ..
 ..

. . . 
aTp
0 0 ... 0
per cui cTj cj = 1 per j = 1, . . . , q.

7.4 Decomposizione in valori singolari

Questo metodo consente di calcolare rapidamente le componenti principali: Consideriamo una
matrice X di dimensione n × p; una matrice U n × r tale che UT U = Ir ; L matrice diagonale
r × r ove r è il rango di X ovvero il numero di colonne o di righe linearmente indipendenti; A una
matrice p × r tale che AT A = Ir allora decomponendo XT X in autovalori e autovettori si ha:
p
X
XT X = lk ak aTk
k=1
se il rango è pari ad r vuol dire che abbiamo solo r autovalori non nulli e i restanti p − r autovalori
tutti nulli. Pertanto possiamo considerare la sommatoria fino ad r
r
X
XT X = lk ak aTk
k=1
Ponendo
a1 ar
U = X[ 1/2
,..., 1/2
]
l1 lr
A = [a1 . . . ar ]
 
1/2
l ... 0
 1. .. .. 
L  ..
=  . .


1/2
0 ... lr
Ottengo che
r
X
ULAT = X ak aTk = X
k=1
E posso calcolare le componenti principali come segue
Z = XA = UL
7.5 Trasformazione Karhunen-Loéve (KLT)

In questo caso il vettore x consiste degli ultimi p campioni di un segnale
x = [x(n).....x(n − p + 1)]T
Posso decomporre x in una base ortonormale di versori tali che posso considerare x come una
conbinazione lineare dei versori per opportuni coefficienti che risulteranno le proiezioni del segnale
lungo gli stessi versori, come segue:
Xp
x= φi wi
i=1
posta la matrice Φ pari ad Φ = [φ1 , . . . , φp ] essendo la base ortonormale si deve verificare l’e-
spressione ΦT Φ = I ovvero φT1 φk = δik . A questo punto voglio ridurre la dimensionalità della
base ovvero voglio proiettare x in un sottospazio di dimensione m < p. Quindi calcolo sotto quali
condizioni posso considerare una stima di x come combinazione lineare delle prime m funzioni di
base minimizzando l’errore quadratico medio.
m
X
x̂ = φi wi
i=1

7.6. ESEMPIO MATLAB
L’errore è la differenza tra x e x̂ e ne minimizzo il valore quadratico medio

Xp m
X p
X m
X
E[eT e] = E[( φi wi − φi wi )T ( φk wk − φk wk )]
i=1 i=1 k=1 k=1
p
X p
X
= E[ (φi wi )T (φk wk )]
i=m+1 k=m+1
p
X p
X
= φTi φk E[wiT wk ]
i=m+1 k=m+1
Essendo
E[wiT wk ] = E[φTi xxT φk ] = φTi Rx φk
Pertanto devo minimizzare la seguente quantità
p
X
φTk Rx φk
k=m+1
Usufruendo sempre dei moltiplicatori di lagrange sotto la condizione di vincolo che φTk φk = 1
ottengo
Rx φi = λφi
7.6 Esempio Matlab

In questo esempio si studia l’applicazione della PCA all’elaborazione dell’ECG. I risultati sono
mostrati nella fig. 7.3
% Principal Component Analysis

% applicazione all’elaborazione dell’ECG
clear all
close all
ecgt = true;
variabili = false;
if (ecgt)
p = 128; % istanti di tempo
N = 100; %battiti successivi della stessa persona o di persone differenti
e1 = ecg(p); % crea un ecg di p campioni
e1 = e1(:);
n = .1 * randn(p,N);
X1 = e1 * ones(1,N) + n ;
e2 = filter(ones(10,1),1,e1);
n2 = .1 * randn(p,N);
X2 = e2 * ones(1,N) + n2 ;
X = [X1 X2];
% =============================
% Analisi intra-battito
% KLT:

% le variabili sono gli istanti di campionamento

% le osservazioni sono i singoli battiti
X = X’;
[U,L,A] = svd(X);
Z = U*L;
% dal punto di vista della trasformata di KLT

% in Z vi sono i coefficienti dello sviluppo
% ad esempio se uso un solo autovettore A(:,1)
% allora Z(:,1) sono i coefficenti dello sviluppo in serie di A(:,1)
% per cui
% X(1,:)’=Z(1,1)*A(:,1),
% X(2,:)’=Z(2,1)*A(:,1),
% X(3,:)’=Z(3,1)*A(:,1), e cosı̀ via
figure
subplot(2,1,1)
plot(X1)
title(’QRS - 1 ’)
subplot(2,1,2)
plot(X2)
title(’QRS - 2’)
figure
plot(X1(:,1),X1(:,5),’.’)
axis equal
hold
plot(X2(:,1),X2(:,2),’.r’)
title(’QRS - 2’)
figure
plot(Z(1:N,1),Z(1:N,2),’.’)
hold
plot(Z(N+1:end,1),Z(N+1:end,2),’.r’)
title(’Componenti principali’)
axis equal
figure
plot(diag(L),’*’)
title(’autovalori’)
figure
plot(A(:,1:2))
title(’autovettori’)
% =============================
% Analisi inter-battito
% PCA le variabili sono i singoli battiti
% le osservazioni sono gli istanti di tempo
% gli autovalori != 0 sono gli stessi del caso precedente
X2 = X’;
[U2,L2,A2] = svd(X2);

7.6. ESEMPIO MATLAB
Z2 = U2*L2;
figure
plot(X2(1:N,1),X2(1:N,2),’.’)
hold
plot(X2(N+1:end,1),X2(N+1:end,2),’.r’)
title(’DATI interbattito’)
axis equal
figure
plot(Z2(1:N,1),Z2(1:N,2),’.’)
hold
plot(Z2(N+1:end,1),Z2(N+1:end,2),’.r’)
axis equal
title(’Componenti principali 2’)
figure
plot(Z2(:,1:4))
title(’componenti principali’)
figure
plot(A2(:,1:2))
title(’autovettori 2’)
end;
Esempio Matlab
In questo esempio la PCA é applicata all’analisi di immagini DCE. I risultati sono in figura 7.4 e
7.5 e 7.7.
% Applicazione di PCA alla DCE-MRI

% creiamo una immagine artificiale
% in cui sono presenti 3 tipologie di voxel:
% 0. background
% 1. non-enhancing
% 2. enhancing
clear all
close all
N = 128;
MASK = zeros(N,N);
c1 = [50,70];
c2 = [40,55];
r1 = 40;
r2 = 15;
c3 = [55,65];
r3 = 10;
for m = 1:N
for n = 1:N
if (sqrt((m-c1(1))^2+(n-c1(2))^2))<r1
MASK(m,n) = 1;

QRS − 1 QRS − 2
2 4
1
3
0
−1 2
−2
0 20 40 60 80 100 120 140 1
QRS − 2
5
0
−1
0
−2
−5
0 20 40 60 80 100 120 140 −3 −2 −1 0 1 2 3 4 5
(a) (b)
Componenti principali autovalori

150
4
1 100
0
−1
−2
−3 50
−4
−5
−6
0
−14 −12 −10 −8 −6 −4 −2 0 20 40 60 80 100 120 140
(c) (d)
autovettori
0.5
0.4
0.3
0.2
0.1
−0.1
−0.2
−0.3
−0.4
0 20 40 60 80 100 120 140
(e)
Figura 7.3: analisi intrabattito. (a) ecg simulati (b) spazio delle misure (c) componenti principali
(d) autovalori (e) i primi due autovettori.

7.6. ESEMPIO MATLAB
end
if (sqrt((m-c2(1))^2+(n-c2(2))^2))<r2
MASK(m,n) = 2;
end
if (sqrt((m-c3(1))^2+(n-c3(2))^2))<r2
MASK(m,n) = 3;
end
end
end
% ora simuliamo una acquisizione DCE-MRI

% per ciascun voxel simuliamo una curva DCE
% che corrisponde alla classe del voxel
Ktrans_non = 0.05;
ve_non = 0.01;
Ktrans_enh1 = 0.9;
ve_enh1 = 0.9;
Ktrans_enh2 = 0.7;
ve_enh2 = 0.9;
Ts = 0.3;%min
t = (0:Ts:10)’;%min
Ct_non = tofts([Ktrans_non ve_non],t);

Ct_enh1 = tofts([Ktrans_enh1 ve_enh1],t);
Ct_enh2 = tofts([Ktrans_enh2 ve_enh2],t);
% matrice ce contiene i dati spazio-temporali 3D

Im = zeros(length(t),N,N);
% reshape della MASK su un unica riga

% il reshape opera colonna per colonna
mask = reshape(MASK,1,N*N);
% sistema le curve siulate nella matrice 3D

im = reshape(Im,length(t),N*N);
im(:,find(mask==1)) = Ct_non * ones(1,length(find(mask==1)));

im(:,find(mask==2)) = Ct_enh1 * ones(1,length(find(mask==2)));
im(:,find(mask==3)) = Ct_enh2 * ones(1,length(find(mask==3)));
% aggiunge rumore
v = sum(Ct_non.^2)/10;
n = randn(size(im))*v;
imn = im + n;
Im = reshape(imn,length(t),N,N);
% visualizza le immagini 3D
L = floor(sqrt(length(t)));
IM = zeros(L*N,L*N);
k = 1;
for m = 1:L

for n = 1:L
IM(N*(m-1)+1:N*(m),N*(n-1)+1:N*(n)) = ...
[reshape(Im(k,:,:),N,N)];
k = k+1;
end
end
% applica le PCA
X = imn’;
[U,L,A] = svd(zscore(X),0);
Z = U*L;
imz = Z’;
IMZ = reshape(imz,length(t),N,N);
figure
imshow(IM,[])
title(’dati 3D’)
figure
subplot(3,2,1)
imshow(MASK,[])
title(’Classi simulate’)
subplot(3,2,2)
imshow(reshape(imz(1,:,:),N,N),[])
title(’PC 1’)
subplot(3,2,3)
title(’PC 2’)
subplot(3,2,4)
title(’PC 3’)
subplot(3,2,5)
hist(reshape(imz(1,:,:),1,N*N),100)
title(’Istogramma PC 1’)
subplot(3,2,6)
plot(imz(1,:),imz(2,:),’.’,’markersize’,1)
axis equal
%hist(reshape(imz(2,:,:),1,N*N),100)
title(’Spazio di PC1 PC2’)
figure
plot(t,[Ct_non Ct_enh1 Ct_enh2 A(:,1:2)])
ylabel(’mmol/L’)
legend(’non enhancement’,’enhancement’,’Autovett 1’,’Autovett 2’)

7.6. ESEMPIO MATLAB
Classi simulate PC 1
(a) (b)
PC 2 PC 3
(c) (d)
Spazio di PC1 PC2
Istogramma PC 1
1600 8
1400 6
1200 4
1000 2
800 0
−2
600
−4
400
−6
200
−8
0
−20 −15 −10 −5 0 5 −16 −14 −12 −10 −8 −6 −4 −2 0 2 4
(e) (f)
Figura 7.4: Applicazione della PCA alla DCE. (a) Classi simulate. (b) PC1 (c) PC2 (d) PC3 (e)
Istogramma di PC1 (f) Spazio di PC1 e PC2

dati 3D
Figura 7.5: Dati simulati

7.6. ESEMPIO MATLAB
1
non enhancement
enhancement 1
0.8 enhancement 2
Autovett 1
Autovett 2
0.6
0.4
mmol/L
0.2
−0.2
−0.4
0 2 4 6 8 10
time [min]
Figura 7.6: Autovettori.
loadings
0.4
0.2
−0.2
−0.4
−0.6
−0.8
−1
0 5 10 15 20 25 30 35 40 45
Figura 7.7: Autovettori.

Figura 7.8: Scatter plot.

Capitolo 8
Independent Component Analysis
8.1 Il problema del cocktail party

Per comprendere lo sviluppo della metodica ICA si usa il seguente problema denominato cocktail
party. Immaginiamo di essere in una stanza dove tre persone parlano simultaneamente. Imma-
giniamo di avere tre microfoni dislocati in posti diversi della stanza. I microfoni registreranno
tre segnali denominati x1 (t), x2 (t), x3 (t). Ciascuna delle tre registrazioni sarà una somma pesata
(con opportuni coefficienti che descrivono la distanza dai microfoni) dei segnali s1 (t), s2 (t), s3 (t) che
corrispondono ai vari oratori. Tutto ciò si può esprimere con un sistema di equazioni lineari:
x1 (t) = a11 s1 (t) + a12 s2 (t) + a13 s3 (t)

x2 (t) = a21 s1 (t) + a22 s2 (t) + a23 s3 (t)
x3 (t) = a31 s1 (t) + a32 s2 (t) + a33 s3 (t)
il problema consiste nel determinare le si (t) partendo dalle sole xi (t) senza conoscere le aij .
Nel contesto biomedico, si consideri l’EEG che consiste nella registrazione di potenziali elettrici
da varie posizioni sullo scalpo. I segnali EEG sono presumibilmente generati da una miscela di
attività cerebrale e muscolare. Quello che vogliamo è separare tra di loro i vari segnali senza avere
alcuna conoscenza del modo in cui sono miscelati. Applicazioni dell’ICA si trovano in molti contesti:
Event Related Potential (ERP), functional Magnetic Resonance Imaging (fMRI), DCE-MRI, ed
altre metodiche di imaging funzionale.
8.2 Concetti preliminari
8.2.1 Variabili congiuntamente gaussiane

La pdf di un vettore n-dimensionale congiuntamente gaussiano x è:

1 1 T −1
px (x) = exp − (x − m x ) C x (x − mx )
(2π)n/2 (detCx )1/2 2
La pdf gaussiana multivariata è definita completamente dalla media mx = E[x] e dalla matrice
di covarianza Cx = E[(x − mx )(x − mx )T ]. Questo vuol dire che i momenti di ordine superire non
portano alcuna nuova informazione.
135
Capitolo 8. Independent Component Analysis
Se x è un vettore gaussiano e y = Ax è una trasformazione lineare, anche y è gaussiano con

media my = Amx e matrice di covarianza Cy = ACx AT . Pertanto una qualunque combinazione
lineare di gaussiane e gaussiana. Per le ICA questo significa che è impossibile stimare il modello
ICA per variabili gaussiane.
Ricordiamo che l’incorrelazione equivale alla indipendenza per le variabili gaussiane. Se la ma-
trice di covarianza non è diagonale allora le componenti di x sono
Pncorrelate. Poichè Cx è simmetrica
e definita positiva può essere diagonalizzata Cx = EDET = i λi ei eTi dove E = [e1 , e2 , ..., en ] è
una matrice ortogonale costituita dagli autovettori della matrice di covarianza, mentre D è una ma-
trice diagonale costituita dagli autovalori. Applicando la rotazione u = ET (x − mx ) le componenti
diventano incorrelate e quindi indipendenti.
Pk
Ricordiamo il teorema del limite centrale. Poniamo xk = i=1 zi una somma di v.a. i.i.d..
xk −mk
Consideriamo le v.a. normalizzate yk = σk . Si può mostrare che la pdf di yk tende ad una
distribuzione gaussiana con media nullaPe varianza unitaria per k → ∞. Nel contesto dell’ICA si
m
osserva che una miscela dei dati xi = j=1 aij sj è praticamente gaussiana anche per un piccolo
numero di sorgenti ad.es. m = 4.
In generale se le v.a. n-dimesionali y e x sono legate da una trasformazione y = g(x) di cui
esista e sia unica la trasformazione inversa x = g−1 (y), si può mostrare che la pdf di y si può
ottenere da quella di x con la seguente formula:
1
py (y) = px (g−1 (y))
|detJg(g1 (y))|
dove Jg(x) è la matrice Jacobiana:
∂g1 (x) ∂g2 (x) ∂gn (x)

 
∂x1 ∂x1 ... ∂x1
∂g1 (x) ∂g2 (x) ∂gn (x)
...
 
 ∂x2 ∂x2 ∂x2 
Jg(x) =  .. .. .. ..

.
 
 . . . 
∂g1 (x) ∂g2 (x) ∂gn (x)
∂xn ∂xn ... ∂xn
1 −1
in particolare se la trasformazione e lineare y = Ax allora si ha py (y) = |detA| px (A y).
8.2.2 Non Gaussianitá e kurtosis
Consideriamo una v.a. x con pdf px (x). Il j-simo momento αj di x è definito da:
Z
αj = E[xj ] = ψ j px (ψ)dψ
mentre il j-simo momento centrale µj è dato da:
Z
µj = E[(x − α1 )j ] = (ψ − mx )j px (ψ)dψ
Si ha µ0 = 1, µ1 = 0, µ2 = σx2 ; α0 = 1, α1 = mx , α2 = E[x2 ].
Il terzo momento centrale si chiama skewnesse misura il grado di asimmetricità della pdf (è zero
pre pdf simmetriche rispetto al valor medio).
Il momento di quarto ordine α4 = E[x4 ] è applicato in alcuni algoritmi di ICA per la sua
semplicità. Il quarto momento centrale µ4 = E[(x − mx )4 ] non viene usato ed al suo posto si usa
la kurtosis che ha alcune proprioetà interessanti.

8.2. CONCETTI PRELIMINARI
Per comprendere la kurtosis bisogna partire dalla funzione caratteristica di x cioè la sua trasfor-
mata di Fourier espansa in serie di Taylor
∞ ∞
xk (jω)k (jω)k
Z Z X X
φ(ω) = E[exp(jωx)] = exp(jωx)px (x)dx = px (x)dx = E[xk ]
k! k!
k=0 k=0
La funzione caratteristica è nota come funzione generatrice dei momenti. Dalla funzione carat-
teristica si ottiene la funzione generatrice dei cumulanti:
∞
X (jω)k
Φ(ω) = ln(φ(ω)) = κk
k!
k=0
k
e quindi i cumulanti sono ottenuti come derivate κk = (−j)k d dω
Φ(ω)
k |ω=0
Da questa formula si ottiene il cumulante κ4 = E[x4 ] − 3(E[x2 ])2 che è la kurtosis.
La kurosis è additiva: se x e y sono due v.a. indipendenti allora kurt(x+y) = kurt(x)+kurt(y).
Non è però lineare infatti si ha kurt(βx) = β 4 kurt(x).
Il fatto più importante che riguarda la kurtosis è che è zero per variabili gaussiane. Le altre
variabili hanno kurtosis positiva (supregaussiane) o negativa (subgaussiane).
8.2.3 Entropia
L’entropia è il grado di informazione che ci da l’osservazione di una variabile aleatoria. Quanto più
la variabile è incerta e destrutturata, tanto maggiore è il grado di entropia. Ad esempio se tutti i
valori di una certa variabile avessero probabilità prossima a zero tranne uno che ha una probabilità
prossima ad 1, allora la variabile sarebbe poco incerta, pertanto la variabile avrà una entropia
piccola. Viceversa se tutti i valori hanno eguale probabilità di occorrenza allora la variabile è molto
incerta e perciò l’entropia dovrà essere alta.
Si può verificare che la seguente definizione di entropia di una variabile aleatoria discreta X
soddisfa alle precedenti considerazioni intuitive:
X
H(X) = − P (X = ai ) log P (X = ai )
i
dove ai sono i possibili valori di X.

Chiariamo con un esempio il significato di entropia. consideriamo una variabile aleatoria con
solo due valori a e b. Denotiamo p = P (X = a) e 1 − p = P (X = b). L’entropia sarà uguale a
H(X) = −p log p − (1 − p) log(1 − p). Si può vedere che è massima per p = 1/2.
L’entropia differenziale di una vettore aleatorio y ocn densità py (η) è definita da:
Z
H(y) = − py (η) log py (η)dη
Una variabile gaussiana ha la più alta entropia tra tutte le variabili aleatorie di pari varianza.
Pertanto al entropia può esser usata come misura di non gaussianità. La neg-entropia è definita
come J(y) = H(ygauss ) − H(y) dove ygauss è un vettore aleatorio di pari varianza. La negentropia
è sempre non negativa ed è zero solo per pdf gaussiane.

8.2.4 Sbiancamento
Un vettore aleatorio z = [z1 , . . . , zn ] a media nulla si dice bianco se gli elementi sono incorrelati e
hanno varianza unitaria:
E[zzT ] = I
Lo sbiancamento di un vettore x può essere ottenuto mediante una trasformazione lineare

z = Vx. Se Cx è la matrice di covarianza e E = [e1 , . . . , en ] è la matrice degli autovettori di
Cx di norma unitaria, e D = diag(λ1 , . . . , λn ) la matrice diagonale degli autovalori corrispondenti,
allora V = D−1/2 ET è una matrice sbiancante, infatti:
E[zzT ] = VE[xxT ]VT = D−1/2 ET EDET ED−1/2 = I
L’operatore V non è unico infatti ogni operatore della forma UV con U ortogonale è una matrice
di sbianacamento, infatti:
E[zzT ] = UVE[xxT ]VT UT = UIUT
In particolare la matrice ED−1/2 E è sbiancante.
8.3 ICA
Ricordiamo il modello alla base dell’ICA. Siano s1 , . . . , sn delle sorgenti non osservabili di cui si
osservano le combinazioni x1 , . . . , xn ottenute come segue:
    
x1 a11 ... a1n s1
 ..   .. .. ..   .. 
 . = . . .  . 
xn an1 ... ann sn
dove i coefficienti non sono noti. In forma matriciale si può scrivere:
x = As
L’obiettivo dell’ICA è di determinare A ed s partendo dalla conoscenza delle sole x.

Per poter risolvere questo problema è necessario fare le seguenti ipotesi:
a) Le sorgenti sono indipendenti tra loro.

b) Le sorgenti non sono gaussiane
c) La matrice dei coefficienti è quadrata ed invertibile.
la ragione di tali ipotesi verrà spiegata nel seguito.

Le sorgenti sono determinabili a meno di alcuni fattori:
• Non è possibile determinare l’ordine delle componenti. Questo è chiaro in quanto lo scambio
di ordine tra due componenti corrisponde ad uno scambio delle corrispondenti colonne della
matrice A.
• Non è possibile determinare la varianza delle sorgenti. Questo dipende dal fatto che la mol-
tiplicazione della k-sima sorgente per un fattore di scalatura αk può essere compensata dalla
moltiplicazione della corrispondente colonna di A per il reciproco di αk :
n
X 1
x= ak (sk αk )
αk
k=1
Per tale motivo si assume che le sorgenti abbiano varianza unitaria E[s2k ] = 1.

8.3. ICA
8.3.1 Centraggio dei dati

Si assume che i dati siano a media nulla. Se questo non è , allora è necessario sottrarre la media.
Pertanto se la mixture originale è x0 , bisognerà effettuare x = x0 − E[x0 ]. Questo equivale a porre
anche E[s] = A−1 x = 0.
8.3.2 Lo sbiancamento dei dati è solo una metà di ICA

Supponiamo di aver sbiancato i dati come descritto precedentemente.
Questo significa che la matrice di miscela è cambiata come segue:
z = Vx = VAs = Ãs
bisogna osservare che lo sbiancamento, cioè la incorrelazione non equivale alla indipendenza,
infatti ogni altra trasformazione ortogonale di z produrrà dati bianchi, le componenti indipendenti
sono date a meno di una rotazione.
In effetti lo sbiancamento è utile perchè rappresenta un primo passo verso le componenti indipen-
denti. Ed inoltre semplifica il procedimento di ricerca poichè le componenti indipendenti dovranno
essere cercate a meno di una rotazione.
Notiamo che Ã è ortogonale:
E[zzT ] = ÃE[ssT ]ÃT = ÃÃT = I
pertanto la ricerca della matrice Ã richiede solo n(n − 1)/2 parametri contro i n2 della matrice di
mixing originaria.
8.3.3 Perchè le variabili gaussiane sono vietate

Supponiamo di avere due variabili gaussiane indipendenti con distribuzione congiunta:
1 s2 + s22 1 ksk2
p(s1 , s2 ) = exp(− 1 )= exp(− )
2π 2 2π 2
Considerando il fatto che la matrice Ã è ortogonale, la trasformazione delle variabili, secondo

la formula generale vista in precedenza, fornisce:
1 kAT xk2 1 kxk2

p(x1 , x2 ) = exp(− )|detAT | = exp(− )
2π 2 2π 2
avendo tenuto conto del fatto che la rotazione ortogonale non muta il modulo del vettore e che il
determinante di una matrice ortogonale è 1.
Pertanto la pdf originale e quella ruotata sono esattamente indistinguibili.
8.3.4 L’indipendenza equivale alla non gaussianità

Ripartiamo dal modello x = As. Avendo assunto che la matrice di miscela è invertibile avre-
mo s = A−1 x. Pertanto possiamo stimare le sorgenti usando una combinazione lineare dei dati
osservati.
Consideriamo quindi una combinazione lineare y = bT x = bT As = qT s dove b e q sono
incogniti. Se b fosse una riga dell’inversa di A allora bT x sarebbe una delle sorgenti. In tal caso q
sarebbe un vettore tale che solo uno dei suoi elementi è uguale ad 1 mentre gli altri sono 0.

A questo punto ricordiamo il teorema del limite centrale, ed in particolare osserviamo che una
combinazione lineare di v.a. è ”più” gaussiana delle sue componenti. Questo vale anche per un
numero piccolo di componenti. In generale quindi, y = qT s diventa ”meno” gaussiana quando è
proprio uguale ad una delle componenti indipendenti.
Quindi è sufficiente far variare b facendo massimizzare la non gaussianità. In tal modo y = bT x
sarà una delle componenti indipendenti.
8.3.5 Implementazione dell’ICA

Come abbiamo visto per determinare le componenti indipendenti è necessario determinare una
misura di non gaussianità e quindi far variare il vettore b massimizzando la non gaussianità.
La procedura è quindi iterativa. In genere gli algoritmi iterativi di ottimizzazione si approcciano
con metodi del tipo ”gradient descent” oppure del tipo ”stochastic gradient descent”.
Negli algoritmi gradient descent abbiamo una funzione di costo da minimizzare J(w): si parte
da un certo punto w(0) e poi computando il gradiente di J(w) ci si muove nella direzione di massima
discesa. Pertanto la regola di update dei coefficienti è la seguente:
∂J(w)
w(t) = w(t − 1) − α(t) |w=w(t−1)
∂w
La convergenza può essere analizzata sviluppando al funzione di costo in serie di Taylor fino al
secondo ordine ottenendo quindi, dopo alcuni passaggi (H è l’Hessiano della funzione di costo):
w(t) − w0 ≈ [I − α(t)H(w0 )][w(t − 1) − w0 ]
In alternativa, la funzione di costo ha la forma J(w) = E[g(w, x)] dove x è il vettore aleatorio
delle osservazioni. Pertanto la regola di update diventa:
∂E(g(w, x))
w(t) = w(t − 1) − α(t) |w=w(t−1)
∂w
Tuttavia se le caratteristiche del segnale variano con il tempo, l’algoritmo deve esser in grado
di seguirle. Pertanto invece della media statistica si usa la seguente regola:
∂g(w, x)
w(t) = w(t − 1) − α(t) |w=w(t−1)
∂w
8.3.6 Misura della non gaussianità mediante kurtosis

Il gradiente della funzione costo è:
4sign(kurt(wT z))[E[z(wT z)3 ] − 3w|w|2 ]
e quindi l’algoritmo di update è:

∆w ≈ sign(kurt(wT z))z(wT z)3
noindent e w va normalizzata ad 1 dopo ogni passo (giace sulla sfera unitaria).
8.3.7 Misura della non gaussianità mediante negentropia

La funzione di costo si modifica :
1 1
J(y) =≈ E[y 3 ]2 + kurt(y)2
12 48

8.4. IMPLEMENTAZIONI DISPONIBILI
Classi simulate IC 1
IC 2 IC 3
Istogramma IC 1 Spazio di IC1 IC2

4000
0
2000 −1
−2
0
−6 −4 −2 0 2 −4 −2 0
Figura 8.1: Immagine simulata e IC.
8.4 Implementazioni disponibili

L’implementazione dell’algoritmo ICA non è una procedura banale. Una versione in Matlab è
disponibile presso il sito:
http://www.cis.hut.fi/projects/ica/fastica/
Il pacchetto è stato sviluppato presso il ”Laboratory of Computer and Information Scien-
ce (CIS)” del ”Department of Computer Science and Engineering” alla Helsinki University of
Technology.
8.5 Esempio Matlab

Applichiamo la ICA agli stessi dati DCE-MRI che abbiamo visto nel capitolo precedente per la
PCA. Usiamo il pacchetto Fast ICA.

loadings
0.3
0.25
0.2
0.15
0.1
0.05
−0.05
0 5 10 15 20 25 30 35 40 45
Figura 8.2: Curve di enhancement IC.

8.5. ESEMPIO MATLAB
Figura 8.3: Scatter plot.


Capitolo 9
Clustering o unsupervised learning
In questo capitolo si illustreranno due approcci comunemente usati per il clustering di dati.
9.1 L’algoritmo Expectation-Maximization

Consideriamo una serie di osservazioni multivariate xj = [xj1 , . . . , xjr ] con j = 1, . . . , N . Supponia-
mo che le osservazioni siano estratte da K classi con differenti distribuzioni di probabilitá e sia p(ωk )
la probabilitá della k-sima distribuzione. La probabilitá di estrarre un valore xj condizionatamente
al fatto che xj ∈ ωk é p(xj |ωk ). Pertanto la probabilitá di estrarre un generico xj sará data da:
M
X
p(xj ) = p(xj |ωk )p(ωk ).
k=1
In genere si puó assumere che la forma della distribuzione p(xj |ωk , θ k ) sia nota e che dipenda
da certi parametri θ k = [θk1 , . . . , θkp ] il cui valore é ignoto; in genere anche le p(ωk ) sono ignote.
Si presenta il problema di stimare le p(ωk ) e θ k partendo dall’insieme dei dati misurati nel caso
in cui non sia nota la classe di appartenenza delle xj .
Per poter risolvere questo problema si deve ricorrere al concetto di dato mancante. Supponiamo
che zj sia una ulteriore variabile che ci dica da quale classe é stata estratta la j-sima osservazione,
cioé zj = k ⇐⇒ xj ∈ ωk . Questo é l’insieme dei dati mancanti (ed ovviamente non ci é noto).
L’insieme dei dati (zj , xj ) si dice allora insieme completo dei dati, mentre (xj ) è l’insieme dei dati
incompleti.
Un approccio possibile é quello della stima a massima verosimiglianza (Maximum Likelihood,
ML). Diciamo X = {x1 , . . . , xN } l’insieme di tutti i dati osservati; diciamo Θ l’insieme di tutti i
parametri (comprese le probabilitá a priori delle singole classi); diciamo Z = {z1 , . . . , zN } l’insieme
di tutte le variabili mancanti. Sia L(Θ|X , Z) = p(X , Z|Θ) la verosimiglianza (Likelihood) dei dati
completi. La verosimiglianza dei dati osservati sará pertanto la verosimiglianza marginale dei dati
osservati: X
L(Θ|X ) = p(X |Θ) = p(X , Z|Θ)
Z
La stima ML é determinata dall’equazione:
∂L ∂ log L
= 0 ⇐⇒ =0
∂Θ ∂Θ
In pratica questa quantitá é difficile da calcolare nella maggior parte dei casi.
145
Capitolo 9. Clustering o unsupervised learning
L’approccio Expectation-Maximisation (EM) rappresenta una elegante soluzione a tale problema

e consente simultaneamente di classificare i dati e di stimare i valori dei parametri e delle probabilitá
delle classi.
Le idee di base dell’algoritmo si possono riassumere come segue. Se l’insieme completo ci fosse
noto si possono fare le seguenti osservazioni, che costituiscono l’essenza del processo EM:
• Se fossero noti tutti i parametri delle varie classi (cioé le θ k ) si potrebbe attribuire ciascuna
osservazione ad una classe e precisamente a quella che presenta la massima probabilitá per
quella osservazione, cioé
xj ∈ ωk ⇐⇒ zj = k ⇐⇒ k = arg max p(zj = i|xj , ωi , θ i )

i
Questo processo é detto segmentazione dei dati. Si vede che é basato sulla massimizzazione
della probabilitá dei dati mancanti.
• Se fosse nota la classe di appartenenza di tutte le osservazioni (cioé zj ) si potrebbe usare
questa informazione per ottenere una stima ottima dei parametri θ k delle corrispondente
classi (stima dei parametri a massima verosimiglianza o Maximum Likelihood ML).
Partendo da queste osservazioni si puó mettere a punto una procedura iterativa costituita da
due passi che si ripetono fino alla convergenza del’algoritmo.
La prima osservazione conduce al primo step nel’algoritmo EM che viene detto passo E (Ex-
pectation) in cui i dati vengono segmentati partendo da una stima dei parametri ottenuta nella
iterazione precedente.
Il secondo passo viene detto passo M (Maximisation) in cui, nota la segmentazione dei dati
ottenuta nel passo precedente, si puó effettuare una stima ML dei parametri.
L’algoritmo iterativo EM prende dunque la seguente forma:
(0)
1. si parte da una stima iniziale dei parametri θ k per k = 1, ..., K;
(n−1)
2. Passo E: alla n-sima iterazione, usando i parametri θ k si segmentano i dati ottenendo un
insieme zj per j = 1, ..., N , che completa i dati;
3. Passo M: si determina un nuovo insieme di parametri θ nk usando l’approccio ML.
I passi si succedono iterativamente finche non si raggiunge una opportuna condizione di conver-
(n−1)
genza. In genere come condizione di convergenza si puó imporre che le stime dei parametri θ k
(n)
e θ k differiscano di poco tra un passo ed il successivo.
Cerchiamo di capire perché questo algoritmo garantisce di raggiungere una stima a massima
verosimiglianza dei parametri Θ. Consideriamo la verosimiglianza dei dati incompleti:
X
log L(Θ|X ) = log p(X |Θ) = log p(X , Z|Θ)
Z
X p(Z|X , Θ(n) )
= log p(X , Z|Θ)
Z p(Z|X , Θ(n) )
X p(X , Z|Θ)
≥ p(Z|X , Θ(n) ) log
Z p(Z|X , Θ(n) )
X X
= p(Z|X , Θ(n) ) log p(X , Z|Θ) − p(Z|X , Θ(n) ) log p(Z|X , Θ(n) )
Z Z
(n) (n)
= Q(Θ, Θ ) − H(Θ )
dove la diseguaglianza é valida tenendo conto della diseguaglianza di Jensen, spiegata nel seguito.

9.2. GAUSSIAN MIXTURE
Nell’ultima equazione, il termine H(Θ(n) ) on dipenda da Θ, per cu inel processo di massimiz-

zazione della verosimiglianza possiamo massimizzare solo il primo termine Q(Θ, Θ(n) ). In effetti si
ha:
X p(X, Z|Θ(n) )
Q(Θ(n) , Θ(n) ) − H(Θ(n) ) = p(Z|X, Θ(n) ) log
Z p(Z|X, Θ(n) )
X
= p(Z|X , Θ(n) ) log p(X |Θ(n) ) = log p(X |Θ(n) )
Z
per cui effettivamente la massimizzazione del termine Q(Θ, Θ(n) ) comporta un aumento della
verosimiglianza log p(X |Θ(n) ).
Nel passo Expectation si calcola la verosimiglianza marginale dei dati osservati:
Q(Θ|Θ(n) ) = EZ [log L(Θ|X , Z)|X , Θ(n) ]
Quindi si trovano i parametri che massimizzano la quantitá:
Θ(n+1) = arg max Q(Θ|Θ(n) )

Θ
Dimostriamo la diseguaglianza di Jensen per la funzione log:

N
X N
X
log λi xi ≥ λi log xi
i=1 i=1
P P
P Infatti data una qualunque funzione f (x) convessa e i λi = 1 avremo che f ( i λ i xi ) ≤
i f (xi ).
Una funzione convessa é tale che f (λx1 + (1 − λx2 )) ≤ λf (x1 ) + (1 − λ)f (x2 ). Si vede che é
equivalente al fatto che f 00 (x) ≥ 0. Pertanto f (x) = − log x é convessa.
Si dimostra per induzione : per 2 é vera (vedi definizione di convessitá); se é vera per n allora
vediamo se é vera per n + 1:
n+1
X n
X
f( λi xi ) = f (λn+1 xn+1 + λi xi )
i=1 i=1
n
1 − λn+1 X
= f (λn+1 xn+1 + λ i xi )
1 − λn+1 i=1
n
1 X
≤ λn+1 f (xn+1 ) + (1 − λn+1 )f ( λ i xi )
1 − λn+1 i=1
n
X λi
≤ λn+1 f (xn+1 ) + (1 − λn+1 ) f (xi )
i=1
1 − λn+1
n
X n+1
X
= λn+1 f (xn+1 ) + λi f (xi ) = λi f (xi )
i=1 i=1
9.2 Gaussian Mixture

Specializziamo le precedenti osservazioni per la stima di una mistura di gaussiane. Le misture di
gaussiane (Gaussian Mixtures, GM) sono un modello statistico che può aiutare nella modellazione
di vari processi, ad esempio nel caso di segmentazione di immagini medicali.
Supponiamo di avere un insieme di N osservazioni [x1 , ..., xN ]T = x ciascuna delle quali sia
estratta da una tra K variabili gaussiane con parametri θ k = [µk , σk ] per k = 1, ..., K. Chiamiamo

PK
πk la probabilità che un campione sia estratto dalla k-sima gaussiana (chiaramente k=1 πk = 1).
Sia inoltre Θ = [θ 1 , . . . , θ K , π1 , . . . , πK ] In definitiva la pdf della variabile aleatoria complessiva
(mistura) sarà data da:
K
X
p(x|Θ) = πk p(x|θ k )
k=1
La log-verosimiglianza dei dati incompleti é data da:

N
Y N
X K
X
log L(Θ|X ) = log p(xi |Θ) = log πk p(xi |θ k )
i=1 i=1 k=1
che in genere é di difficile trattabilitá.

Consideriamo ora i dati mancanti e precisamente Z = {zi }Ni=1 in modo tale che zi ∈ 1, . . . , M
e precisamente zi = k se il campione i-simo é stato estratto dalla k-sima distribuzione. La log-
likelihood diventa:
log L(Θ|X , Z) = log p(X , Z|Θ) (9.1)
N
X
= log p(xi |zi , Θ)p(zi |Θ)
i=1
N
X
= log πzi p(xi |zi , Θ)
i=1
(9.2)
Chiaramente i valori di zi non sono noti. Possiamo peró stimare la distribuzione delle zi .
Chiamiamo Θ(n) la stima dei parametri alla n-sima iterazione dell’algoritmo. Si ha, usando la
regola di Bayes:
(n)
p(xi |zi , Θ(n) )p(zi |Θ(n) ) πzi p(xi |zi , Θ(n) )
p(zi |xi , Θ(n) ) = =
p(xi |Θ(n) ) p(xi |Θ(n) )
(n)
πzi p(xi |zi , Θ(n) )
= PM (n) (n)
k=1 πk p(xi |k, Θ )
ed inoltre:
N
Y
p(Z|X , Θ(n) ) = p(zi |xi , Θ(n) )
i=1
come visto la verosimiglianza media sará data da:

X
Q(Θ|Θ(n) ) = p(Z|X , Θ(n) ) log L(Θ|X , Z)
Z
nel caso di variabili gaussiane con medie µ1 , . . . , µK e varianza σ12 , . . . , σK

2
le espressioni si sempli-
ficano come segue:
(xi − µzi )2

1
p(xi |zi , Θ(n) ) = p exp −
2πzi σz2i 2σz2i
e la eq. 9.2 si riscrive:
N
(xi − µzi )2

X 1
log L(Θ|X , Z) = log πzi p exp −
i=1
2πzi σz2i 2σz2i
N
X q (xi − µzi )2
= log πzi − log 2πzi σz2i −
i=1
2σz2i

9.2. GAUSSIAN MIXTURE
Si puó quindi vedere che:

K X
N
(xi − µzi )2
X q
(n) (n) 2
Q(Θ, Θ )= p(zi = k|xi , Θ ) log πzi − log 2πzi σzi −
2σz2i
k=1 i=1
PKOra derivando rispetto a πk ed introducendo il moltiplicatore di lagrange sulla condizione

k=1 πk = 1 otteniamo :
"K N #
2

∂ XX (n)
q (x i − µ z ) X
p(zi = k|xi , Θ ) log πzi − log 2πzi σz2i − i
+ λ( πm − 1) = 0
∂πk i=1
2σz2i m
k=1
e cioé:
N
X 1
p(zi = k|xi , Θ(n) ) + λ = 0
i=1
π k
da cui si ricava
K X
X N K
X
p(zi = k|xi , Θ(n) ) = − πk λ
k=1 i=1 k=1
che fornisce λ = −N e quindi:
(n+1) 1
πk = p(zi = k|xi , Θ(n) )
N
Analogamente per la media si ottiene;
PN
(n+1) xi p(zi = k|xi , Θ(n) )
µk = Pi=1
N
i=1 p(zi = k|xi , Θ(n) )
e perla varianza si ha:

PN
(n+1) i=1 p(zi = k|xi , Θ(n) )(xi − µk )2
σk = PN (n)
i=1 p(zi = k|xi , Θ )

In questo esempio trattiamo la mistura di gaussiane con il metodo EM.
function [PK,k] = ms_GM_EM(Y,M,P0,delta,maxiter)

% [PK,k] = ms_GM_EM(Y,M,P0,delta,maxiter)
%
% Gaussian Mixture via Expectation Maximisation
%
% Y: vettore di osservazioni di dimensione [N x 1]
% M: numero gaussiane
% P0: valore iniziale dei parametri (opzionale) [M x 3]=[peso media std]
% P : stima finale dei parametri [M x 3]
% delta: differenza tra due verosimiglianze i iterazioni sucessive (opzionali)
% maxiter: numero massimo di iterazioni se non viene ragginta la
% convergneza in base a delta (opzionali)
% k: numero di iterazioni
%
% I valori Y=[y(1), y(2), ..., y(N)] sono estratti da una pdf di
% tipo Gaussian Mixture, cioè in cui il valore y(j) è estratto da una
% gaussiana scelta tra M possibili , ma si ignora quale.
% inoltre non sono noti i parametri delle varie gaussiane, e nemmeno la

% probabilità di scegliere una determinata gaussiana.

% Per risolvere il problema si costruisce il cosidetto problema a dati
% completi in cui le y sono i dati osservati, e si introducono una
% variabile aleatoria indicatrice Z per cui z(j) = i significa che la
% j-sima oservazione è estratta dalla i-sima gaussiana.
% In questo modo X = (Z, Y) cotituisce l’insieme dei dati completo.
% A questo punto si può impostare la soluzione iterativa del problema
% mediante algoritmo EM:
% E-step: si stima la distribuzione a posteriori delle Z dati i dati
% osservati ed i parametri theta(k) stimati nella iterazione k;
% si calcola inoltre la media in distribuzione Z, condizionata ai dati
% osservati ed ai parametri theta(k), del logaritmo della verosimiglianza
% dell’insieme dei dati completi: questa verosimiglianza dipende da theta
% M-step: si massimizza la media calcolta al passo precedente rispetto a
% theta, ottenendo una nuovo insieme di parametri che costituiscono la
% stima theta(k+1) che verrà usata al passo succesisvo
% la’lgoritmo si ripete fino a convergenza cioè fino a quando la
% verosimiglianza corente differeisce di poco rispetto a quella precedente
%
% nella prima colonna di P0 i sono i pesi delle variabili non osservabili,
% nella seconda le medie delle gaussiqne, nella terza le sigma delle
% gaussiane
%
% by Mario Sansone, 20 giugno 2008
if (nargin < 2)
error(’Bisogna indicare almeno i dati e il numero di gaussiane’);
end
if (nargin < 5)
maxiter = 1000;
end
if (nargin < 4)
delta = 0.001;
end
if (nargin < 3)
% determina una stima iniziale dei parametri P0
P0 = [ones(M,1)*1/M, ...
((min(Y)+range(Y)/(M+1)):range(Y)/(M+1):(max(Y)-range(Y)/(M+1)))’ ...
ones(M,1)*std(Y)/M ];
end
N = length(Y);
% inizializzazione
PK = P0; %PK contiene la stima corrente dei parametri
fine = false;
k = 0;
while ( ~fine )
%E-step
% stima della distribuzione delle variabili non osservate indicatrici
% PZcond è NxM
% ogni riga contiene la distribuzione di probabilità della
% corrispondente osservazione

9.3. L’ALGORITMO K-MEANS
PZcond = normpdf(Y*ones(1,M),ones(N,1) * PK(:,2)’, ones(N,1) * ...

PK(:,3)’ ) .* (ones(N,1) * PK(:,1)’);
PZcond = PZcond ./ ( sum(PZcond’)’ * ones(1,M));
% M-step
% stima dei parametri che
% massimizzano la verosimiglianza
mu = sum(PZcond .* (Y*ones(1,M))) ./ sum(PZcond); % vettore riga
sigma = sqrt( sum (PZcond .* ...
(Y*ones(1,M) - ones(N,1) * mu).^2 ) ./ sum(PZcond) );% vettore riga
newPz = sum(PZcond) / N;% vettore riga
% memorizza per uso sucessivo

PK_OLD = PK;
% prepara i parametri per step successivo

PK = [newPz’, mu’ sigma’];
% verifica convergenza
norma = sum(sum((PK - PK_OLD).^2));
k = k + 1;
if ( norma < delta || k > maxiter)

fine = true;
end
end
% produce un plot dei dati e delle gaussiane

[NX,X] = hist(Y,100);
plot(X,NX/length(Y)/(X(2)-X(1)),’.’)
c = [’r’ ’g’ ’b’ ’y’ ’c’];
hold on
for m = 1:M
plot(X,PK(m,1)*normpdf(X’,PK(m,2),PK(m,3)),c(m))
h = line([PK(m,2) PK(m,2)],[0 max(NX(:)/length(Y)/(X(2)-X(1)))]);
end
hold off
9.3 L’algoritmo k-means

Nel seguito si presenta un algoritmo il cui obiettivo é classificare gli individui senza alcuna co-
noscenza a priori (approccio non parametrico). Questo algoritmo non prevede un training set
(unsupervised learning). Il numero di classi deve esser noto, altrimenti si puó usare il numero di
classi che produce il migliore livello di confidenza eni risultati.
Il metodo é iterativo. Partiamo da un insieme di pattern che deve essere suddiviso in cluster. Nel
primo passo si scelgono a caso k pattern che vengono fissati come esemplari di partenza. Ciascuno

dei pattern rimanenti viene assegnato ad un cluster sulla base della minima distanza. Quindi per
ogni cluster si calcola il nuovo esemplare effettuando la media dei pattern di quel cluster. A questo
punto tutti i pattern vengono ri-classificati: se nessun pattern cambia classe appartenenza allora
l’lgoritmo termina, altrimenti si calcolano i nuovi esemplari e si va avanti.

Parte III
Introduzione alle tecniche per il

trattamento della non
stazionarietá per segnali fisiologici
153
Capitolo 10
Analisi della non stazionarietá dei

segnali biomedici
In generale, nella letteratura scientifica concernente il trattamento di segnali aleatori sono state
sviluppate molte metodologie per il trattamento di segnali stazionari, cioé segnali le cui proprietá
statistiche sono invarianti per traslazione temporale. Non é, tuttavia, parimenti sviluppata una
metodologia per il trattamento della non-stazionarietá. Ció é dovuto al fatto che non é possi-
bile specificare la ‘natura’della non stazionarietá, ma é possibile solo individuare la mancanza di
stazionarietá.
Le proprietá di un processo casuale non-stazionario sono, in genere, funzioni tempo-varianti, che
possono essere determinate solo effettuando medie istantanee sull’insieme delle funzioni membro
che costituiscono il processo. Questo fatto ha impedito lo sviluppo di tecniche per il trattamento
di processi non-stazionari.
I segnali biomedici (ad es. EMG, ECG, HRV, EEG) sono non-stazionari in quanto riflettono
lo stato del sistema biologico, pertanto le loro caratteristiche non restano invariate per lunghi
intervalli di tempo. Tenendo conto delle premesse precedenti, una prima strategia per poter trattare
adeguatamente i segnali biologici e per poter sfruttare l’arsenale di metodologie avanzate esistenti
per l’analisi dei segnali stazionari, implica lo sviluppo delle metodiche per ‘segmentare’cioé dividere
il segnale biomedico in tratti in cui possa essere considerato stazionario.
10.1 Generalitá sui segnali non stazionari

Si possono individuare alcune classi di segnali non stazionari che presentano una caratterizzazione
ben definita:
• a valor medio tempo-variante: x(t) = a(t) + u(t)

• a valor quadratico medio tempo-variante: x(t) = a(t)u(t)
dove a(t) é deterministico mentre u(t) é un segnale stazionario a media nulla e nel secondo caso a
varianza unitaria.
I segnali a valor medio tempo-variante sono separabili nel senso che se la variazione di a(t) é
molto lenta rispetto alla frequenza piú bassa contenuta in u(t) allora é possibile stimare la media
mediante:
• filtraggio passa basso (separazione in frequenza);

• fitting polinomiale (interpolazione, corrisponde grossolanamente ad un filtraggio passa basso);
155
Capitolo 10. Analisi della non stazionarietá dei segnali biomedici
• stima dei valori medi su brevi segmenti (interpolazione lineare a tratti ).
Ricordiamo che per filtraggio si intende la stima del valore vero del campione n-simo di un
segnale x(n) sulla base dei valori passati del segnale x(n − 1), . . . , x(n − M ); per interpolazione
si intende la stima del valore n-simo del segnale sulla base dei campioni passati e di quelli futuri
x(n + 1), . . . , x(n + K).
In tal caso la stima sará polarizzata a causa di:
• frequenza di cut-off del filtro;
• grado del polinomio di fitting
• lunghezza del segmento
Ad esempio consideriamo un segnale x(t) = a(t) + u(t) e proviamo a fare delle stime delle medie
su brevi segmenti T :
Z t+T /2 Z t+T /2
1 1
µ̂x (t) = x(t)dt = a(t) + u(t)dt
T t−T /2 T t−T /2
si ha:
Z t+T /2 Z t+T /2 Z t+T /2

1 1 1
E[µ̂x (t)] = E[ x(t)dt] = a(t) + E[u(t)]dt = a(t)dt 6= a(t)
T t−T /2 T t−T /2 T t−T /2
e quindi la stima è polarizzata.

Un valore approssimato al primo ordine per il bias è (sviluppando in serie di Taylor nel punto t
e mantenendo i termini fino al secondo ordine):
t+T /2 t+T /2
(τ − t)2
Z Z
1 1
E[µ̂x (t)] = a(t)dt = a(t) + ȧ(t)(τ − t) + ä(t) dτ
T t−T /2 T t−T /2 2
2
T
= a(t) + ä(t)
24
Quindi l’errore di bias si riduce al diminuire di T e della derivata seconda di a(t): tuttavia
bisogna tenere conto che al diminuire di T l’errore nella stima di E[u(t)] aumenta. In definitiva la
scelta di T é basata su un compromesso.
Anche per segnali a valor quadratico medio tempo-variante la separabilitá é possibile se le
variazioni di a(t) sono molto lente rispetto alla piú bassa frequenza di u(t), il valore quadratico
medio si puó stimare dal segnale x2 (t) operando con gli stessi metodi esposti in precedenza; la
stima sará polarizzata per le medesime motivazioni.
Ad esempio si ha:
var[x(t)] = var[a(t)u(t)] = a2 (t)var[u(t)] = a2 (t)
e quindi si ha :
Z t+T /2 Z t+T /2
E[ a2 (τ )u2 (τ )dτ ] = a2 (τ )dτ 6= a2 (t)
t−T /2 t−T /2

10.2. METODI PER TESTARE LA NON STAZIONARIETÁ
10.2 Metodi per testare la non stazionarietá

Dire che un segnale é stazionario significa dire che le proprietá (media e autocorrelazione) calcolate
su piccoli intervalli di tempo variano non significativamente da un intervallo all’altro. Per ‘non
significativitamente’si intende che le variazioni osservate sul segnale non sono maggiori di quanto ci
si attenderebbe in base alla semplice variabilitá statistica.
Per verificare la stazionarietá di un segnale si puó procedere in modi differenti. Un primo metodo
é quello di considerare la fisica del fenomeno: se i fattori che generano il fenomeno sono tempo-
varianti allora il segnale é non-stazionario. Un altro metodo é quello di accertare la non stazionarietá
da una singola realizzazione del processo, questo implica la validitá delle seguenti ipotesi:
• una qualunque funzione membro riflette le proprietá di non stazionarietá del processo;
• una qualsiasi funzione membro é molto piú lunga della componente a frequenza piú bassa,
cioé deve essere abbastanza lunga da permettere di discriminare i trend non stazionari da
fluttuazioni statistiche
Si puó assumere che le non-stazionarietá di interesse sono rivelate dai trend temporali del valore
quadratico medio dei dati.
Partendo da queste considerazioni si puó derivare un metodo generale per testare la stazionarietá:
1. dividere il segnale in N intervalli di uguale durata;
2. calcolare il valore quadratico medio per ciascun intervallo;
3. esaminare la sequenza ottenuta per verificare la presenza di variazioni che non siano dovute
al campionamento statistico. Se la distribuzione statistica è nota si possono applicare test
statistici
10.2.1 Runs test
Si tratta di un test sulla indipendenza dei dati che può essere usato per individuare non-stazionarietà
[5], [21].
Per capirne l’essenza facciamo le seguenti considerazioni. Consideriamo un processo aleatorio
x(k) i cui campioni siano estratti da una medesima pdf e siano indipendenti tra loro. A partire dal
processo formiamo una sequenza di simboli + o di − a seconda che il campione k-simo sia maggiore
o minore del valore mediano 1 della pdf. In questo modo i simboli hanno uguale probabilità di
occorrenza.
Si chiama run una sequenza di + o di −. Ad esempio nella sequenza seguente vi sono 3 runs:
+, +, +, −, −, −, −, −, +, +
| {z } | {z } | {z}
1 2 3
Sia n la lunghezza della sequenza e siano n+ ed n− il numero di + e di − rispettivamente.

Chiamiamo r+ ed r− il numero di runs positivi e negativi. Vogliamo determinare la distribuzione
di r+ ed r− quando siano fissati n, n+ ed n− .
Per fare ciò cominciamo con il calcolare in quanti modi possibili posso disporre gli n+ simboli
+ ed i n− simboli −. Per fissare la posizione del primo simbolo + nella sequenza ho a disposizione
n posti; per fissare il secondo ho n − 1 posti etc. Bisogna inoltre tenere conto che, fissata una
1 Ricordiamo che il valore mediano divide la pdf in due parti di uguale area

disposizione degli n+ simboli vi sono n+ ! permutazioni di questa disposizione tutte equivalenti tra
loro. Pertanto per posizionare n+ simboli + ho:

n(n − 1)...(n − n+ + 1) n! n! n
= = =
n+ ! n+ !(n − n+ )! n+ !(n− )! n+
disposizioni.
Ora calcoliamo il numero di modi in cui posso avere r+ runs fissati n+ e n− . Posso considerare
i runs di − come dei separatori dei runs di +. Posso rappresentare ad esempio:
+| + + + | + +| + | + ++ (10.1)
Pertanto per ottenere tutti i runs possibili posso pensare di trovare tutte le disposizioni delle
barre di separazione tra i runs positivi. Poichè vi sono n+ − 1 possibili separazioni e poichè devo
piazzare solo r+ −1 barre separatrici, allora il numero di runs positivi possibili sarà dato dal numero
di modi in cui posso disporre le r+ − 1 barre sulle n+ − 1 posizioni. Con ragionamento analogo ai
precedenti si vede che tale numero è :

n+ − 1 (n+ − 1)...(n+ − 1 − (r+ − 1) + 1) (n+ − 1)!
= =
r+ − 1 r+ − 1! (r+ − 1)!(n+ − r+ )!
Per ciascuna disposizione dei runs positivi bisogna fare un ragionamento analogo per i runs
negativi e pertanto il numero totale di disposizioni dei runs sara dato dal prodotto:
(n+ − 1)! (n− − 1)!

·
(r+ − 1)!(n+ − r+ )! (r− − 1)!(n− − r− )!
Infine osserviamo che il numero r+ può essere o uguale al numero di r− oppure differire di una
unità. Nel primo caso la sequenza deve iniziare con un simbolo e finire con un simbolo differente;
nel secondo caso deve iniziare e finire con lo stesso simbolo. Per tenere conto di ciò, nel caso che
r+ = r− il numero totale deve essere moltiplicato per 2.
La probabilità di ottenere un certo numero di runs r+ ed r− sarà data dal rapporto tra il numero
di sequenze con r+ e r− fissati ed il numero totale di sequenze :
(n+ −1)! (n− −1)!

(r+ −1)!(n+ −r+ )! (r− −1)!(n− −r− )!
P (r+ , r− |n+ , n− ) = C · n!
n+ !(n−n+ )!
dove la presenza del fattore C dipende dalle considerazioni precedenti ed é 1 per r+ 6= r− mentre é
2 per r+ = r− . Da questa espressione si può ricavare la distribuzione del numero totale u di runs
tenendo conto che u = 2r+ se r+ = r− mentre u = 2r− − 1 se r+ = r− − 1 oppure u = 2r+ − 1 se
r− = r+ − 1.
La media e la varianza di tale distribuzione sono:
2n+ n−
µu = +1
n
2n+ n− (2n+ n− − n)
σu2 =
n2 (n − 1)
Intuitivamente si capisce che se nella sequenza vi sono pochi runs oppure troppi runs, allora la
sequenza si discosta dall’ipotesi di campioni indipendenti estratti dalla stessa popolazione. Questa
considerazione è alla base del test.

Figura 10.1: Applicazione del runs-test a vari tipi di serie temporali.
Per esempio (vedi fig. 10.1) se x(k) è un processo bianco il numero di runs osservati sarà molto
vicino al numero medio µu . D’altro canto se i dati sono relativi ad un trend (ad esempio crescente),
allora il numero di runs sarà molto più basso della media e l’ipotesi che x(k) è indipendente dai
valori precedenti dovrà essere rigettata.
In effetti il runs-test è un test sulla indipendenza e non sulla stazionarietà come si può osservare
dai seguenti due esempi (vedi fig.10.1). Come primo esempio consideriamo una serie temporale che
contiene solo una oscillazione ad alta frequenza (ad es. l’oscillazione del respiro sul tacogramma) in
questo caso il numero di runs sarà più alto del valore atteso. Come secondo esempio consideriamo il
ritmo chiamato 10-secondi sul tacogramma, si tratta di una oscillazione in bassa frequenza, pertanto
in tal caso il numero di runs sarà molto più basso del valore atteso. In entrambi i casi tuttavia le
condizioni del sistema cardiovascolare sono stazionarie.
Esempio
Consideriamo il caso di n+ = 3 e n− = 2 quindi n = 5 e tutte le possibili sequenze sono date dalla

tabella (10.2.1) costituita da 10 righe in quanto:
n! 5! 5·4·3·2·1 5·4
= = = = 10.
n+ !n− ! 3!2! 3·2·1·2·1 2
Ora consideriamo in quanti modi possiamo avere r+ = 2 e r− = 1: dalla tabella si vede che le
righe corrispondenti sono 3, 6. Infatti:

n+ − 1 n− − 1 2! 1!
C· · = = 2.
r+ − 1 r− − 1 1! 0!
Ora consideriamo il caso r+ = 1 e r− = 1: dalla tabella si vede che le righe corrispondenti sono
la 1 e la 8. In questo caso:

n+ − 1 n− − 1 1! 1!
C· · =2· = 2.
r+ − 1 r− − 1 0! 0!

Tabella 10.1: Runs-test: le possibili combinazioni nel caso n = 5 e n+ = 3.

1 + + + - -
2 + + - + -
3 + + - - +
4 + - + + -
5 + - + - +
6 + - - + +
7 - + - + +
8 - - + + +
9 - + + - +
10 - + + + -
Per il caso r+ = 2 e r− = 2 le righe sono 2,4,7,9. Infatti:

n+ − 1 n− − 1 2! 1!
C· · =2· = 4.
r+ − 1 r− − 1 1! 1!
10.2.2 Reverse arrangement test
Questo test é particolarmente potente nell’individuare trend monotonici in una sequenza di osser-
vazioni [5] [22].
Procediamo come segue:
1. dividiamo la sequenza in N intervalli di eguale durata tali che i dati in ciascun intervallo
possano essere considerati indipendenti.
1
R tk+1
2. calcoliamo il valore quadratico medio x2k = T tk
x2 (τ )dτ nell’intervallo k-simo e allineiamo
questi valori in sequenza x21 , x22 , ..., x2N
Supponiamo che la sequenza rappresenti misure di una v.a. stazionaria. Se questa ipotesi é vera
i valori della sequenza saranno random e non mostreranno nessun trend.
Per testare questa ipotesi usiamo il reverse arrangement test.
Contiamo il numero di volte che x2i > x2j per i < j. Ciascuna di queste diseguaglianze é detta un
reverse arrangement. Denotiamo il numero totale di reverse arrangement con A. Piú in dettaglio
si puó definire una matrice:

1 xi > xj
Hij =
0 otherwise
con questa notazione si ha:
N
X
ai = Hij
j=i+1
N
X −1
A= ai
i=1
Il numero di reverse arrangement é una variabile aleatoria con media e varianza date da:

Tabella 10.2: Reverse arrangement: una sequenza di esempio

x21 x22 x23 x24 x25 x26 x27 x28 x29 x210
18 12 0 23 13 25 21 3 -3 9
N (N − 1)
µA =
4
2 N (2N + 5)(N − 1)
σA =
72
Esempio
Consideriamo la sequenza di tabella 10.2. La matrice H corrispondente é mostrata nell’equazione

(10.2). Inoltre il vettore a é mostrato in eq. (10.3). In questo caso A = 45.
 
0 1 1 0 1 0 0 1 1 1

 0 0 1 0 0 0 0 1 1 1 


 0 0 0 0 0 0 0 0 1 0 


 1 1 1 0 1 0 1 1 1 1 

 0 1 1 0 0 0 0 1 1 1 
H = Hij =   (10.2)

 1 1 1 1 1 0 1 1 1 1 


 1 1 1 0 1 0 0 1 1 1 


 0 0 1 0 0 0 0 0 1 0 

 0 0 0 0 0 0 0 0 0 0 
0 0 1 0 0 0 0 1 1 0
 
6

 4 


 1 


 8 

 5 
a = ai =   (10.3)

 9 


 7 


 2 

 0 
3


Capitolo 11
Analisi tempo-frequenza
La trasformazione di Fourier può essere interpretata come la decomposizione, nello spazio vettoriale
dei segnali, lungo una base di esponenziali complessi. Ad esempio:
Z ∞
x̂(ω) = F[x(t)]ω = x(τ )e−jωτ dτ =< x(t), exp(jωt) >
−∞
in effetti x̂(ω) sono i coefficienti dello sviluppo di x(t) in termini di esponenziali complessi:
Z ∞
1
x(t) = x̂(t)ejωt dω
2π −∞
Il grosso problema di questo approccio é che l’informazione temporale viene persa: il segnale
x(t) é correlato con una sinusoide che si estende ∀t ∈ R: l’informazione temporale é inclusa nella
fase della trasformata, ma non è facilmente interpretabile. Non è possibile, pertanto, conoscere la
posizione temporale di un certo evento.
11.1 Short Time Fourier Transform (STFT)

La STFT, detta anche spettrogramma, è un primo tentativo di superare la problematica descritta.
Consiste nel segmentare il segnale x(t) con un opportuna finestra w(t), e quindi effettuare la FT dei
vari segmenti. L’equazione base, per uno specifico segnale e per una specifica finestra, è la seguente:
Z
ST F Tx,w (f, t) = w(τ − t)x(τ )e−j2πf τ dτ
Le problematiche della STFt sono essenzialmente:
• selezionare una finestra ottima per un segnale contenente diverse caratteristiche può essere
difficile se non impossibile;
• trad-off tra tempo e frequenza: accorciando la durata delle finestra si ha una migliore risolu-
zione temporale ma una peggiore risoluzione in frequenza.
In particolare se la finestra è troppo corta, si perdono informazioni sulle basse frequenze che
non son più incluse nel segmento di segnale. Ciò è il contenuto del cosiddetto principio di inde-
terminazione di Heisenberg per cui il prodotto della risoluzione in frequenza (espressa in banda)
per il tempo deve essere più grande di una quantità fissata. In termini più rigorosi interpretiamo
|w(t)|2 come una distribuzione di probabilità calcoliamo il valor medio, analogo ragionamento lo
applichiamo alla FT |W (f )|2 :
163
Capitolo 11. Analisi tempo-frequenza
Z
1
t̄ = t|w(t)|2 dt
Ew
Z
¯ 1
f= f |W (f )|2 df
EW
dove Ew = EW = |w(t)|2 dt = |W (f )|2 df per il teorema di Parseval. Una misura di durata nel
R R
tempo ed ampiezza di banda in frequenza è data da:
Z
1
∆t2 = (t − t̄)2 |w(t)|2 dt = 0
Ew
Z
1
∆f 2 = (f − f¯)2 |W (f )|2 df = 0
EW
si può dimostrare che vale la relazione:

1
∆t∆f ≥
4π
Questo significa che non si può ottenere una risoluzione arbitraria in frequenza e contempora-
neamente nel tempo.
Introducendo la funzione ht,f (τ ) = w(τ − t)ej2πf τ la STFT può esser vista come la decomposi-
zione di x(t) usando le funzioni base ht,f (τ )
Alcune proprietà della STFT sono:
• Invarianza per traslazione nel tempo
• Invarianza per traslazione in frequenza
• Il segnale può essere ricostruito:

Z Z
x(t) = c ST F Tx,w (τ, f )g(t − τ )ej2πf t dτ df
h(t)g ∗ (t)dt = 1
R
dove g(t) è una funzione che soddisfa
11.2 Generalised Short Time Fourier Transform (GSTFT)

Un primo tentativo di superare le limitaizoni della STFT consiste nel far variare la finestra con al
frequenza. Z
G(t, f ) = x(τ )w∗ (τ − t, f )e−j2πf τ dτ
La formula di ricostruzione è data da:
ej2πf t
Z Z
x(t) = G(τ, f )
aw (f )
R
dove aw (f ) = w(t, f )dt.

11.3. WIGNER-VILLE
Se poniamo:
α(f ) t
w(t, f ) = p wm
s(f ) s(f )
dove s(t) è definita dall’utente, allora si dimostra che la risoluzione in frequenza è proprio pari a
s(f ) .
11.3 Wigner-Ville
11.4 Atomi di Gabor

Gli atomi di Gabor si costruiscono traslando nel tempo ed in frequenza una funzione finestra g:
gu,ξ (t) = g(t − u)ejξt
la cui trasformata di Fourier é collegata alla trasformata ĝ di g:
ĝu,ξ (ω) = ĝ(ω − ξ)eju(ω−ξ)
L’energia di gu,ξ é concentrata in un intorno di u di dimensione σt cioé la deviazione standard

di |g|2 . Analogamente l’energia di ĝu,ξ é concentrata in un intorno di ξ di dimensione σω cioé la
deviazione standard di |ĝ|2 .
Per il teorema di indeterminazione σt σω ≥ 1/2. Quest’ultima diventa una eguaglianza se g é
una gaussiana, nel qual caso le g si chiama funzioni di Gabor.

Capitolo 11. Analisi tempo-frequenza

Capitolo 12
Wavelet
12.1 Continuous Wavelet Transform

Da quanto detto nel paragrafo precedente si può concludere che con la STFT non è possibile
localizzare con la stessa precisione fenomeni che evolvono rapidamente (anomalies) e fenomeni che
invece evolvono lentamente (trend). Per ottenere un’analisi a risoluzione variabile occorre far in
modo che all’aumentare della frequenza f la banda ∆f aumenti in modo proporzionale. Ciò si può
ottenere costruendo un insieme di funzioni base mediante traslazione e cambiamento di scala di
un’unica funzione ψ(t) (vedi figura 12.1) [60, 61]:
1 t−b
ψa,b = √ ψ( )
a a
dove ψ(t) è detta wavelet madre, che deve soddisfare le seguenti proprietà (localizzazione nel tempo
ed in frequenza)
|ψ(t)| < c(1 + |t|)−1−

|ψ̂(ω)| < c(1 + |ω|)−1−
√
per > 0 (qui ψ̂(ω) è la trasformata di Fourier), ed inoltre il fattore 1/ a assicura che la norma
sia costante |ψ(t)|2 .
A partire dalla mother wavelet è possibile definire la trasformata wavelet continua (CWT,
Figura 12.1: Esempi di atomi tempo-frequenza per la Wavelet
167
Capitolo 12. Wavelet
Continuous Wavelet Transform) del segnale f(t):
t−b
Z
1
T f (a, b) =< f, ψa,b >= √ f (t)ψ ∗ ( )dt
a a
La trasformazione inversa esiste se la seguente condizione è verificata:
|ψ̂(ω)|2
Z
Cψ = dω < +∞
|ω|
questa quantità decade rapidamente a zero grazie alla proprietà di localizzazione in frequenza della
wavelet. Quindi l’unica condizione da imporre per garantire che la costante Cψ non diverga è
ψ̂(0) = 0, che equivale a riconoscere che il valor medio della mother wavelet deve essere nullo dato
che:
Z +∞
ψ̂(0) = ψ(t)dt
−∞
Il segnale, in tal caso, può essere ricostruito:

Z +∞ Z +∞
da
f (t) = Cψ−1 T f (a, b)ψa,b (t)
0 a2 −∞
Valutiamo anche in questo caso la capacità di localizzazione tempo-frequenza della trasformata,

determinando ∆t e ∆f , tenendo presente che la funzione wavelet ha un comportamento passabanda.
Per la mother wavelet risulta:
Z +∞
(∆t)2 = t2 |φ(t)|2 dt
−∞
Z+∞
(∆f )2 = (f − f0 )2 |ψ̂(f )|2 df
−∞
Considerando un generico atomo centrato in b = b0 e a = a0, otteniamo per la durata:

Z +∞
(∆t)2a0 b0 = (t − b0 )2 |φa0 b0 (t)|2 dt
−∞
Z +∞
1 2 t − b0
= (t − b0 )2 φ ( )dt
−∞ a0 a0
Z +∞
= a20 τ 2 φ2 (τ )dτ = a20 (∆t)2
−∞
t−b0
Nella precedente è stato fatto il cambio di variabili: τ = a0 . In conclusione:
(∆t)a0 b0 = a0 ∆t
Analogamente si può far vedere che:
∆f
(∆f )a0 b0 =
a0
Questo significa che le celle di risoluzione per la trasformata Wavelet sono variabili nel piano
tempo-frequenza cosı̀ come è mostrato in figura 12.2.

12.2. DISCRETE WAVELET TRANSFORM
Figura 12.2: Celle di risoluzione per la CWT.
12.2 Discrete Wavelet Transform

Siamo interessati alla versione discreta di tale trasformata. In questo caso, affinchè il piano tempo-
frequenza sia completamente coperto, la discretizzazione del parametro b deve essere legata a quella
del parametro a perchè funzioni compresse sull’asse temporale devono essere traslate con passo
piccolo per coprire l’intero range temporale, mentre funzioni espanse sull’asse dei tempi devono
essere traslate con passo grande. La discretizzazione quindi è la seguente:
a = a−m
0 se a0 > 1, m ∈ Z
b = n · b0 am
0 se b0 > 0, n ∈ Z.
Sostituendo nella formula delle funzioni wavelet continue i parametri cosı̀ definiti, si ottengono
le seguenti funzioni:
m/2
ψm,n (t) = a0 · ψ(am
0 (t) − n · b0 )
12.3 Analisi Multirisoluzione

In questo paragrafo descriviamo il legame tra la trasformata Wavelet e l’analisi multirisoluzione,
nel caso più semplice in cui le funzioni wavelet siano di tipo Haar (figura 12.3). Consideriamo una
funzione (detta di scaling) φ(t) = 1 per t ∈ (0, 1) e φ(t) = 0 per t ∈ / (0, 1). Consideriamo allora
un generico segnale f (t) e consideriamo una sua approssimazione grossolana, f 0 (t). Utilizzando la
seguente famiglia di funzioni costanti a tratti φ0,k (t) = φ(t − k). L’espansione in serie del segnale
f 0 (t) può essere scritta nella seguente forma:

Figura 12.3: Funzioni di base ψ0,k (t).
X
f 0 (t) = c0,k φ0,k (t)
k
con i coefficienti c0,k dati dalla relazione:

Z +∞ Z k+1
c0,k =< f (t), φ0,k (t) >= f (t)φ0,k (t)dt = f (t)dt
−∞ k
Se volessimo ottenere una rappresentazione del segnale√f(t) a risoluzione maggiore dovremmo

considerare delle funzioni di scaling più strette: φ1,k (t) = 2φ(2t − k) in questo modo otteniamo
una versione più accurata di f(t):
X
f 1 (t) = c1,k φ1,k (t)
k
dove i coefficienti c1,k questa volta sono dati da:

k+1
Z +∞ Z 2
c1,k =< f (t), φ1,k (t) >= f (t)φ1,k (t)dt = f (t)dt
k
−∞ 2
La rappresentazione f 1 (t), a risoluzione maggiore, contiene sicuramente la rappresentazione

0
f (t), a risoluzione più bassa, il che ci consente di relazionare i coefficienti c0,k e c1,k . A tal fine
ricaviamo i coefficienti c1,2k e c1,2k+1 :
√ Z k+ 21
c1,2k = 2 f (t)dt
k
√ Z k+1
c1,2k+1 = 2 f (t)dt
k+ 21
da cui si ottiene
Z k+1 Z k+ 21 Z k+1
c1,2k + c1,2k+1
c0,k = f (t)dt = f (t)dt + f (t)dt = √
k k k 12 2

12.3. ANALISI MULTIRISOLUZIONE
Più in generale, possiamo considerare la seguente famiglia di funzioni base per l’espansione del
segnale:
√
φj,k (t) = 2j φ(2j t − k)
con i coefficienti cj,k dati dalla relazione seguente:
Z k+1
j 2j
cj,k = 2 2 f (t)dt
k
2j
Le funzioni φj,k (t) sono dette funzioni di scaling, perchè, al variare di j = 0, . . . , n, forniscono
una rappresentazione del segnale f(t) a diverse risoluzioni: f0 (t), f1 (t), ..., fn (t), e generano i seguenti
spazi vettoriali:
V0 = span{φ0,k (t)}
V1 = span{φ1,k (t)}
..
.
Vn = span{φn,k (t)}
Il generico spazio Vj è quindi costituito da tutti quei segnali che possono essere espressi mediante
combinazione lineare, secondo opportuni coefficienti, delle funzioni φj,k (t). La sequenza di segnali
f0 (t), f1 (t), ..., fn (t) per come è stata costruita rappresenta una gerarchia di segnali a diversa riso-
luzione, che però risulta essere fortemente ridondante, essendoci una relazione di inclusione tra gli
spazi (figura 12.4):
V0 ⊂ V1 ⊂ . . . ⊂ Vn
In effetti è possibile ottenere una rappresentazione priva di ridondanza se facciamo il seguente

ragionamento. Supponiamo di avere un segnale f (t) appartenente allo spazio V1 , vale a dire:
f (t) ∈ V1 =⇒ f (t) ≡ f1 (t)

Risulta:
f (t) = f0 (t) + (f1 (t) − f0 (t))
Consideriamo allora la differenza D0 (t) = f1 (t) − f0 (t), e vediamo come può essere espressa
focalizzando l’attenzione all’intervallo [k, k + 1]:
√
f1 (t) − f0 (t) = √2c1,2k − c0,k per k < t < k + 1/2
2c1,2k+1 − c0,k per k + 1/2 < t < k + 1
sostituendo nella precedente il valore di c0,k
(
√1 c1,2k − c1,2k+1 per k < t < k + 1/2
f1 (t) − f0 (t) = 2
√1 c1,2k+1 − c1,2k per k + 1/2 < t < k + 1
2
che possiamo riscrivere nel seguente modo:

d0,k , k < t < k + 1/2
f1 (t) − f0 (t) =
−d0,k , k + 1/2 < t < k + 1

Figura 12.4: Rappresentazione mediante gli spazi vettoriali.

12.3. ANALISI MULTIRISOLUZIONE
Se definiamo:
1 per k < t < k + 1/2
ψ0,k (t) =
−1 per k + 1/2 < t < k + 1
possiamo ricavare la differenza come:
X
D0 (t) = f1 (t) − f0 (t) = d0,k ψ0,k (t)
k
dove le funzioni ψ0,k (t) sono costituite dalle traslazioni della mother wavelet di Haar. Scopriamo,
in questo modo, che l’insieme delle funzioni base che genera D0 (t) sono rappresentate proprio dalle
funzioni wavelet ortogonali di Haar. In conclusione la rappresentazione f1 (t) risulta essere data da:
X X
f1 (t) = f0 (t) + D0 (t) = c0,k φ0,k (t) + d0,k ψ0,k (t)
k k
cioè il segnale è espresso attraverso la rappresentazione a risoluzione inferiore cui vanno aggiunti i
dettagli determinati proprio mediante un’espansione su base wavelet. Iterando questo procedimento
si ottiene la generica rappresentazione di fj+1 (t):
fj+1 (t) = fj (t) + Dj (t)

= fj−1 (t) + Dj−1 (t) + Dj (t)
...
= f0 (t) + D0 (t) + D1 (t) + ... + Dj (t)
= f0 (t) + D0 (t) + D1 (t) + ... + Dj (t)
XX
= f0 (t) + dj,k ψj,k (t)
j k
Questa rappresentazione non è ridondante e mostra che l’insieme di funzioni ψj,k (t) rappresen-
tano una base dello spazio vettoriale Wj , cioè
Wj = span{φj,k (t)}
Infine, notiamo che la funzione di scaling, detta anche father function, ψ(t) = ψ0,0 (t) ∈ V0 ⊂ V1
quindi può essere espressa come combinazione lineare secondo opportuni coefficienti indicati con hn
delle funzioni base che generano V1 :
X √ X
ψ(t) = hn ψ1,n = 2 hn ψ(2t − n)
n n
dove
√ Z +∞
hn =< ψ(t), ψ1,n (t) >= 2 ψ(t)ψ(2t − n)dt
−∞
In modo analogo, per la mother function si ha:

X √ X
φ(t) = gn ψ1,n = 2 gn ψ(2t − n)
n n
dove
√ Z +∞
gn =< φ(t), ψ1,n (t) >= 2 φ(t)ψ(2t − n)dt
−∞

Le due equazioni per ψ(t) e φ(t) rappresentano la prima e la seconda equazione dell’analisi
multirisoluzione (MRA), rispettivamente.
12.4 Banco di Filtri
In questo paragrafo determineremo la struttura mediante banco di filtri che ci permette di calcolare
con un algoritmo veloce i coefficienti wavelet per un segnale discreto, ottenendo in questo modo
ciò che è nota in letteratura come DWT (Discrete Wavelet Transform). Consideriamo, ancora una
volta, un segnale f (t) ≡ f 1 (t) ∈ V1 , per cui risulta:
X X X
f (t) = c1,n ψ1,n (t) = c0,n ψ0,n (t) + d0,n φ0,n (t)
n n n
Vogliamo ricavare la relazione tra i coefficienti c1,n ed i coefficienti c0,n e d0,n . Si ha:
X
c0,n =< f (t), ψ0,n (t) >=< c1,n ψ1,n (t), ψ0,n (t) >
n
X
= c1,n < ψ1,n (t), ψ0,n (t) >
n
dove:
Z +∞ p
< ψ1,n (t), ψ0,n (t) >= (2)ψ(2t − k)ψ(t − n)dt
−∞
Effettuando il cambio di variabili t → t + n si ottiene:
Z +∞ p
< ψ1,n (t), ψ0,n (t) >= (2)ψ(2t − (k − 2n))ψ(t)dt = hk−2n
−∞
In conclusione:
X X
c0,n = c1,k hk−2n = c1,k h̃2n−k
k k
dove abbiamo definito h̃n = h−n . Pertanto la sequenza di coefficienti c0,n si ottiene semplice-
mente mediante filtraggio e decimazione per 2 della sequenza c1,n . Utilizzando la II equazione MRA
e ripetendo i calcoli in maniera analoga, si ricava:
X X
d0,n = c1,k gk−2n = c1,k g̃2n−k
k k
Il legame tra i coefficienti è rappresentato nello schema a blocchi mostrato in figura 12.5.

12.4. BANCO DI FILTRI
Figura 12.5: Implementazione con banco di filtri (fase di analisi)
A questo punto ripetiamo il ragionamento appena fatto nell’ipotesi in cui il segnale f (t) ≡
f 2 (t) ∈ V2 , per cui risulta:
X X X
f (t) = c2,n ψ2,n (t) = c1,n ψ1,n (t) + d1,n φ1,n (t)
n n n
e vediamo che tipo di relazione c’è tra i coefficienti c2,n ed i coefficienti c1,n e d1,n . Si ha:
X
c1,n =< f (t), ψ1,n (t) >=< c2,n ψ2,n (t), ψ1,n (t) >
n
X
= c2,n < ψ2,n (t), ψ1,n (t) >
n
dove:
Z +∞ √
< ψ2,n (t), ψ1,n (t) >= 2ψ(4t − k) 2ψ(t − n)dt
−∞
Effettuando questa volta il cambio di variabili t → (t + n)/2 si ottiene:
Z +∞ √
< ψ2,n (t), ψ1,n (t) >= 2ψ(2t − (k − 2n))ψ(t)dt = hk−2n
−∞
Scopriamo cosı̀ che anche modificando la scala non varia il legame tra i coefficienti:
X X
c1,n = c2,k hk−2n = c2,k h̃2n−k
k k
Si ottiene allora lo schema di decomposizione a due livelli riportato in figura 12.6. Ovviamente
lo schema può essere iterato fino al numero di livelli di decomposizione desiderati.

Figura 12.6: Decomposizione wavelet su due livelli
Vediamo, adesso, quali sono i passi da seguire in fase di ricostruzione. Vogliamo cioè ricavare i
coefficienti c1,n a partire da c0,n e d0,n nell’ipotesi in cui f (t) ∈ V1 . Si ha:
X X
c1,n =< f (t), φ1,n (t) >=< c0,k ψ0,k (t) + d0,k φ0,k (t), ψ1,k (t) >=
k k
X X
= c0,k < ψ0,k (t), ψ1,k (t) > + d0,k < φ0,k (t), ψ1,k (t) >=
k k
dove:
Z +∞ √
< ψ0,k (t), ψ1,k (t) >= ψ(t − k) 2ψ(2t − n)dt = hn−2k
−∞
Z +∞ √
< φ0,k (t), ψ1,k (t) >= φ(t − k) 2ψ(2t − n)dt = gn−2k
−∞
In conclusione:
X X
c1,n = c0,k hn−2k + d0,k gn−2k
k k
Questa relazione mostra che è necessario realizzare un’espansione per 2 seguita da un filtraggio,
i cui coefficienti sono proprio quelli determinati dalle due equazioni MRA (figura 12.7). Lo schema
può essere iterato cosı̀ come già visto in fase di analisi all’aumentare del numero di livelli di decom-
posizione. Chiaramente è necessario imporre un vincolo alla lunghezza del segnale che deve essere
una potenza di 2.

12.5. APPLICAZIONI IN CAMPO BIOMEDICO
Figura 12.7: Implementazione con banco di filtri(fase di sintesi)
12.5 Applicazioni in campo biomedico

Un’applicazione delle wavelete consiste nel loro utilizzo nella compressione dati: ovvero scartando
taluni coefficienti del dominio wavelet si può avere una compressione che può essere utilizzata nel
campo delle immagini [[59]].
Una delle prima applicazione della trasformata wavelet nell’imaging biomedico è stata la riduzio-
ne del rumore nelle immagini di Risonanza Magnetica [[58],[59]]. L’approccio proposto da Weaver
et al. è stato quello di calcolare una decomposizione wavelet ortogonale dell’immagine e applicare
la seguente regola di soft thresholding sui coefficienti ci,k =< f, φ(i, k) >:

 ci,k − ti , ci,k ≥ ti
c̃i,k = 0, | ci,k |≤ ti
ci,k − ti , ci,k ≤ −ti

dove ti è una soglia che dipende dal livello di rumore alla i-sima scala, l’immagine viene poi
ricostruito mediante la trasformata wavelet inversa. Questo algoritmo è estremamente semplice da
implementare e funziona bene per moderati livelli di rumore.
Le immagini di fMRI, che consentono una visualizzazione delle variazioni locali dell’ossigenazione
del sangue nel cervello indotta da attivazione neuronale sono estremamente rumorose e variabili, e la
loro interpretazione richiede l’uso di metodi di analisi statistica. In tal caso è utile usare le wavelet
per denoising e analisi dei dati: il vantaggio principale è che l’informazione è più discriminativa e
ben localizzata nello spazio, si concentra in un relativamente piccolo numero dei coefficienti, mentre
il rumore rimane equamente diviso tra tutti i coefficienti. Inoltre, il numero di prove statistiche
possono essere ridotte considerevolmente in primo luogo identificando i pochi canali di wavelet che
presentano notevoli differenze. Questa stessa operazione puo essere effettuata per diverse modalita
di imagin mediacale come PET, SPECT, ultrasuoni
La trasformata wavelet con risoluzione multiscale puo essere utilizzata otre che per la com-
pressione di segnali e immagini e per denosing, per risolvere problemi di enhancement grazie alla
separazione di segnale e rumore che puo essere raggiunta nel dominio trasformato.
Altra applicazione consta nell’utilizzo delle wavelet per Image Enhancement e segmentazione di
immgini. Infatti l’entità dei coefficienti wavelet misura la correlazione tra i dati dell’immagine e le
funzioni wavelet. Con la prima derivata basata su wavelet, l’entità dei coefficienti riflette la ”forza”
di variazione del segnale. Per le piccole onde sulla base della seconda derivata, la grandezza è legata
al contrasto locale intorno ad una variazione del segnale.
Con le proprieta della localizzazione spazio/frequenza, le funzioni wavelet consentono una rap-
presentazione ideale della tessitura delle immagini consentendo la massimizzazione dell-energia sia
nel dominio spaziale che nel dominio delle frequenze. In letteratura sono riportati alcuni studi

che sfruttano le wavelet per la segmentazione basata sulla tessitura. Molti dei metodi presen-
ti in letteratura seguono tre step quali espansione multi scale, caratterizzazione delle feature e
classificazione.

Parte IV
Appendici
179
Appendice A
Notazioni e richiami
A.1 Notazioni
In queste dispense con le lettere minuscole in grassetto si intenderanno i vettori colonna N -dimensionali
1
:
 
x1
x =  ...  = [x1 , x2 , ..., xN ]T
 
xN
mentre con le lettere maiuscole in grassetto si intenderanno le matrici :
 
a11 a12 ··· a1N
 a21 a22 ··· a2N 
A=
 
.. .. .. .. 
 . . . . 
aM 1 aM 2 ··· aM N
Scriviamo esplicitamente alcune espressioni matriciali di uso comune 2 :
ar1
 
 ar2 
A = [ac1 , ac2 , · · · , acN ] = 
 
.. 
 . 
arM
ar1 x
 
 ar2 x 
Ax = 
 ... 

arM x
xT A = [xT ac1 , xT ac2 , · · · , xT acN ]
1 L’apiceT indica la trasposizione di un vettore o di una matrice. Per indicare l’operazione di trasposizione seguita
dalla coniugazione complessa si usa l’apice H (operatore Hermitiano)
2 ac vettore colonna, ar vettore riga
181
Capitolo A. Notazioni e richiami
   
a1 a 1 b1 a 1 b2 ··· a1 bN
 a2   a 2 b1 a2 b2 ··· a2 bN 
abT =   [b1 , b2 , · · · , bN ] = 
   
.. .. .. .. .. 
 .   . . . . 
aM aM b1 aM b2 ··· aM bN
Si ricorda che il prodotto matriciale é associativo (previa compatibilitá delle dimensioni matri-
ciali) ma non é commutativo ed in particolare si ha:
aT b 6= baT
(AB)T = BT AT
Valgono inoltre le seguenti espressioni3 :
   
a1 c1
 a2   c2 
abT c =     T
 ...  [b1 , b2 , ..., bM ]  ...  = (ab )c =
aN cM
T T
   
a1 b a1 b c
 a2 bT   a2 bT c 
= ...  c = 
  =
... 
T T
aN b aN b c
 
a1
 a2  T T
= ...  b c = a(b c)

aN
In alcune occasioni si potrá fare uso della notazione di Einstein sugli indici ripetuti:
X
ak xk = ak xk
k
ovvero quando in un termine compaiono due indici uguali si sottintende la sommatoria estesa a
tutti i valori possibili di quell’indice (indice muto).
A.2 Notazioni per il calcolo differenziale

La derivazione (gradiente) di una funzione f (x) scalare rispetto ad un vettore si indicherá con i
simboli:
∂f ∂f ∂f ∂f T
∇x f = =[ , , ..., ]
∂x ∂x1 ∂x2 ∂xN
Ad es. dato un vettore costante a e la funzione f (x) = ax = ak xk , si ha:
∂f
= [a1 , a2 , ..., aN ]T = a
∂x
Inoltre, data la matrice A si ha:
3 posto che a, b e c abbiano dimensioni compatibili tra loro

A.3. METODO DEI MOLTIPLICATORI DI LAGRANGE
f (x) = xT Ax = [ak1 xk , ak2 xk , ..., akN xk ]x = akj xk xj
(dove si é fatto uso della convenzione di Einstein)per cui:
∂f
= [a1j xj + ak1 xk , a2j xj + ak2 xk , ..., aN j xj + akN xk ]
∂x
= Ax + AT x
A.3 Metodo dei moltiplicatori di Lagrange

Un metodo molto utile nelle applicazioni é il metodo dei moltiplicatori di Lagrange che serve per
trovare punti stazionari (cioé dove la funzione non cresce né decresce) di una funzione, con il vincolo
che tali punti appartengano ad una certa curva o superficie multi-dimensionale. Piú specificamente,
data la funzione z = f (x) si vuole trovare i punti stazionari soggetti ad un determinato vincolo
sulle x descritto dall’equazione g(x) = 0.
Cominciamo col ricordare che il gradiente di f (x) é ortogonale alle ipersuperfici isolivello della
funzione stessa (cioé le ipersuperfici lungo cui il valore della funzione non cambia). Infatti, la
derivata lungo una generica direzione n é data dalla proiezione del gradiente lungo quella direzione
∂f
= ∇x f · n
∂n
in particolare lungo la direzione t tangente alla sipersuperficie isolivello si deve avere
∂f
= ∇x f · t = 0
∂t
proprio perch’e la funzione é costante lungo la isolivello.
Osserviamo anche che se consideriamo la funzione z = g(x) ed applichiamo l’osservazione pre-
cedente, otteniamo che ∇x g é ortogonale alla ipersuperficie g(x) = 0 che é appunto una isolivello
(il livello é 0).
Infine basta osservare che i punti che cerchiamo sono dei punti stazionari per f (quindi appar-
tenenti alle isolivello) che facciano parte della ipersuperifice g(x) = 0. Pertanto si deve avere che
lungo la ipersuperficie g(x) = 0 la funzione f (x) deve essere stazionaria. Cioé il gradiente di f deve
essere ortogonale alla ipersuperficie g(x) = 0. In definitiva si deve avere che di due gradienti devono
essere diretti lungo la medesima direzione, cioé ∇x f = λ∇x g
Per risolvere il problema si procede come segue: si costruisce la funzione:
L(x, λ) = f (x) − λg(x)
Effettuiamo il gradiente rispetto all’insieme di variabili aumentato (x, λ).
∂L ∂L
∇L = ( , ) = (∇x f − λ∇x g, g(x))
∂x ∂λ
Eguagliando a zero tale derivata, la prima componente esprime il fatto che i gradienti siano
paralleli, mentre la seconda componente assicura il soddisfacimento dei vincoli.

A.4 Richiami su probabilitá e processi aleatori

Si ritiene opportuno richiamare brevemente alcune formule riguardanti la probabilitá e le principali
caratteristiche dei processi aleatori [8], [23], [5], [13]. Nel seguito si considerano segnali reali, le
formule si possono estendere ai segnali complessi con opportune modifiche.
A.5 Probabilitá
Richiamiamo alcune formule utili riguardanti la probabilitá.
Se Bk sono eventi mutuamente esclusivi la cui unione sia l’intero spazio di probabilitá allora:
K
X K
X
P (A) = P (A ∩ Bk ) = P (A|Bk )P (Bk ) (A.1)
k=1 k=1
detta regola della probabilitá marginale. Da questa consegue la regola di Bayes:

P (A|Bj )P (Bj ) P (A|Bj )P (Bj )
P (Bj |A) = = PK (A.2)
P (A) k=1 P (A|Bk )P (Bk )
A.6 Caratterizzazione di processi aleatori

Sia {x(t)} un processo (segnale) aleatorio ed indichiamo con xk (t) la k-sima realizzazione del proces-
so. Fissati due istanti di tempo t1 e t2 possiamo esprimere la media e la autocorrelazione statistica
del processo come segue:
N
1 X
µx (t1 ) = lim xk (t1 )
N →∞ N
k=1
N
1 X
rx (t1 , t2 ) = lim xk (t1 )xk (t2 )
N →∞ N
k=1
Il processo si dice stazionario al primo ordine se la media non dipende da t1 ; stazionario al

secondo ordine se la autocorrelazione dipende solo dalla differenza t1 − t2 ; stazionario in senso lato
se é stazionario al primo e al secondo ordine.
µx (t) = µx
rx (t, t − τ ) = rx (τ )
Se tutti i momenti di qualunque ordine n sono indipendenti dal tempo, cioé se:
N
1 X
µnx (t1 , t2 , ..., tn ) = lim xk (t1 )xk (t2 )...xk (tn ) = µnx (t1 + τ, t2 + τ, ..., tn + τ )
N →∞ N
k=1
allora il segnale si dice stazionario in senso stretto. Se non é stazionario nememno al primo ordine
il processo si dice non stazionario.
Nella pratica non sono disponibili tutte le realizzazioni del processo, ma si ha a che fare con una
singola realizzazione. In questo caso é utile il concetto di ergodicitá: un segnale si dice ergodico se
le caratteristiche statistiche coincidono con quelle di una singola realizzazione:

A.7. SEGNALE E RUMORE
Z T
1
µx (k) = µx = lim xk (t)dt
T →∞ 2T −T
Z T
1
rx (τ, k) = rx (τ ) = lim xk (t)xk (t − τ )dt
T →∞ 2T −T
Finora abbiamo considerato segnali a tempo continuo. Considerazioni analoghe alle precedenti
possono essere fatte per segnali a tempo discreto. Sia {x(n)} un segnale a tempo discreto si hanno le
seguenti espressioni per la media, la varianza, l’autocorrelazione, e l’autocovarianza (consideriamo
segnali reali):
µx (n) = E[x(n)]
σx2 (n) = E[|x(n) − µx (n)|2 ]
rx (k, l) = E[x(k)x(l)]
cx (k, l) = E[(x(k) − µx (k))(x(l) − µx (l))]
e si hanno le seguenti relazioni tra autocorrelazione e autocovarianza:
cx (k, l) = rx (k, l) − µx (k)µx (l)

cx (k, k) = σx2 (k).
Per due processi aleatori {x(n)} e {y(n)} possiamo definire la cross-correlazione e la cross-
covarianza e le relative relazioni:
rxy (k, l) = E[x(k)y(l)]

cxy (k, l) = E[(x(k) − µx (k))(y(l) − µy (l))]
cxy (k, l) = rxy (k, l) − µx (k)µy (l).
Due processi aleatori si dicono incorrelati se la cross-correlazione é uguale al prodotto delle

medie o equivalentemente se la loro cross-covarianza é zero, inoltre si dicono ortogonali se la cross-
correlazione é zero:
rxy (k, l) = µx (k)µy (l)

cxy (k, l) = 0
rxy (k, l) = 0
A.7 Segnale e rumore

Nella pratica i segnali sono ottenuti con procedimenti di misura che sono soggetti ad errori. Tipi-
camente questi errori possono essere schematizzati come un processo a media nulla incorrelato con
il segnale di interesse. Pertanto detto x(n) il segnale di interesse, {w(n)} il rumore suddetto, il
procedimento di misura fornisce il processo aleatorio {y(n)} dato da y(n) = x(n) + w(n).
Per l’autocorrelazione del processo {y(n)} si ottiene l’espressione seguente:

ry (k, l) = E[y(k)y(l)] = E[(x(k) + w(k))(x(l) + w(l))]

= E[x(k)x(l)] + E[w(k)w(l)] + E[x(k)w(l)] + E[x(l)w(k)]
= rx (k, l) + rw (k, l) + rxw (k, l) + rxw (l, k)
= rx (k, l) + rw (k, l)
per l’ipotesi di incorrelazione e dato che w(n) ha media nulla.

Come esempio si consideri il seguente segnale, somma di rumore aleatorio e di sinusoidi a fase
aleatoria indipendenti tra di loro ed uniformi tra −π e +π:
M
X
x(n) = Am sin(nωm + φm ) + v(n)
m=1
Per questo segnale l’autocorrelazione é la seguente:
M X
X M
rx (k, l) = Am Aj E[sin(kωm + φm ) sin(lωj + φj )] + rv (k, l)
m=1 j=1
M
X
= A2m E[sin(kωm + φm ) sin(lωm + φm )] + rv (k, l)
m=1
M
1 X 2
= A E[cos((k − l)ωm ) − cos((k + l)ωm + 2φm )] + rv (k, l)
2 m=1 m
M
1 X 2
= A cos((k − l)ωm ) + rv (k, l)
2 m=1 m
A.8 Processi gaussiani

Ricordiamo che una variabile aleatoria x si dice gaussiana se la pdf é la seguente:
1 (x − µx )2
fx (x) = √ exp{− }.
σx 2π 2σx2
Dato un vettore x = [x1 , x2 , ..., xn ]T si dice che le xi sono congiuntamente gaussiane se
1 1
fx (x) = exp{− (x − µx )T Cx −1 (x − µx )}
(2π)n/2 |Cx |1/2 2
dove µx = [µ1 , µ2 , ..., µn ]T e µi = E[xi ] ed inoltre cij = (xi − µi )(xj − µj ).

Un processo si dice gaussiano se ogni collezione di campioni é congiuntamente gaussiana.
Per un processo gaussiano la stazionarietá in senso stretto coincide con la stazionarietá in senso
lato, in quanto media e varianza caratterizzano completamente il processo.
A.9 Proprietá dei processi stazionari in senso lato

L’autocorrelazione é simmetrica:

A.10. MATRICE DI AUTOCORRELAZIONE
rx (k) = E[x(n + k)x(n)] = E[x(n)x(n + k)] = E[x(m − k)x(m)] = rx (−k)
Il valore massimo é in k = 0, infatti, tenendo conto che la media di una quantitá non negativa
é non negativa:
0 ≤ E[|x(n + k) − x(n)|2 ] = rx (0) + rx (0) − 2rx (k)

= 2rx (0) − 2rx (k) = rx (0) − rx (k)
A.10 Matrice di autocorrelazione

Dato un vettore aleatorio x = [x(0), x(1), ..., x(p)]T costituito da p campioni del segnale stazionario
in senso lato x(n), si puó definire il seguente prodotto:
 
x(0)x(0) x(0)x(1) ··· x(0)x(p)
 x(1)x(0) x(1)x(1) ··· x(1)x(p) 
xxT = 
 
.. .. .. .. 
 . . . . 
x(p)x(0) x(p)x(1) · · · x(p)x(p)
La media di tale matrice é detta matrice di autocorrelazione di estrema importanza nelle

applicazioni:
 
rx (0) rx (−1) ··· rx (−p)
 rx (1) rx (0) ··· rx (−p + 1) 
Rx = E[xxT ] = 
 
.. .. .. .. 
 . . . . 
rx (p) rx (p − 1) · · · rx (0)
Analogamente si definisce la matrice di autocovarianza:
Cx = E[(x − µx )(x − µx )T ]
Cx = Rx − µx µT
x
La matrice di autocorrelazione gode delle seguenti proprietá:
• é simmetrica4 RT
x = Rx
• é toeplitz 5 : Rx = T oep{rx (0), rx (1), ..., rx (p)}

• é semidefinita positiva: Rx > 0, infatti detto a un vettore qualunque, si ha aT Rx a =
aT E[xxT ]a = E[aT (xxT )a] = E[aT x(aT x)] = E[(aT x)2 ] ≥ 0
• gli autovalori sono non negativi, infatti detto v un autovettore, essendo definita positiva si
ha: 0 ≤ vT Rv = λvT v = λ|v|2 → λ ≥ 0
• autovalori differenti corrispondono ad autovettori ortogonali, infatti detti λ1 , λ2 due autovalori
e v1 , v2 i corrispondenti autovettori, tenendo conto che aT Rb é uno scalare, si ha:
λ1 v2T v1 = v2T Rv1 = (v2T Rv1 )T = v1T RT v2 = v1T Rv2 = λ2 v1T v2
pertanto (λ1 − λ2 )v1T v2 = 0 ed essendo gli autovalori distinti deve essere v1T v2 = 0.
4 Piú
precisamente se si fa riferimento a processi aleatori complessi allora la matrice di autocorrelazione é
Hermitiana RHx = Rx
5 Una matrice si dice toeplitz se ciascuna diagonale é costituita da elementi tutti uguali

• si puó diagonalizzare (teorema di decomposizione spettrale):

sia V = [v1 , ..., vn ] la matrice costituita dagli autovettori di modulo unitario ed ortogonali
tra loro si ha
RV = R[v1 , ..., vn ] = [λ1 v1 , ..., λn vn ]

 
λ1 0 · · · 0
 0 λ2 · · · 0 
= [v1 , ..., vn ]  .  = VD
 
.. .. ..
 .. . . . 
0 0 ··· λn
per cui  
λ1 0 ··· 0 v1T

 0 λ2 ··· 0  T  P
  v2  n
R = VDVT = [v1 , ..., vn ]  = k=1 λk vk vkT

.. .. .. .. 
... 
 . . . . 
0 0 ··· λn vnT
A.11 Stima delle principali quantitá
Se disponiamo delle osservazioni [x1 , . . . , xN ] di una variabile aleatoria X allora possiamo stimare
media e varianza con le seguenti formule.
1
PN
media µx = N k=1 xk
1
PN
varianza σx2 = N −1 k=1 (xk − µx )2
A.12 Filtraggio di segnali aleatori
Ricordiamo le principali formule che esprimono le relazioni tra ingresso ed uscita di un filtro LTI,
per segnali aleatori:

A.13. IL PROCESSO DI POISSON
y(n) = x(n) ∗ h(n)

µy (n) = E[y(n)] = E[x(n) ∗ h(n)] = E[x(n)] ∗ h(n) = µx (n) ∗ h(n)
X
ryx (l, k) = E[y(l)x(k)] = E[ h(m)x(l − m)x(k)]
m
X X
= h(m)E[x(l − m)x(k)] = h(m)rx (l − m − k)
m m
= rx (l − k) ∗ h(l − k)
X X
ry (l, k) = E[y(l)y(k)] = E[ h(m)x(l − m) h(j)x(k − j)]
m j
XX
= E[ h(m)h(j)x(l − m)x(k − j)]
m j
XX
= h(m)h(j)E[x(l − m)x(k − j)]
m j
XX
= h(m)h(j)rx (l − m − k + j)
m j
!
X X
= h(j) h(m)rx (l − k + j − m)
j m
X
= h(j)ryx (l − k + j)
j
= ryx (k − l) ∗ h(k − l)
A.13 Il processo di Poisson

Il processo di Poisson é frequentemente usato per modellare l’occorrenza di eventi in istanti di
tempo aleatori. Nel contesto bio-ingegneristico, il processo di Poisson é usato in vari contesti, tra
cui ad esempio, nella modellazione del processo di scarica dei moto-neuroni, per modellare il rumore
quantistico su radiografie, e per modellare il conteggio degli eventi rilevati in uno scanner PET.
Consideriamo un intervallo di tempo T . Distribuiamo casualmente n punti all’interno di questo
intervallo. Sia ∆t un intervallo incluso in T . La probabilitá che un punto cada all’interno di ∆t é
p = ∆t
T . Vogliamo calcolare la probabilitá che k punti cadano all’interno di ∆t [13].
Tale evento puó essere visto come la ripetizione per k volte dello stesso evento di probabilitá p,
in una sequenza di n ripetizioni.
Come noto una tale probabilitá é data da 6 :

n
P (k occorrenze su n ripetizioni) = pk q n−k
k
dove q = 1 − p é la probabilitá dell’evento ‘il punto cade all’esterno dell’intervallo ∆t’, e quindi

k n−k n
p q é la probabilitá di una particolare sequenza di punti con k punti in ∆t, mentre é il
k
numero di tali sequenze.
6 Dati n elementi da disporre su k posti, per trovare il numero di combinazioni senza ripetizioni si puó procedere
come segue: scelto l’elemento per la prima posizione restano n − 1 elementi per la seconda posizione; fissato il
secondo restano n − 2 per la terza posizione, e cosı́ via. Pertanto abbiamo n(n − 1)(n − 2)...(n − k + 1) modi
di scegliere gli elementi. In questo ragionamento, peró, uno stesso elemento puó, in distribuzioni differenti, essere
posto in posizioni differenti e quindi possiamo avere distribuzioni che sono una permutazione l’una dell’altra. Poiché il
n(n−1)(n−2)...(n−k+1)
numero di permutazioni di k elementi é k! allora il numero di combinazioni senza ripetizioni é k!
=

n! n
k!(n−k)!
=
k

Figura A.1: Processo di Poisson e sua derivata
Se n é molto grande rispetto a k allora n(n − 1)(n − 2)...(n − k + 1) ≈ nk , supponendo inoltre

p 1 → 1 − p ≈ e−p
nk k n (np)k q n (np)k e−np

n n(n − 1)(n − 2)...(n − k + 1) k n−k
pk q n−k = p q ≈ p q = =
k k! k! k! k!
Quindi in definitiva tenendo conto della definizione di p:
(λ∆t)k e−λ∆t
P (k occorrenze su n ripetizioni) =
k!
n
dove λ = T é numero medio di punti nell’unitá di tempo.
Diciamo ora x(t, t + ∆t) il numero di eventi che occorrono tra gli istanti t e t + ∆t. Si ha che
k −λ∆t
P (x(t, t + ∆t) = k) = (λ∆t)k!e . Il processo aleatorio x(t) = n(0, t) é detto processo di Poisson.
La media di tale processo é λt, infatti:
∞ ∞
X (λt)k e−λt X (λt)k
µx (t) = E[x(t)] = k = e−λt k =
k! k!
k=0 k=1
∞ ∞
X (λt)k X (λt)k−1
= e−λt = λte−λt =
(k − 1)! (k − 1)!
k=1 k=1
∞ m
−λt
X (λt)
= λte = λte−λt eλt = λt
m=0
(m)!
Si puó calcolare facilmente anche il valore quadratico medio:

∞
X (λt)k
E[x2 (t)] = e−λt k2
k!
k=0
∞
X (λt)k
= e−λt k
(k − 1)!
k=1
∞
−λt
X (λt)k−1
= λte k
(k − 1)!
k=1
∞ ∞
!
−λt
X (λt)k−1 X (λt)k−1
= λte (k − 1) +
(k − 1)! (k − 1)!
k=1 k=1
∞ ∞
!
X (λt)m X (λt)n
= λte−λt m +
m=0
(m)! n=0
n!
= λte−λt λteλt + eλt = (λt)2 + λt

Per quanto riguarda l’autocorrelzione si ha, se t1 ≤ t2 (essendo x(t1 ) e x(t2 ) − x(t1 ) indipendenti
perché gli intervalli temporali sono disgiunti):
rx (t1 , t2 ) = E[x(t1 )x(t2 )]

= E{x(t1 )[x(t1 ) + x(t2 ) − x(t1 )]}
= E[x2 (t1 )] + E{x(t1 )[x(t2 ) − x(t1 )]}
= (λt1 )2 + λt1 + λt1 λ(t2 − t1 ) = λt1 + λ2 t1 t2
Analogamente se t2 ≤ t1 :
rx (t1 , t2 ) = rx (t2 , t1 ) = λt2 + λ2 t1 t2
e quindi in definitiva:
rx (t1 , t2 ) = λ min(t1 , t2 ) + λ2 t1 t2
Quindi il processo non é stazionario. Si puó visualizzare il processo di Poisson come una serie
di gradini di ampiezza unitaria e durata aleatoria (fig. A.1).
Consideriamo ora il processo ∂x(t) che si ottiene filtrando il processo di Poisson x(t) con un
filtro derivatore. Poiché la derivata é un operatore lineare potremo usare le formule stabilite per i
filtri LTI. In particolare avremo:
∂µx (t)
µ∂x (t) = µx (t) ∗ h(t) = =λ
∂t
Il processo ∂x(t) puó essere espresso come:
∞
X
∂x(t) = δ(t − tk )
k=0
dove tk sono gli istanti (aleatori) di occorrenza degli eventi.

Per quanto riguarda l’autocorrelazione del processo ∂x(t), si puó calcolare conoscendo l’auto-
correlazione del processo di Poisson e ricordando che va calcolata usando due filtri derivatori in
cascata in due passi:

∂ 2 rx (t1 , t2 ) ∂ 2 λ min(t1 , t2 ) + λ2 t1 t2
r∂x (t1 , t2 ) = =
∂t1 ∂t2 ∂t1 ∂t2
2
∂λu(t1 − t2 ) + λ t1
= = λδ(t1 − t2 ) + λ2
∂t1
Un ultima utile considerazione é che la distanza tra due punti del processo di Poisson y =
tn − tn−1 é una variabile esponenziale di parametro λ:
P (y < (tn − tn−1 ) < y + dy) = p(y) = λe−λy (A.3)
Infatti la probabilità che la durata dell’intervallo (tn−1 , tn ) sia > y é uguale alla probabilità che
durante questo intervallo il numero di eventi sia 0 e cioé:
(λ∆t)0 e−λ(tn −tn−1 )

P (Y > y) = P (n(tn−1 , tn ) = 0) = = e−λy .
0!
Per cui la funzione cumulativa di probabilità (CDF) sará:
F (y) = P (Y < y) = 1 − P (Y > y) = 1 − e−λy
e quindi la PDF:
∂F
p(y) = = λe−λy .
∂y
A.13.1 Esempio in Matlab

% Generiamo un processo di Poisson
Ts = 0.01; % tempo di campionamento

lambda = 1; % numero medio di eventi al secondo
mu = 1 / lambda; % prametro della distribuzione esponenziale
% genera intervalli
M = 10;
r = exprnd(mu,M,1);
% numero di intervalli di campionamento che corrispondono a ciascun

% intervallo
% di Poisson
rr = round(r/Ts);
% genera un vettore con il treno di impulsi

time = [];
for k = 1:length(rr)
time = [time; zeros(rr(k),1); 1];
end
% processo di poisson = somma degli eventi

c = cumsum(time);
% vettore dei tempi

t = Ts*(0:length(time)-1)’;

Figura A.2: esempio di processo di Poisson generato con il sorgente Matlab.

% media teorica del processo

y = lambda*t;
% visualizza
plot(t,[c y])
ylabel(’number of events’)

Appendice B
Stima spettrale per applicazioni

biomediche - Metodi non
parametrici
Le tecniche di analisi spettrale o stima dello spettro di potenza di segnali vengono utilizzate per
determinare il contenuto energetico di un segnale in ogni intervallo di frequenza significativo. Sono
particolarmente utili nell’analisi dei segnali biomedici per estrarre periodicità nascoste.
Lo spettro di potenza di un processo casuale stazionario in senso lato, è dato dalla trasformata
di Fourier della sequenza di autocorrelazione:
∞
X
Sx (ejw ) = rx (k)e−jkw
k=−∞
L’autocorrelazione per un processo ergodico è data dalla seguente relazione:
N
1 X
rx (k) = lim x(n + k)x(n)
N →∞ 2N + 1
n=−N
Nell’applicazione pratica si presentano le seguenti limitazioni:
• il numero di campioni N del processo misurato è finito;

• i campioni della sequenza misurata sono affetti da rumore.
I metodi disponibili possono essere suddivisi in due classi:
• metodi non parametrici: non si fa alcuna ipotesi sui possibili modelli del segnale conside-
rato;
• metodi parametrici: si suppone che il segnale sia ottenuto mediante l’uso di un opportuno
modello i cui parametri devono essere determinati.
B.1 Metodi non parametrici

Questi metodi sono basati sull’idea di stimare la sequenza di autocorrelazione di un processo casuale
usando una singola realizzazione del processo, e di farne poi la trasformata di Fourier, ottenendo
cosı̀ una stima della densità spettrale di potenza.
195
Capitolo B. Stima spettrale per applicazioni biomediche - Metodi non parametrici
B.1.1 Periodogramma
Una prima approssimazione della funzione di autocorrelazione é la seguente (stima polarizzata):
N −1
1 X
r̂x (k) = x(n + k)x(n)
N n=0
La seguente formula offre una stima non polarizzata dell’autocorrelazione:
−1−k
NX
1
r̂x (k) = x(n + k)x(n)
N n=0
I valori di r̂x (k) per k < 0 sono definiti usando la simmetria per la quale r̂x (−k) = r̂x (k).
Una stima della densità spettrale di potenza (periodogramma) può quindi calcolarsi come la
trasformata di fourier della stima della sequenza dell’autocorrelazione come segue:
N
X −1
P̂per (ejw ) = r̂x (k)e−jkw
k=−N +1
In realtà possiamo esprimere il Periodogramma direttamente in termini della sequenza del pro-
cesso aleatorio; a questo scopo il segnale troncato ai suoi primi N campioni si puó pensare ottenuto
moltiplicando il processo per un’opportuna finestra (finestra rettangolare o finestra di Bartlett) che
azzera i campioni per n ≥ N come segue:
xN (n) = x(n)wR (n)
In termini di xN (n) la stima della sequenza dell’autocorrelazione si calcola:
∞
1 X 1
r̂x (k) = xN (n + k)xN (n) = xN (k) ∗ xN (−k)
N n=−∞ N
Effettuandone la trasformata i Fourier otteniamo il Periodogramma:
1 ∗ 1
P̂per (ejw ) = XN (ejw )XN (ejw ) = |XN (ejw )|2
N N
Dove XN (ejw ) è la trasformata discreta di fourier della sequenza xN (n):
∞
X N
X −1
XN (ejw ) = xN (n)e−jnw = x(n)e−jnw
n=−∞ n=0
Prestazioni del periodogramma
Uno stimatore consistente é uno stimatore per il quale la polarizzazione e la varianza tendono
entrambe a zero al crescere del numero di osservazioni. La bontá della stima infatti si ritiene
usualmente legata alla bontá della sua media (accuratezza) e della sua varianza (precisione). Per
quantificare tali caratteri si introducono le seguenti grandezze:
• Polarizzazione: é la differenza tra il valore vero α del parametro ed il valore atteso della stima
α − E[α̂];

B.1. METODI NON PARAMETRICI
• Varianza: E[(α̂ − E[α̂])2 ].
Pertanto una stima consistente della densità spettrale di potenza, ovvero una stima non pola-
rizzata deve verificare le seguente uguaglianze:
lim E[P̂per (ejw )] = Px (ejw )

N →∞
lim V ar[P̂per (ejw )] = 0

N →∞
Idealmente all’aumentare della lunghezza della sequenza, il periodogramma deve convergere alla
PSD. Si può dimostrare che la media del periodogramma è data da:
1
E[P̂per (ejw )] = Px (ejw ) ∗ WB (ejw )
2π
Dove WB (ejw ) è la trasformata di Fourier della finestra di Bartlett:
1 sin(N w/2) 2
WB (ejw ) = [ ]
N sin(w/2)
Dunque il Periodogramma è polarizzato, ma asintoticamente non-polarizzato perchè al tendere

di N all’infinito WB (ejw ) tende ad un impulso:

N →∞
Il periodogramma non è uno stimatore consistente, in quanto è possibile mostrare che la sua
varianza non va a zero al tendere di N all’infinito. Infatti per un processo casuale gaussiano a media
nulla si ha:
V ar[P̂per (ejw )] = Px2 (ejw )
Lo smoothing introdotto dalla finestra di bartlett limita la capacità del periodogramma di risol-
vere componenti a banda stretta ravvicinate (sinusoidi a frequenza poco differente). Per quantificare
questo potere risolutivo si usa l’ampiezza del lobo principale della DFT della finestra del bartlett,
ottenendo:
Res[P̂per (ejw )] = 0.892π/N
Interpretazione come banco di filtri
Il periodogramma può essere visto come una stima spettrale ottenuta con un banco di filtri passa
banda. A tale scopo consideriamo un filtro FIR dato da:
1 jnωi
hi (n) = e wR (n) (B.1)
N
la cui risposta in frequenza è data da:

N −1
X sin(N (ω − ωi )/2)
Hi (ejω ) = hi (n)ejnω = e−j(ω−ωi )(N −1)/2 (B.2)
n=0
N sin((ω − ωi )/2)

che è un filtro passa banda con frequenza centrale di ωi e banda ∆ω = 2π/N . Si ha :

n n
X 1 X
yi (n) = x(n) ∗ hi (n) = x(k)hi (n − k) = x(k)ej(n−k)ωi (B.3)
N
k=n−N +1 k=n−N +1
poichè |Hi (ejω )|ω=ωi = 1 allora Px (ωi ) = P y(ωi ) la potenza in uscita dal filtro è :
Z π
1 ∆ω 1
E[|yi (n)|2 ] = Px (ω)|Hi (ω)|2 dω ≈ Px (ωi ) = Px (ωi ) (B.4)
2π −π 2π N
usando come stima della potenza una media su un punto Ê[|yi (n)|2 ] = |yi (N − 1)|2 allra si ha:
N −1
1 X
P̂ (ωi ) = N Ê[|yi (n)|2 ] = N |yi (N − 1)|2 = | x(k)e−jkωi |2 (B.5)
N
k=0
B.1.2 Periodogramma modificato

É possibile modificare le caratteristiche spettrali dello stimatore impiegando finestre diverse da quel-
la rettangolare. Cambiando finestra bisogna cercare di migliorare il trade-off tra ampiezza del lobo
principale, corrispondente alla risoluzione spettrale, e ampiezza dei lobi laterali. Il periodogramma
di un processo finestrato con una finestra generica è caratterizzato dalla seguente relazione:
∞
1 X
P̂M (ejw ) = | x(n)w(n)e−jnw |2
N U n=−∞
dove N é la lunghezza della finestra ed U é un fattore di normalizzazione che tiene conto della
potenza introdotta dalla finestra:
N −1
1 X
U= |w(n)|2
N n=0
1
E[P̂M (ejw )] = Px (ejw ) ∗ |W (ejw )|2 V ar[P̂M (ejw )] = Px2 (ejw )
2πN U
dove W (ejw ) è la trasformata di Fourier della finestra generica;

La risoluzione in frequenza dipende dal tipo di finestra utilizzato:
Res[P̂M (ejw )] = (∆w3db )
B.1.3 Metodo di Bartlett

La media della stima del periodogramma tende allo spettro del segnale all’aumentare del numero
di campioni N su cui viene calcolata la media stessa:

N →∞
Pertanto un metodo classico per ridurre la varianza della stima è quello di calcolare la me-
dia di numerose stime indipendenti; l’applicazione di questo concetto alla stima dello spettro è
comunemente attribuita a Bartlett: che introdusse il concetto di poter migliorare il metodo del
periodogramma cercando uno stimatore della sua media. Considero K realizzazioni di un processo

i
casuale x(n), xi (n) per i =1,2,...,K ed n = 0,1,...,L-1 scorrelate fra loro. Indico con P̂per (ejw ) il
periodogramma dell’ i-sima realizzazione:
L−1
1 X
i
P̂per (ejw ) = | xi (n)e−jnw |2 ; i = 1, 2, ..., K
L n=0
la media di questi periodogrammi è:

K
1 X i
P̂x (ejw ) = P̂ (ejw )
K i=1 per
Calcolando il valore atteso di P̂x (ejw ) abbiamo:

1
E[P̂x (ejw )] = E[P̂per
i
(ejw )] = Px (ejw ) ∗ WB (ejw )
2π
Dunque P̂x (ejw ) è asintoticamente non polarizzato. In aggiunta, con l’assunzione che i set di dati
sono scorrelati, è possibile dimostrare che la varianza di P̂x (ejw ) è:
1 1
V arP̂x (ejw ) = i
V arP̂per (ejw ) ≈ Px2 (ejw )
k k
che tende a zero al tendere per k → ∞. Dunque P̂x (ejw ) è una stima consistente della densità
spettrale di potenza al tendere di K ed L all’infinito. Purtroppo K realizzazioni di un processo non
sono in genere disponibli. Disponendo di una singola realizzazione di lunghezza N, la si suddivide
in K segmenti non sovrapposti di lunghezza L:
xi (n) = x(n + iL); n = 0, 1, ...., L − 1, i = 0, 1, .....K − 1
Dunque la stima di Bartlett è:
k−1 L−1
1 X X
P̂B (ejw ) = | x(n + iL)e−jnw |2
N i=0 n=0
La differenza rispetto al caso ideale di più realizzazioni è che non posso, a priori, considerare le
sotto-sequenze cosi ottenute scorrelate fra loro. Le prestazione del periodogramma di Bartlett sono
elencate di seguito:
1
E[P̂B (ejw )] = Px (ejw ) ∗ WB (ejw )
2π
ovvero il suo valore atteso è la convoluzione dello spettro vero Px (ejw ) con la trasformata di Fourier
della funzione finestra triangolare corrispondente ad un periodogramma calcolato su N campioni,
dunque P̂B (ejw ) è asintoticamente non polarizzato; la varianza assumendo che le sequenza di dati
sono approssimativamente scorrelate si calcola
1 1
V ar[P̂B (ejw )] ≈ i
V arP̂per (ejw ) ≈ Px2 (ejw )
K k
Questa espressione evidenzia che la varianza di P̂B (ejw ) è inversamente proporzionale al numero di
periodogrammi mediati e che quando K diventa grande la varianza tende a zero, ovverosia che la
stima di Bartlett è una stima consistente. Tale risultato è corretto solo se i periodogrammi sono
incorrelati; in realtà le sequenze sono blocchi contigui di una stessa realizzazione (quindi difficilmente
incorrelate) da cui consegue una riduzione della varianza di un fattore inferiore a K. La risoluzione
spettrale infine è
2π 2π
Res[P̂B (ejw )] = 0.89 = 0.89K
L N
Per una lunghezza fissata della sequenza da analizzare, al crescere del numero dei periodogrammi,
diminuisce la varianza e anche L e quindi la risoluzione dello spettro; pertanto diminuire le dimen-
sioni delle sottosequenze comporta una corrispondente diminuzione della risoluzione dello spettro
stimato. Quindi nel metodo di Bartlett si deve raggiungere un compromesso tra il bias (o risoluzione
dello spettro) e la varianza della stima.

B.1.4 Metodo di Welch

Welch ha proposto due modifiche al metodo di Bartlett:
• sovrapposizione (overlap) delle sequenze;
• finestratura delle sequenze.
Assumendo che sequenze successive sono separate da D punti e che ogni sequenza ha lunghezza
pari ad L, l’i-sima sequenza è data da:
xi (n) = x(n + iD), n = 0, 1, ...., L − 1
Le sequenze si sovrappongono quindi di L-D punti e se dagli N valori della sequenza d’origine
x(n) si ottengono K sequenze: N=L+D(K-1). Pertanto senza sovrapposizione abbiamo K=N/L
sequenze di lunghezza L (metodo di Bartlett). Mentre con una sovrapposizione del 50 per cento
(D=L/2) abbiamo k = 2N L −1 sequenze di lunghezza L. Dunque manteniamo la stessa risoluzione del
metodo di bartlett(stessa lunghezza) mentre raddoppiamo il numero di periodogrammi modificati
mediati, riducendo la varianza. Comunque con una sovrapposizione del 50 per cento possiamo anche
assumere K = N L − 1 sequenze di lunghezza 2L, ciò consente di migliorare la risoluzione spettrale
mantenendo la varianza analoga a quella della stima di bartlett. La stima del periodogramma di
Welch è:
k−1 L−1
1 X X
P̂W (ejw ) = | x(n + iD)w(n)e−jnw |2
KLU i=0 n=0
Dunque il valore atteso della stima di Welch è:
1
E[P̂W (ejw )] = E[P̂M (ejw )] = Px (ejw ) ∗ |W (ejw )|2
2πLU
Come con il periodogramma modificato la risoluzione spettrale è definita come la banda a 3 db

della finestra applicata ai dati. É possibile mostrare che con una sovrapposizione del 50 per cento
e per un numero di sottosoquenze pari ad K, la varianza dello stimatore vale:
9 L 2 jw
V ar[P̂W (ejw )] ≈ P (e )
16 N x
B.1.5 Metodo di Blackman-Tukey

Nei metodi precedenti abbiamo calcolato la stima dello spettro di potenza direttamente dalla tra-
sformata di Fourier. Un altro approccio alla stima dello spettro di potenza è di stimare prima la
sequenza di autocorrelazione, e poi trasformarla usando la trasformata di Fourier.
Ricordando che per una sequenza di dati di lunghezza N, la varianza della stima dell’autocor-
relazione r̂x (k) sarà tanto più grande per quei valori di k vicini ad N, l’unico modo per ridurre la
varianza del periodogramma è ridurre la varianza di queste stime o ridurre il contributo che esse
danno al periodogramma. Nel metodo di Blackman-tukey la varianza del periodogramma è ridotta
applicando una finestra ad r̂x (k). La stima dello spettro è:
M
X
P̂BT (ejw ) = r̂x (k)w(k)e−jkw
k=−M
Dove w(k) ad esempio è una finestra rettangolare che va da -M a M con M < N − 1. Usando
il teorema della convoluzione, lo spettro di blackman-tukey può essere riscritto nel dominio della

frequenza come segue:

Z π
jw 1 1
P̂BT (e )= P̂per (ejw ) ∗ W (ejw ) = P̂per (eju ) ∗ W (ej(w−u) )du
2π 2π −π
Per analizzare le prestazioni di tale metodo si calcola il valore atteso e la varianza della stima dello
spettro:
1
E[P̂BT (ejw )] = Px (ejw ) ∗ W (ejw )
2π
M
1 2 jw X 2
V ar[P̂BT (ejw )] ≈ Px (e ) w (k)
N
k=−M
Pertanto per ridurre il valore atteso occorre scegliere M grande allo scopo di minimizzare l’altezza
del lobo principale di W (ejw ), mentre occorre scegliere M piccolo per minimizzare la somma nel-
l’equazione che determina la varianza della stima dello spettro. Generalmente è raccomandato un
valore di M=N/5.
B.1.6 Stima dello spettro a minima varianza

L’idea e quella di filtrare il segnale con un banco di filtri a banda stretta. Le motivazioni di questo
approccio possono essere capite osservando gli effetti su un processo causale stazionario in senso lato
sottoposto ad un filtraggio con un banco di filtri a banda stretta. Dunque dato x(n) un processo
aleatorio stazionario in senso lato a media nulla con densità spettrale di potenza Px (ejω ) e dati
gi (n) filtri passa-banda ideale aventi banda paria a ∆ e frequenza centrale ωi :
|Gi (ejω )| = 1 : |ω − ωi | < ∆/2
Se x(n) è filtrato con gi (n) lo spettro di potenza dell’uscita del filtro è la seguente:
Pi (ejω ) = Px (ejω )|Gi (ejω )|2
e la potenza:
Z π Z π
1 1
E[|yi (n)|2 ] = Pi (ejω )dω = Px (ejω )|Gi (ejω )|2 dω =
2π −π 2π −π
Z ωi +∆/2
1
Px (ejω )dω
2π ωi −∆/2
Se ∆ è sufficientemente piccola cosı̀ che si può ritenere in tale banda Px (ejω ) approssimativa-
mente costante, la potenza del segnale all’uscita dell’ i-simo filtro diventa:
∆
E[|yi (n)|2 ] = Px (ejωi )
2π
Dunque è possibile stimare la densità spettrale di potenza del processo x(n) alla frequenza
ω = ωi come rapporto tra la potenza dell’uscita dell’i-simo filtro e la banda normalizzata ∆/2π:
E[|yi (n)|2
Px (ejωi ) =
∆/2π
Siccome non si può ottenere realmente un filtro ideale a banda stretta si considera un banco di
filtri gi (n) aventi frequenza centrale ωi tali da lasciare passare la componente a frequenza ωi e da
rigettare il piú possibile la potenza fuori banda. Filtrando x(n) con ciascuno di tali filtri la densità
spettrale di potenza alla frequenza ωi sará pari alla potenza di yi (n) divisa per l’ampiezza della
banda.

Consideriamo filtri FIR gi (n) di ordine p che non alterino il segnale alla frequenza ωi :
p
X
ωi
Gi (e ) = gi (n)e−jnωi = 1
n=0
poniamo:
gi = [gi (0), gi (1), ..., gi (p)]T
ed ei il vettore di esponenziali complessi eωi :
ei = [1, ejωi , ..., ejpωi ]T
Allora la condizione precedente diventa:

eH
i gi = 1 (B.6)
Vogliamo che il filtro rigetti il piu possibile la potenza fuori banda e che consenta di misurare
accuratamente la potenza del segnale x(n) alla frequenza ωi pertanto deve verificarsi la condizione
di cui sopra.
Dobbiamo minimizzare pertanto la potenza in uscita del filtro:
E[|yi (n)|2 ] = giH Rx gi
soggetta al vincolo giH ei = 1. per fare ció usiamo il metodo dei moltiplicatori di Lagrange, per cui
dobbiamo minimizzare la seguente funzione:
L(gi , λ) = giH Rx gi − λ(giH ei − 1)
Ponendo il gradiente rispetto giH pari a 0 otteniamo:
∇giH (L(gi , λ)) = Rx gi − λei = 0
Allora :
gi = λR−1
x ei
E il valore di λ si ricava dalla condizione di vincolo B.6:

1
λ= −1
eH
i Rx ei
Ed infine:
R−1
x ei
gi =
ei R−1
H
x ei
Pertanto il minimo valore della potenza dell’uscita dell’i-simo filtro è:

1
min E[|yi (n)|2 ] = −1
gi eH
i Rx ei
Il ragionamento che abbiamo fatto non dipende dalla frequenza per cui vale per tutte le frequenze.
Dunque il filtro ottimo per la stima della potenza di x(n) alla frequenza ω è:
R−1
x e
g=
e R−1
H
x e
e la stima della potenza è:

1
σx2 =
eH R−1
x e

Adesso dobbiamo stimare la densità spettrale di potenza del processo x(n) dividendo la stima della
potenza per la banda del filtro. Ci sono diversi criteri per definire la banda, il più semplice è usare il
valore di ∆ che produce il corretto valore della densità spettrale di potenza di un rumore gaussiano
bianco. Essendo per un rumore bianco la minima potenza pari ad
E[|yi (n)|2 ] = σx2 /(p + 1)
otteniamo che la PSD è:

2π
Px (ejw ) = σx2 /(p + 1)
∆
e che quindi la banda deve essere:
2π
∆=
p+1
In conclusione la densità spettrale di potenza del segnale sarà:

p+1
Px (ejw ) =
eH R−1
x e
Maggiore è l’ordine del modello p più stretta è la banda. Ma per stimare la matrice Rx di ordine
p dobbiamo conoscere almeno p campioni del segnale x(n). Pertanto l’ordine massimo p è limitato
da N . Inoltre bisogna tener conto che le stime di correlazione vicine ad N sono affette da una più
grande varianza, per cui l’ordine p ≪ N .
B.1.7 Stima dello spettro a massima entropia

Una delle limitazioni degli approcci classici per la stima della densità spettrale di potenza è che
per una sequenza x(n) lunga N , la autocorrelazione può essere stimata solo per |k| < N . Le
stime spettrali viste finora pongono a zero l’autocorrelazione per |k| > N . Sarebbe auspicabile,
soprattutto per processi a banda stretta, estrapolare la stima dell’autocorrelazione per |k| > N .
Data l’autocorrelazione rx (k) di un processo stazionario in senso lato nell’intervallo |k| < p il
problema che ci proponiamo di risolvere è quello di estrapolare rx (k) per |k| > p. Denotando il
valore estrapolato re (k), è chiaro che qualche vincolo dovrà essere imposto su re (k). Per esempio,
posto che
Xp X
Px (ejw ) = rx (k)e−jkw + re (k)e−jkw
k=−p |k|>p
è la densitá spettrale di potenza del processo, il vincolo che si impone è che questa deve essere reale
e non-negativa. In genere questo vincolo non è sufficiente a garantire un’unica estrapolazione.
Nel metodo MEM (proposto da Burg, 1975) si cerca di estrapolare rx (k) per |k| > p massi-
mizzando l’entropia del processo. L’entropia è una misura della aleatorietà del processo, cioé della
quantità di incertezza e di informazione presente in un segnale aleatorio 1 . Pertanto massimizzare
l’entropia equivale a rendere lo spettro il più piatto (bianco) possibile ovvero equivale a cercare le
sequenze dell’autocorrelazione di un processo aleatorio che risulta un processo gaussiano bianco.
Per un processo gaussiano l’entropia è:
Z π
1
H(x) = ln Px (ejw )dw
2π −π
1 Il concetto di entropia nasce nella fisica statistica. In quel contesto é una misura del grado di disordine di un
sistema. Dato ad esempio un gas composto di N molecole, ciascuna di queste molecole sará in uno stato energetico.
La somma delle energie (trascurando l’interazione mutua) fornisce l’energia del sistema in toto. Se l’energia com-
plessiva del sistema é mantenuta costante e fissata ad un valore noto, allora le singole molecole potranno assumere
configurazioni energetiche la cui somma totale sia quella nota. Chiaramente il numero di configurazioni possibili
aumenta rapidamente all’aumentare del numero di molecole e dell’energia complessiva. Il numero di configurazioni
possibili per un sistema che si trova in uno stato energetico compreso tra E0 ed E0 + dE rappresenta il numero degli
stati accessibili Γ. Si definisce entropia del sistema la quantitá S = lnΓ.

Pertanto l’obiettivo è quello trovare una funzione di correlazione che coincide con quella del processo:
Z π
1
Px (ejkw )ejkw dw = rx (k); |k| < p
2π −π
E che massimizza l’entropia per |k| > p. Il valore di re (k) che massimizza l’entropia per |k| > p può
essere trovato effettuando la derivata di H(x) rispetto ad re∗ (k) e ponendola uguale a zero:
Z π
∂H(x) 1 1 ∂Px (ejw )
= dw; |k| > p
∂re∗ (k) 2π −π Px (ejw ) ∂re∗ (k)
Essendo
∂Px (ejw )
= ejkw
∂re∗ (k)
otteniamo Z π
1 1
ejkw dw = 0; |k| > p
2π −π Px (ejw )
1
Definendo Qx (ejw ) = Px (ejw ) abbiamo:
Z π
1
qx (k) = Qx (ejw )ejkw dw = 0; |k| > p
2π −π
Dunque
p
1 X
Qx (ejw ) = = qx (k)e−jkw
Px (ejw )
k=−p
e segue che lo spettro che massimizza l’entropia per un processo gaussiano, che denotiamo P̂mem (ejw )
è dato da:
1
P̂mem (ejw ) = Pp −jkw
k=−p x (k)e
q
Usando il teorema di fattorizzazione spettrale possiamo esprimere lo spettro di potenza come segue:
|b(0)|2
P̂mem (ejw ) = Pp −jkw |2
|1 − k=1 ap (k)e
Alternativamente, in termini dei vettori ap = [1, ap (1), ap (2), .....ap (p)]T ed e = [1, ejw , .....ejpw ]T lo
spettro MEM può essere riscritto come:
|b(0)|2
P̂mem (ejw ) =
|eH ap |2
Avendo determinato la forma dello spettro MEM non rimane che determinare i coefficienti ap (k)
e b(0). Questi coefficienti devono essre scelti in modo che l’inversa della trasformata di fourier a
tempo discreto di P̂mem (ejw ) produca una sequenza di autocorrelazione che uguagli il valore dato
di rx (k) per |k| < p. Pertanto i coefficienti ap (k) sono soluzione dell’equzione seguente in forma
matriciale:
R̄āp = r̄
ove
rx∗ (1) rx∗ (p)
 
rx (0) .....
∗

 rx (1) rx (0) ..... rx (p − 1) 

R̄ = 
 . . . . 

 . . . . 
rx (p) rx (p − 1) ..... rx (0)
e b(0) si ottiene dall’equazione detta di Yule-Walker:
p
X
|b(0)|2 = ap (k)rx∗ (k)
k=0

Esiste un’interessante relazione che lega la stima dello spettro MEM alla stima dello spettro MV:
lo spettro MV è la media armonica di spettri MEM fino all’ordine p.
p
1 1 X 1
(p)
= (k)
P̂M V (ejw ) p+1 P̂mem (ejw )
k=0
A causa di questo smoothing lo spettro MEM fornisce in genere una migliore risoluzione rispetto
allo spetttro MV.
B.1.8 Periodogramma di Lomb

XXXXXXXXXXXXXXXXX


Appendice C
Stima spettrale per applicazioni

biomediche - Metodi parametrici
Incorporando una conoscenza a priori nella stima dello spettro, cioé ipotizzando che il segnale in
oggetto sia modellabile opportunamente, si puó ottenere una migliore accuratezza e risoluzione dello
stesso.
Il primo passo é scegliere un modello appropriato in base alle informazioni disponibili sul processo
in esame (nel caso biomedico si intende un qualche modello fisiologico sottostante); oppure in base
a risultati sperimentali che indicano che il modello ‘funziona’. Una volta scelto il modello bisogna
stimarne i parametri. É importante tenere presente che un modello puó portare ad una stima errata
o fuorviante se il modello non rappresenta bene il processo che si vuole analizzare.
Nel seguito si considera il modello autoregressivo (Auto Regressive, AR) che risulta di particolare
importanza nel contesto dei segnali biomeidici.
C.1 Modello autoregressivo

Si dice che un segnale stazionario a media nulla x(n) é modellabile mediante un modello autore-
gressivo di ordine p se esso soddisfa la seguente equazione:
p
X p
X
x(n) = bk x(n − k) + w(n) → ak x(n − k) = w(n) (C.1)
k=1 k=0
2
dove w(n) é un processo aleatorio a media nulla, autocorrelazione impulsiva, di potenza σw (rumore
T T
bianco); ak = −bk e a0 = 1 o equivalentemente a = [1, a1 , ..., ap ] = [1, −b ].
Il segnale x(n) si puó veder pertanto come l’uscita di un filtro lineare di coefficienti ak al cui
ingresso sia w(n) (fig. C.1).
Figura C.1: Modello Auto Regressivo
207
Capitolo C. Stima spettrale per applicazioni biomediche - Metodi parametrici
Per calcolare i coefficienti ak determiniamo la autocorrelazione del segnale moltiplicando l’eq.

C.1 per x(n − l) e prendendo la media statistica (vedi [9]):
p
X
E[ ak x(n − k)x(n − l)] = E[w(n)x(n − l)]
k=0
p
X
ak E[x(n − k)x(n − l)] = E[w(n)x(n − l)]
k=0
p
X
ak rx (l − k) = 0, l > 0
k=0
avendo riconosciuto che E[w(n)x(n − l)] = 0 per l > 0 infatti il campione x(n − l) é incorrelato al
campione ‘futuro ’w(n).
Pp
Ponendo l = 1, 2, ..., p abbiamo p equazioni del tipo rx (l) = k=1 bk r(l − k) che possono essere
riassunte nel seguente sistema matriciale:
    
rx (0) rx (−1) ... rx (1 − p) b1 rx (1)
 rx (1)
 rx (0) ... rx (2 − p) 

 b2   rx (2) 
= 
 ... ... ... ...   ...   ... 
rx (p − 1) rx (p − 2) ... rx (0) bp rx (p)
Ponendo rx = [rx (1), rx (2), ..., rx (p)] e b = [b1 , b2 , ..., bp ], e riconoscendo che a primo membro cé
la matrice di autocorrelazione Rx si ha il sistema di equazioni di Yule-Walker :
Rx b = rx → b = R−1
x rx
2
Per calcolare σw ripartiamo dall’eq. C.1 e moltiplichiamola per w(n):
p
X p
X
2
E[w(n)x(n)] = E[w(n)( bk x(n − k) + w(n))] = bk E[w(n)x(n − k)] + E[w(n)w(n)] = σw
k=1 k=1
quindi ponendo l = 0 nell’eq. ?? si ha:
p
X
2 1
ak rx (−k) = σw ⇔ [rx (0), rTx ] = [rx (0), rTx ]a = σw
2
−b
k=0
Pertanto il sistema di Yule-Wlaker si puó scrivere in forma aumentata:
rTx rTx 2

rx (0) 1 rx (0) σw
= a=
rx Rx −b rx Rx 0
C.2 Stima dello spettro

Una volta calcolati i coefficienti del modello autoregressivo occorre determinare lo spettro del segnale
stocastico modellato. Con riferimento alla figura C.1 la trasformazione ingresso uscita del filtro é:
p
X
ak x(n − k) = w(n)
k=0
Z-trasformando otteniano:

C.3. PREDIZIONE LINEARE IN AVANTI
p
X p
X
−k
X(z) z ak = W (z) ⇔ X(z)[1 + z −k ak ] = W (z)
k=0 k=1
Pertanto la risposta in frequenza del filtro é:
X(z) 1
H(z) = = Pp
W (z) 1 + k=1 z −k ak
Adesso possiamo calcolare la stima dello spettro mediante la formula:
Sx (w) = Sw (w)|H(w)|2
Ove Sx (w) è la densità spettrale di potenza dell’uscita del filtro, Sw (w) è la densità spettrale di
potenza dell’ingresso del filtro, ed |H(w)|2 è la risposta in ampiezza del filtro. L’espressione dello
spettro, quindi, in funzione dei parametri del modello è la seguente:
2
σw
P̂AR (ejw ) = Pp −jkw |2
|1 + k=1 ak e
C.3 Predizione lineare in avanti

Nella modellazione autoregressiva si stimano i parametri del modello mediante le equazioni di Yule-
Walker. Il problema maggiore in queste equazioni é quello di stimare la matrice di autocorrelazione.
Infatti avendo a disposizione una unica realizzazione del segnale la stima sará affetta da un errore
piú o meno grande a seconda dell’espressione usata per stimarla.
La predizione lineare in avanti (Forward Linear Predicton, FLP) costituisce un modo alterna-
tivo di considerare il problema della modellazione autoregressiva. Partendo da un punta di vista
differente si arriva alle stesse equazioni di Yule-Walker. Tuttavia l’approccio é fruttuoso poiché
fornisce lo spunto per migliorare la stima dei parametri del modello anche senza stimare la matrice
di autocorrelazione.
Il campione corrente del segnale é stimato mediante una combinazione lineare dei precedenti p
campioni per opportuni pesi:
p
X
x̂(n) = bk x(n − k)
k=1
Posto:
b = [b1 ........bp ]T
x(n − 1) = [x(n − 1)........x(n − p)]T
l’equazione precedente si riscrive:
x̂(n) = bT x(n − 1)
La quantità seguente é detta errore quadratico di predizione in avanti:
p
X
fP (n) = x(n) − x̂(n) = x(n) − bk x(n − k)
k=1

Calcoliamo i coefficienti minimizzando l’errore quadratico di predizione in avanti (nel seguito si

usa il fatto che uno scalare é il trasposto di sé stesso):
p
X
E[|fP (n)|2 ] = E[|x(n) − bk x(n − k)|2 ] = E[(x(n) − bT x(n − 1))(xT (n) − xT (n − 1)b)] =
k=1
= E[|x(n)|2 + bT x(n − 1)xT (n − 1)b − bT x(n − 1)xT (n) − x(n)xT (n − 1)b] =

= σx2 + bT Rx b − bT rx − rTx b
Nell’ultima espressione rx é l’ autocorrelazione del campione corrente del segnale con i p cam-
pioni precedenti ed Rx é la matrice di autocorrelazione. Per calcolare i coefficienti che rendono
minimo l’errore quadratico medio occorre porre a zero il gradiente dell’errore calcolato rispetto ad
b (ricordando che la matrice di autocorrelazione é simmetrica):
∂fP
= 2Rx b − 2rx
∂b
pertanto ottengo che i coefficienti della predizione lineare in avanti sono pari ad:
b = R−1
x rx
Sostituendo tale espressione nell’espressione di E[|fP (n)|2 ]:
E[|fP (n)|2 ] = σx2 − bT rx
Quindi l’errore di predizione in avanti gioca il ruolo del rumore w(n)nel contesto del modello
autoregressivo.
C.4 Metodo dei minimi quadrati

L’approccio della predizione lineare ina vanti fornisce uno spunto per stimare i coefficienti dle
modello autoregressivo partendo direttamente dai dati senza passare per la stima della matrice di
autocorrelazione.
Come prima, il segnale x(n), é modellato come combinazione lineare dei p campioni agli istanti
precedenti:
p
X
x(n) = bk x(n − k) + e(n)
k=1
dove bk sono i parametri non conosciuti del modello e e(n) rappresenta l’errore di misura che é
dovuto alla natura statistica del fenomeno. L’errore si puó scrivere:
p
X
e(n) = x(n) − bk x(n − k) = x(n) − bT x(n − 1)
k=1
Nel metodo dei minimi quadrati (Least Squares) i pesi bk sono determinati minimizzando la
funzione di costo che consiste nella somma degli errori quadratici:
N
X N
X N
X
ξ= |e(n)|2 = e(n)eT (n) = [x(n) − bT x(n − 1)][x(n) − bT x(n − 1)]T
n=p n=p n=p

C.4. METODO DEI MINIMI QUADRATI
N
X N
X N
X N
X
= |x(n)|2 + bT x(n − 1)xT (n − 1)b − x(n)xT (n − 1)b − bT x(n − 1)x(n)
n=p n=p n=p n=p
Quindi poniamo a zero il gradiente rispetto a b:
N N
∂ξ X X
= bT x(n − 1)xT (n − 1) − x(n)xT (n − 1) = 0
∂b n=p n=p
ponendo
N
X
Φ= x(n − 1)xT (n − 1)
n=p
ed
N
X
r= x(n)x(n − 1)
n=p
si ha:
Φb = r
dove si é tenuto conto della simmetria di Φ. Le altre proprietá della matrice Φ sono elenca-
te di seguito e sonno facilmente dimostrabili, inoltre si rileva la similitudine con la matrice di
autocorrelazione:
• simmetrica : ΦT = Φ;
• definita non negativa : xT ΦT x = 0;
• gli autovalori sono reali e non negativi;
Introducendo la matrice A pari ad:

 
x(p − 1) x(p) ..... x(N − 1)
. . . .
AT = 
 

 . . . . 
x(0) x(1) ..... x(N − p)
e il vettore d :
d = [x(p), x(p + 1), ..., x(N )]T
Possiamo riscrivere Φ ed r come segue:
Φ = AT A
r = AT d
I parametri del modello si ottengono quindi come segue:
b = Φ−1 r = (AT A)−1 AT d

C.5 Metodo FBLP

Possiamo anche effettuare una predizione lineare all’indietro, in altre parole il campione x(n − p)
é una combinazione lineare dei p campioni futuri . Si denota in questo caso l’errore di predizione
all’indietro che è pari:
p
X
bp (n) = x(n − p) − bk x(n − p + k)] = x(n − p) − x(n)b
k=1
dove xn è pari:
x(n) = [x(n − p + 1), ..., x(n)]
Pertanto, con operazione analoghe possiamo calcolare i coefficienti b che minimizzino l’errore
di predizione all’indietro. Per ottenere una stima migliore dei coefficienti possiamo minimizzare il
valore dell’errore seguente relativo ad una predizione sia in avanti che all’indietro (Forward and
Backwar Linear Prediction, vedi [9]):
N
X
ξ= [|fM (n)|2 + |bM (n)|2 ]
n=p+1
In questo caso i coefficienti b sono pari ad:
b = (AT A)−1 AT d
Ove AT è la seguente matrice:
 
x(p) ... x(N − 1) x(2) x(3) ... x(N − p + 1)
T
 . . . . . . . 
A =
 .

. . . . . . 
x(1) ... x(N − p) x(p + 1) x(p + 2) ... x(N )
e d il seguente vettore:
dT = [x(p + 1), ..., x(N ), x(1), ..., x(N − p)]
C.5.1 Selezione dell’ordine del modello

Se l’ordine è troppo piccolo lo spettro sarà smussato ed avrà una risoluzione povera. Se l’ordine è
troppo elevato ci possono essere dei picchi spuri. Un approccio potrebbe essere quello di aumentare
l’ordine del modello fintanto che l’errore non è minimizzato. Tuttavia l’errore è una funzione non
decrescente del modello per cui l’errore tende a zero quando l’ordine tende ad infinito. Per superare
questo problema si aggiunge una funzione di penalità per non far crescere troppo l’ordine del
modello:
C(p) = N log p + f (N )p
dove N è la lunghezza della sequenza dei dati, p è l’errore, è una costante dipendente da N . L’idea
quindi è selezionare il valore di p che minimizza C(p).
Sono stati proposti vari criteri in letteratura per la scelta dell’ordine ottimo p:
• Akaike Information Criterion: N log p + 2p
• Minimum Description Length: N log p + p log(N )

C.6. STIMA DI FREQUENZA
Questi criteri sono basati sulla minimizzazione dell’errore quadratico medio. Il criterio di Akaike da
una stima inferiore quando è applicato a processi non AR e tende a sovrastimare l’ordine quando N
cresce. Il criterio MDL è uno stimatore consistente, cioè tende al vero valore di p quando N tende
all’infinito. Nessuno dei criteri funziona bene con sequenze brevi.
C.6 Stima di frequenza

Il segnale x(n) puó essere modellato come somma di p esponenziali complessi con l’aggiunta di un
rumore bianco a media nulla ed incorrelato con il segnale,
p
X
x(n) = Ak ejnωk + w(n)
k=1
ove le ampiezze degli esponenziali complessi sono pari ad Ak = |Ak |ejφk con φk variabili aleatorie
incorrelate ed uniformemte distribuite in [−π, +π]. Le frequenze e le ampiezze sono incognite ma
deterministiche.
C.6.1 Caso di una sinusoide

Consideriamo prima il caso di una sola sinusoide
x(n) = A1 ejnω1 + w(n)
la sequenza di autocorrelazione di x(n) é
rx (k) = P1 ejkω1 + σ 2 δ(k)
con P1 = |A1 |2 potenza dell’esponenziale complesso. La matrice di autocorrelazione di ordine M

di x(n) é la somma della matrice di autocorrelazione di ordine M del segnale, Rs , e la matrice di
autocorrelazione del rumore, Rw ,
Rx = Rs + Rw
dove la matrice di autocorrelazione del segnale é
e−jω1 ... ej(1−M )ω1

   
rs (0) rs (−1) ... rs (1 − M ) 1
 rs (1) rs (0) ... rs (2 − M )   ejω1 1 ... ej(2−M )ω1 
Rs =   = P1  
 ... ... ... ...   ... ... ... ... 
rs (M − 1) rs (M − 2) ... rs (0) ej(M −1)ω1 ej(M −2)ω1 ... 1
Questa ha rango pari ad uno (moltiplicando la prima riga per ejnω con n = 1, ..., M − 1 si
ottengono le altre righe) mentre la matrice di autocorrelazione del rumore é Rw = σ 2 I ha rango
pieno. Ponendo e1 = [1, ejω1 , .......ej(M −1)ω1 ]T la matrice Rs si puó riscrivere come segue:
Rs = P1 e1 eH
1
Come noto il rango della matrice é pari al numero degli autovalori non nulli. Essendo il rango di
tale matrice pari ad uno questa ha solamente un autovalore non nullo che si puó individuare come
segue
Rs e1 = P1 e1 eH
1 e1 = P1 e1 M

pertanto l’unico autovalore non nullo è pari ad M P1 ed e1 é l’autovettore corrispondente. Essendo

la matrice Rs hermitiana i rimanenti autovettori v2 , v3 , ...., vM sono tutti ortogonali ad e1 ,
eH
1 vi = 0; i = 2, ..., M
Possiamo calcolare gli autovalori e autovettori di Rx
Rx vi = (Rs + σ 2 IM )vi = λsi vi + σ 2 vi
Dunque gli autovettori di Rx sono gli stessi di Rs ;
λi = λsi + σ 2
Il piu alto autovalore di Rx é λmax = M P1 + σ 2 mentre i rimanenti M − 1 sono uguali a σ 2 .

Dunque é possibile estrarre tutti i parametri di interesse di x(n) dagli autovalori e dagli autovettori
di Rx come segue:
• λmin = σ 2
λmax −λmin
• P1 = M
• w1 = arg[vmax (1)]
Poiché Rx non é nota, ma solo una sua stima, allora gli autovalori saranno soltanto ‘vicini’a
quelli teorici. Pertanto per stimare la frequenza conviene procedere come segue. Ricordiamo che
e1 é ortogonale allo spazio degli autovettori associati all’autovalore nullo, pertanto se calcoliamo la
trasformata di Fourier di vi (k) come segue:
M
X −1
jω
Vi (e ) = vi (k)e−jkω = eH vi
k=0
questa avrá un nullo alla frequenza ω = ω1 , frequenza alla quale si verifica la condizione eH
1 vi = 0.
Quindi una stima dello spettro puó essere calcolata introducendo la seguente funzione
1
P̂i (ejω ) = PM −1
| k=0 vi (k)e−jkω |2
che ha un picco alla frequenza ω = ω1 . Infine per migliorare la stima é possibile mediare sugli
autovettori
1
P̂i (ejω ) = PM
i=2 αi |eH vi |2
dove gli αi sono scelti arbitrariamente costanti.
C.6.2 Caso di p sinusoidi

Consideriamo il caso di p sinusoidi piú rumore bianco, l’autocorrelazione si scrive:
p
X
rx (k) = Pi ejkωi + σ 2 δ(k)
i=1
Dunque la matrice di autocorrelazione puó essere scritta come segue

C.6. STIMA DI FREQUENZA
p
X
Rx = Pi ei eH 2
i +σ I
i=1
Possiamo riscrivere la matrice di autocorrelazione come segue
Rx = EPEH + σ 2 I
dove E = [e1 , e2 , ......, ep ] P = diag[P1 , ......., Pp ]. Anche in questo caso gli autovettori di Rx sono
quelli di Rs : poiché Rs ha rango p i primi p autovalori saranno maggiori di σ 2 e gli altri M − p
saranno uguali a σ 2 . Per cui gli autovettori si possono dividere in due classi: segnale e rumore. Per
il teorema spettrale si può scrivere:
p
X M
X
Rx = (λsi + σ 2 )vi viH + σ 2 vi viH
i=1 i=p+1
Gli autovettori del segnale v1 , ..., vp non sono, come nel caso di una sinusoide, e1 , ..., ep , tuttavia
questi ultimi giacciono nel sotto-spazio vettoriale generato dagli autovettori del segnale, e quindi
saranno ancora ortogonali agli autovettori legati al rumore eH i vk per i = 1, ......, p e k = p+1, ...., M .
Per cui la funzione di stima della frequenza sarà
1
P̂i (ejω ) = PM
i=p+1 αi |eH vi |2
C.6.3 Metodo di Pisarenko

Pisarenko (vedi [8]) ha proposto il seguente metodo basato sulle premesse precedenti: supponiamo
di conoscere il numero p di sinusoidi e costruiamo la matrice di correlazione di ordine p+1.Sappiamo
che vi sará soltanto un autovalore (il minimo) legato al rumore, ortogonale agli autovalori di segnale.
La funzione per la stima dello spettro sará:
1
P̂i (ejω ) =
|eH vmin |2
questo avrá dei picchi alle frequenze dei p esponenziali complessi.
C.6.4 MUSIC
L’acronimo sta per MUltiple SIgnal Classification. Sia Rx la matrice di ordine M > p + 1. Ar-
rangiamo gli autovalori in ordine decrescente. Avremo p autovettori associati agli autovalori piú
grandi (che corrispondono agli autovalori del segnale) e gli altri M − p di rumore. Per stimare la
varianza del rumore possiamo mediare gli autovalori di rumore:
M
1 X
σ2 = λi
M − p i=p+1
La funzione di stima delle frequenze:
1
P̂i (ejω ) = PM
i=p+1 |eH vi |2


Appendice D
Filtri adattativi per applicazioni

biomediche
I filtri adattivi possono essere ottenuti dalla struttura generale del filtro di Wiener. Pertanto nel
seguito si esamina prima il filtro di Wiener e da esso si derivano considerazioni sui filtri adattativi.
D.1 Filtro di Wiener

L’obiettivo del filtraggio di Wiener é ottenere la migliore stima possibile di un segnale secondo un
opportuno criterio di ottimo.
I filtraggio di Wiener é caratterizzati dalle seguenti assunzioni (vedi figura D.1 ):
• il segnale in ingresso al filtro u(n) é SSL a media nulla
• il filtro é di tipo FIR
• il segnale d(n) é SSL a media nulla
• é nota la matrice di autocorrelazione di u(n)
• é nota la mutua correlazione tra u(n) e d(n)
• il criterio di ottimo é il minimo errore quadratico medio.
Per ricavare i coefficienti del filtro di Wiener ottimo, consideriamo un segnale u(n) in ingresso ad
ˆ (l’accento
un FIR di ordine M e con coefficienti w0 , w1 , ..., wM −1 l’uscita del filtro, indicata con d(n)
circonflesso indica che si tratta di una stima del segnale desiderato) é data dall’espressione:
Figura D.1: Filtro di Wiener
217
Capitolo D. Filtri adattativi per applicazioni biomediche
M
X −1
ˆ =
d(n) wk u(n − k)
k=0
.
Si assume che sia l’ingresso u(n), sia la risposta desiderata d(n) siano processi stazionari in senso
lato a media nulla. Poniamo:
w = [w0 , w1 , ..., wM −1 ]T
u(n) = [u(n), u(n − 1), ..., u(n − M + 1)]T
la stima della risposta desiderata si scrive come prodotto scalare del segnale u(n) con i coefficienti
del filtro di Wiener, secondo la relazione:
ˆ = wT u(n) = uT (n)w
d(n)
L’errore é definito come la differenza tra il segnale desiderato d(n) e l’uscita del filtro come
segue:
ˆ = d(n) − wT u(n)
e(n) = d(n) − d(n)
Si sceglie di cercare la soluzione ottima del problema minimizzando la funzione di costo:
J = E[|e(n)|2 ]
Possiamo, dunque, definire la funzione di costo come l’errore quadratico medio. Il problema,
quindi, consiste nel determinare le condizioni operative per le quali si ottiene il valore minimo per
J.
Consideiamo l’espressione di J in funzione di w:
J = E[e(n)eT (n)] = E[{d(n) − wT u(n)}{d(n) − uT (n)w}] =

= E[|d(n)|2 ] − wT E[u(n)d(n)] − E[d(n)uT (n)]w + wT E[u(n)uT (n)]w =
= σd2 − wT p − pT w + wT Rw
ove il vettore p denota la cross-correlazione tra il segnale d’ingresso u(n) e la risposta desiderata
d(n):
p = E[u(n)d(n)]
Nella forma estesa, abbiamo:
p = [p(0), p(−1), ....., p(1 − M )]T
Mentre R denota la matrice di correlazione degli ingressi u(n), u(n − 1), .....,u(n − M + 1):
R = E[u(n)uT (n)]
Nella forma estesa, abbiamo:

 
r(0) r(1) ..... r(M − 1)

 r(−1) r(0) ..... r(M − 2) 

R=
 . . . . 

 . . . . 
r(1 − M ) r(2 − M ) ..... r(0)

D.1. FILTRO DI WIENER
che é simmetrica in quanto r(n) = r(−n) Calcoliamo il minimo della funzione di costo effet-
tuandone il gradiente e calcolando dove esso si annulla.
∂J
= −2p + 2Rw = 0
∂w
wo = R−1 p
Tale equazione viene detta di Wiener-Hoptf ; wo , denota il vettore dei pesi ottimi :
wo = [wo0 , wo1 , ...., woM −1 ]T
Pertanto la realizzazione del filtro ottimo di Wiener richiede la conoscenza di due quantitá:
• la matrice di correlazione R;
• il vettore di cross-correlazione p.
D.1.1 Il principio di ortogonalitá

Un’ importante osservazione riguarda il cosiddetto principio di ortogonalitá per il quale l’errore
del filtro ottimo di Wiener é ortogonale sia ai dati che alla stima. Infatti si puó dimostrare che la
correlazione tra l’errore e i dati e tra l’errore e la stima é nulla:
E[u(n)eo (n)] = E[u(n)(d(n) − uT (n)wo )] = p − Rwo = 0

ˆ
E[eo (n)d(n)] = E[(d(n) − wT u(n))uT (n)wo ] = pT wo − wT Rwo
o o
T T
= (p − wo R)wo =0
D.1.2 Comportamento del filtro in presenza di rumore

É importante capire come si comportano i coefficienti dei filtro quando all’ingresso vi é segnale u(n)
piú rumore additivo η(n) incorrelato col segnale u(n) = d(n) + η(n).
Per osservare il comportamento del filtro in queste circostanze possiamo derivare un’espressione
della densitá spettrale di potenza tra il segnale e la risposta desiderata.
Ricordando che
p = Rwo
é possibile derivare la seguente espressione per la sequenza di cross-correlazione:
M
X −1
p(k) = wom r(k − m)
m=0
pertanto trasformando secondo Fourier otteniamo
Sud (ω) = Suu (ω)Wo (ω)
Sfruttando l’ipotesi di segnale e rumore incorrelati si ha:
ruu (m) = rdd (m) + rηη (m) → Suu (ω) = Sdd (ω) + Sηη (ω)
inoltre sempre grazie all’incorrelazione segnale rumore ho:
rud (m) = rdd (m) → Sud(ω) = Sdd (ω).

Grazie a tali espressioni ricaviamo
Sud (ω) Sdd (ω)

W (ω) = =
Suu (ω) Sdd (ω) + Sηη (ω)
Quest’ultima eguaglianza ci mostra che se il contributo del rumore é trascurabile allora i coef-
ficienti del filtro ottimo sono tali che la loro trasformata di Fourier é unitaria. Quindi il segnale é
filtrato con un filtro di guadagno unitario ed rimane inalterato.
Se invece il contributo di rumore é alto allora il filtro di Wiener si comporta da filtro equalizzatore
con risposta in frequenza circa pari ad
1
W (ω) '
Sηη (ω)
In modo da ridurre il piú possibile il contributo di rumore.
D.1.3 Superficie di errore

Siamo interessati ad analizzare la superficie di errore, cioé il valore che assume la funzione costo J
al variare dei pesi w. Posto Jmin = σd2 − woH Rwo possiamo scrivere:
J(w) = Jmin + (w − wo )H R(w − wo )
Scrivendo quindi la matrice di autocorrelazione come

R = QΛQT
otteniamo:
J = Jmin + (w − wo )QΛQH (w − wo ) = Jmin + vH Λv
dove v = QH (w − wo )
M
X −1
J = Jmin + λ(k)vk vk∗
k=0
La superficie di errore é descritta da una forma quadratica ove le componenti del vettore vk
ne rappresentano gli assi principali. Il minimo del paraboloide é raggiunto in corrispondenza dei
coefficienti del filtro di Wiener.
D.1.4 Legame con il modello autoregressivo e la predizione lineare

Nella predizione lineare in avanti l’obiettivo é trovare i coefficienti del filtro AR in modo da stimare
il campione futuro sulla base di p campioni precedenti.
Infatti se assumiamo che la risposta desiderata coincida con il campione futuro che dobbiamo
stimare nel modello AR il calcolo dei coefficienti che minimizzano l’errore quadratico medio sono
ottenibile mediante l’equazione di Wiener-Hopf:
M
X −1
ˆ = u(n) − d(n)
e(n) = d(n) − d(n) ˆ = u(n) − wk u(n − k)
k=0
= u(n) − wT u(n) = fM (n)

D.2. L’ALGORITMO STEEPEST DESCENT
Quindi si ottiene la seguente equazione da cui si ricavano i parametri del modello:
Rw = r
Ove r in questo caso è il vettore di autocorrelazione del segnale. Infine possiamo esprimere in
forma estesa l’equazione di Wiener-Hopf come segue se calcoliamo la potenza del segnale quando il
filtro è ottimizzato
P m = Jmin = E[|e(n)|2 ] = σd2 − woH Rwo = r(0) − rH wo

r(0) rH

1 Pm
=
r R −w 0
D.2 L’algoritmo Steepest Descent

Si vuole cercare una soluzione numerica all’equazione Wiener-Hopf Rwo = p. Una soluzione
deterministica al problema può essere data dal metodo steepest descent. Il metodo consiste nella
creazione di una successione di vettori w(n) che tendono alla soluzione ottima t.c. J(wo ) 5 J(w).
La successione w(n) dell’algoritmo è generata nel seguente modo:
w(n + 1) = w(n) − µ∇J(n)
dove e µ è chiamato step-size parameter ed è utilizzato per controllare il passo di avanzamendo del
metodo. Sia dato un ingresso u(n) stazionario in senso lato con media nulla e matrice di correlazione
R. Dal momento che il gradiente risulta essere ∇J(n) = −2p+2Rw(n). L’equazione diviene quindi:
w(n + 1) = w(n) + µ[p − Rw]
n = 0,1, . . .Volendo investigare le condizioni di convergenza dell’algoritmo iterativo si può procedere

come segue: sottraiamo ambo i memmbri w0 e poniamo
c(n) = w(n) − wo
Otteniamo c(n + 1) = (I − µR)c(n) e scomponendo agli autovalori la matrice di autocorrelazione

si ottiene:
c(n + 1) = (I − µQH ΛQ)c(n)
Siccome QH Q = I questà è una proprietà delle matrici ortogonali ed Q essendo la matrice degli
autovettori della matrice di autocorrelazione è ortogonale. Pertanto
c(n + 1) = (I − µQH ΛQ)c(n) = (QH Q − µQH ΛQ)c(n) = Q(I − µΛ)QH c(n)
posto v(n) = QH c(n) l’espressione precedente diventa
v(n + 1) = (I − µΛ)v(n)
quest’ultima rappresenta un’equazione alle differenze centrali pertanto
vk (n + 1) = (1 − µλk )vk (n)
Iterando otteniamo
vk (n + 1) = (1 − µλk )n vk (0)
Si evince quindi la condizione di convergenza: la ragione della successione vista prima deve essere
in valore assoluto minore di 1. Quindi:
−1 < 1 − µλk < 1

2
0<µ<
λmax

D.3 Filtro LMS

LMS è un algoritmo stocastico per la soluzione del problema di Wiener in modo adattativo men-
tre lo steepest descent è un algoritmo che usa un gradiente deterministico per avvicinarsi a wo .
L’LMS è particolarmente interessante perchè risulta molto semplice. Sfrutta il concetto di processo
adattativo: variazione dei pesi del filtro in funzione dell’errore e(n).
Tale algoritmo nasce per l’impossibilità, in generale di conoscere le caratteristiche spettrali del
segnale ovvero conoscerne la matrice di autocorrelazione R e il vettore, p, di cross-correlazione
tra il segnale in ingresso e la risposta desiderata. Necessariamente il gradiente deve essere stimato
a partire dai dati stessi. Per sviluppare una stima del vettore gradiente ∇(J(n)), la più ovvia
strategia è sostituire delle stime della matrice di autocorrelazione e del vettore di cross-correlazione
nella formula che segue:
∇(J(n)) = −2p + 2Rw(n)
La scelta più semplice per stimare R e p è usare stime istantanee che sono basate sui valori assunti,
istante per istante, dal segnale d’ingresso u(n) e dalla risposta desiderata d(n):
R̂(n) = u(n)uT (n)
p̂(n) = u(n)d∗ (n)

Conseguentemente otteniamo che il gradiente si calcola come segue:
∇(J(n)) = −2u(n)d∗ (n) + 2u(n)uT (n)ŵ(n)
Pertanto la relazione ricorsiva che permette di calcolare i pesi all’ istante n+1 noti i coefficienti
all’istante n è la seguente:
ŵ(n + 1) = ŵ(n) + µu(n)[d∗ (n) − uT (n)ŵ(n)]
L’algoritmo LMS può quindi essere riassunto come segue:
• Uscita del filtro y(n) = ŵT (n)u(n);

• Stima dell’errore e(n) = d(n) − y(n);
• Pesi del filtro adattativo ŵ(n + 1) = ŵ(n) + µ(u(n))e∗ (n).
Volendo investigare le condizioni di convergenza in questo caso dobbiamo procedere in altro modo
ovvero dobbiamo calcolare necessariamente la media dei w(n + 1) come segue
E[ŵ(n + 1)] = E[ŵ(n)] + µE[u(n)d∗ (n)] − µE[u(n)uT (n)ŵ(n)]
= E[ŵ(n)] + µp − µRE[ŵ(n)]
In quest’ultima espressione abbiamo assunto che u(n) ed w(n) siano incorrelati di modo che la
media del prodotto di questi è il prodotto delle medie. Se sottraiamo ambo i membri wo e posto
c(n) = E[w(n) − wo ] otteniamo
c(n + 1) = c(n)[I − µR]
Pertanto effettuando gli stessi passaggi fatti per lo steepest descent riotteniamo che per garantire
la convergenza dell’algoritmo
2
0<µ<
λmax
però in questo caso la convergenza è in media ovvero al tendere di n ad infinito otteniamo
E[w(n)] → wo
Però essendo la convergenza in media l’algoritmo oscilla intorno al valore minimo della superficie
di errore.

D.4. FILTRO RECURSIVE LEAST-SQUARES O RLS
D.4 Filtro Recursive Least-Squares o RLS

Dalla teoria dei filtri least squares discende un particolare filtro noto come Recursive Least Square o
RLS. Partendo dalle equazioni base dei least squares è possibile applicare il matrix inversion lemma
per ottenere un filtro least squares ricorsivo. L’RLS possiede una velocità di convergenza un ordine
di grandezza maggiore di quella di un comune LMS. L’idea di base dell’RLS è quella di rendere
ricorsivo un filtro LS, altrimenti applicato a blocchi: si vuole partire dalle condizioni iniziali per poi
aggiornare, con i nuovi campioni, le vecchie stime dei parametri calcolati. La funzione costo che si
vuole minimizzare è:
Xn
E(n) = β(n, i)|e(i)|2
i=1
dove e(i) è la differenza tra la risposta desiderata d(i) e l’uscita y(i) prodotta da un filtro trasversale
con ingressi uguali ad u(i), u(i-1),....,u(i-M+1),come mostrato in figura 3; ed 0 < β(n, i) ≤ 1 con i
= 1,2,...,n, che rappresenta il fattore peso.
Assunzioni:
• i pesi w(n) rimangono fissi nell’intervallo di osservazione e(i) = d(i) − wH (n)u(i), 1 ≤ i ≤ n;

• il fattore peso β(n, i) viene usato come forgetting factor per poter inseguire più efficacemente
i cambiamenti in ambiente non stazionario;
• normalmente β(n, i) = λn−i con i=1,2,....,n. Quando λ = 1 ritorniamo al metodo ordinario
dei least squares.
Il problema LS è un problema ”mal posto”. Per ottenere una stima ”ben posta” è necessario variare
la funzione costo da minimizzare:
Xn
E(n) = λn−i |e(i)|2
i=1
Il valore ottimo dei valori degli elementi del vettore ŵ(n), per il quale la funzione costo assume il
suo valore minimo è definito dall’equazione scritta nella forma matriciale come segue:
Φ(n)ŵ(n) = z(n)
ove la matrice di correlazione Φ(n) è definita come segue

n
X
Φ(n) = λn−i u(i)uH (i)
i=1
e il vettore di cross-correlazione z(n) tra gli ingressi del filtro trasversale e la risposta desiderata
come
X n
z(n) = λn−1 u(i)d∗ (i)
i=1
L’idea è ora di poter aggiornare il valore di Φ e di z mano a mano che in ingresso si presentano dei
nuovi campioni. Isolando il termine per i=n dal resto delle sommatorie si può riscrivere:
n−i
X
Φ(n) = λ λn−i−1 u(i)uH (i) + u(n)uH (n)
i=1
ove
n−1
X
λn−i−1 u(i)uH (i) = Φ(n − 1)
i=1
pertanto si ottine la seguente forma ricorsiva:
Φ(n) = λΦ(n − 1) + u(n)uH (n)

Similmente
z(n) = λz(n − 1) + u(n)d∗ (n)
Per calcolare la stima dei coefficieni del filtro ŵ(n) occorre determinare l’inversa della matrice Φ(n).
La soluzione a questo problema viene ottenuta applicando il matrix inversion lemma per il quale:
A = B −1 + CD−1 C H
A−1 = B − BC(D + C H BC)−1 C H B

Imponendo quindi che A = Φ(n), B −1 = λΦ(n − 1), C = u(n) e D=1 otteniamo:
λ−2 Φ−1 (n − 1)u(n)uH (n)Φ−1 (n − 1)

Φ−1 (n) = λ−1 Φ−1 (n − 1) −
1 + λ−1 uH (n)Φ−1 (n − 1)u(n)
Ponendo per semplicità

P(n) = Φ−1 (n)
e
λ−1 P(n − 1)u(n)
k(n) =
1 + λ−1 uH (n)P(n − 1)u(n)
Usando questa definizione otteniamo:
P(n) = λ−1 P(n − 1) − λ−1 k(n)uH (n)P(n − 1)
Riarrangiando la definizione del vettore k(n) si ottiene:
k(n) = P(n)u(n) = Φ−1 (n)u(n)
Non manca che ottenere l’espressione ricorsiva per il calcolo di ŵ(n)
ŵ(n) = Φ−1 (n)z(n) = P(n)z(n) = λP(n)z(n − 1) + P(n)u(n)d∗ (n)
Sostituendo l’espressione di P nell’equazione appena ottenuta e sviluppando i calcoli:
ŵ(n) = ŵ(n − 1) + k(n)[d∗ (n) − uH (n)ŵ(n − 1)] = ŵ(n − 1) + k(n)ξ ∗ (n)
dove ξ(n) è la stima dell’errore a priori ed è definito come segue:
ξ(n) = d(n) − uT (n)ŵ∗ (n − 1) = d(n) − ŵH (n − 1)u(n)
L’algoritmo RLS in breve:
• Inizializzazione dell’algoritmo imponendo:
ŵ(0) = 0
P (0) = δ −1 I
con δ piccolo per elevati valori di SNR e grande per valori bassi.
• Ad ogni passo dell’algoritmo occorre calcolare:
λ−1 P(n − 1)u(n)

k(n) =
1 + λ−1 uH (n)P(n − 1)u(n)
ξ(n) = d(n) − ŵH (n − 1)u(n)

ŵ(n) = ŵ(n − 1) + k(n)ξ ∗ (n)
P(n) = λ−1 P(n − 1) − λ−1 k(n)uH (n)P(n − 1)

D.5. ADAPTIVE NOISE CANCELING
D.5 Adaptive Noise Canceling

I filtri adattativi possono essere usati per inseguire le non stazionarietd́el segnale. Per tale aspetto
vengono usati nelle stime spettrali, in tal caso invece di suddividere il segnale in segmenti in cui puó
essere ritenuto stazionario e se ne calcola lo spettro in questi segmenti si calcola la stima spettrale
istante per istante con un filtro che si adatta alle variazione del segnale. Inoltre questi filtri sono
anche usati per la cancellazione adattativa del rumore. Usualmente il metodo per stimare un segnale
corrotto da rumore è sottoporlo ad un filtraggio che tende a sopprimere il rumore e lasciare il segnale
relativamente inalterato. I filtri a tale scopo possono essere fissi ed adattativi. I primi si basano su
una conoscenza a priori del segnale e del rumore, i secondi aggiustano i parametri automaticamente
e il loro disegno richiede poca o nessuna conoscenza a priori sul segnale e sul rumore. Supponiamo
che al segnale s è sommato un rumore n0 incorrelato col segnale stesso per eliminare tale contributo
si utilizza un filtro adattativo al cui ingresso è posto il rumore n1 proporzionale ad n0 ed anch’ esso
incorrelato con il segnale. Se sottraiamo l’uscita del filtro alla risposta desiderata che è la somma
del segnale ed n0 dovremmo ottenerla presumibilmente il segnale senza rumore.
Infatti un filtro adattativo si basa sulla minimizzazione dell’errore quadratico medio che in questo
caso rappresenta il segnale
z = s + n0 − y
Supponedo che sia s che n0 che n1 siamo stazionari in senso lato ed a media nulla la quantità da
minimizzare è la seguente:
E[z 2 ] = E[s2 ] + E[(n0 − y)2 ]
Pertanto la quantità da minimizzare in realtà è E[(n0 − y)2 ] non potendo minimizzare E[s2 ], que-
sto porta ad avvicinare l’uscita y al rumore pertanto avremo che z è presumibilmente vicino al
segnale vero. Tale approccio può essere utilizzato in due situazioni di interesse. La prima riguarda
l’eliminazione dell’interferenza di rete dal segnale elettrocardiogramma.
La seconda applicazione d’interesse riguarda la cancellazione adattativa del rumore nel contesto
della separazione dell’ecg fetale dall’ecg materno piú fetale. In questo caso il segnale all’ingresso del
filtro é l’ecg materno mentre la risposta desiderata é la somma dell’ecg fetale piú l’ecg materno.


Bibliografia
[1] Marchesi C., Tecniche numeriche per l’analisi dei segnali biomedici, Pitagora Editrice
Bologna, 1992
[2] Tompkins W.J., Biomedical Digital Signal Processing, Prentice Hall, 1993
[3] Semmlow J.L., Biosignal and Biomedical Image Processing - Matlab application,
Marcel Dekker, 2004
[4] Malmivuo J., Plonsey R., Bioelectromagnetism - Principles and Applica-
tions of Bioelectric and Biomagnetic Fields http://butler.cc.tut.fi/ malmi-
vuo/bem/book/index.htm
[5] Bendat J, Piersol A., Random data - Analysis, Measurement, Procedures, Wiley
Interscience , 1986
[6] Kay S.M., Marple S.L., Spectrum analysis: a modern perspective, IEEE, 1981, 69
(11):1 380-419
[7] Oppenheim A.V., Willsky A.S., Nawab S.H., Signal and Systems, Prentice Hall
[8] Hayes M., Statistical Digital Signal Processing And Modelling, Wiley Interscience,
1996
[9] Haykin S., Adaptive Filter Theory, Prentice Hall International Editions, 1996
[10] Jolliffe I.T., Principal components Analysis, Springer, 2002
[11] Hyvarinene, A, Karhunen J., Oja E., Independent component analysis Wiley
Interscience Publiucations, 2001
[12] Shwedik E, Balasubramamian R, Scott RN, A non stationary model for the
electromyogram IEEE Trans on Biomedical Engineering, vol-24, settembre 1977
[13] Papoulis A, Probability, Randome Variables and Stochastic Processes, Mc-Graw Hill,
1991
[14] Savitzky A. and Golay M., Smoothing and Differentiation of Data by simplified Least
Squares Procedures Analytical Chemistry, vol. 36, no.8, july 1964
[15] Pan J and Tompkins WJ, A Real Time QRS detection algorithm IEEE Trans on
Biomed Engineering, vol. 32, no. 3, march 1985
[16] Task Force of ESC and NASPE, Heart rate variability, standards of measurements,
physiological interpretation and clinical use, European Heart Journal (1996) 17, 354-
381
[17] Merri M, Farden DC, Mottley JG, Titlebaum EL, Samplimng frequency of the electro-
cardiogram for spectral analysis of the heart rate variability IEEE Trans on Biomedical
Engineering, vol.37, n.1 january 1990
227
BIBLIOGRAFIA
[18] Brennan M, Palaniswami M, Kamen P, Do Existing Measures of poincaré Plot Geo-

metry Reflect Nonlinear Features of Heart Rate Variability?, IEEE Trans Biomed eng,
vol. 48, no. 11, november 2001, pp1342-1347
[19] Agarwal GC, Gottlieb GL, An Analysis of the Electromyogram by Fourier, Simulation
and Experimental Techniques, IEEE Transactions on Biomedical Engineering, Volume
BME-22, Issue 3, May 1975 Page(s):225 - 229
[20] Vander, Sherman, Luciano, Human physiology - the mechanisms of nody function,
Internationa Edition, McGraw-Hill, 1994
[21] Castiglioni P, Di Rienzo M, How to check steady-state condition from cardiovascular

time series Physiool. Meas. 25 (2004) 985-996
[22] Beck TW, Housh TJ, Weir JP, Cramer JT, Vardaxis V, Johnson GO, coburn JW,
Malek MH, Mielke M, An examination of the runs test, reverse arrangement test
and modified reverese arrangement test for assessing surface EMG signal stationarity
Journal of Neuroscience Methods, 156 (2006) 242-248
[23] Manolakis DG, Ingle VK, kogon SM, Statistical and adaptive signal processing Artech
House, 2005
[24] Hoel PG, Introduction to mathematical statistics John wiley and Sons, 1966
[25] Lessard CS, Signal processing of random physiological signals Morgan & Claypol
Publisher, 2006
[26] Cohen A, Kovacevic J, Wavelets: The Mathematical Background Proceedings of The

IEEE, vol. 84, no.4, April 1996
[27] unser M, Aldroubi A, A review of wavelets in biomedical applications Proceedings of

The IEEE, vol. 84, no.4, April 1996
[28] A. Jackson, D. L. Buckley, G. J. M. Parker et al. Dynamic Contrast-Enhanced

Magnetic Resonance Imaging in Oncology. Springer 2005
[29] AR Padhani “Dynamic contrast-enhanced MRI studies in human tumours”, Br J

Radiol , vol. 72, pp. 427-431, 1999.
[30] AR Padhani “Dynamic contrast-enhanced MRI in clinical oncology: current status

and future directions”, J Magn Reson Imaging, vol. 16, pp. 407-422, 2002.
[31] L. Choyke, A. J. Dwyer, M. V. Knopp “Functional Tumor Imaging With Dynamic

Contrast-Enhanced Magnetic Resonance Imaging”, Journal of Resonance Imaging,
vol. 17, pp. 509-520, 2003.
[32] P. Tofts, BA. Berkowitz “Measurement of capillary permeability from the Gd enhan-
cement curve: a comparison of bolus and constant infusion injection methods” Magn
Reson Imaging, vol. 12, pp. 81-91, 1994.
[33] P. Tofts, G. Brix, DL. Buckley, JL. Evelhoch, E. Henderson,MV. Knopp,et al. “Esti-
mating kinetic parameters from dynamic contrast enhanced T1-w MRI of a diffusible
tracer: standardized quantities and symbols”, J Magn Reson Imaging, vol. 10, pp.
223-232, 1999.
[34] JU. Harrer, GJ. Parker,HA. Haroon,DL. Buckley, K. Embelton, C. Roberts, et al.
“Comparative study of methods for determining vascular permeability and blood
volume in human gliomas”, J Magn Reson Imaging, vol. 20, pp. 748-757, 2004.
[35] DL. Buckley “Uncertainty in the analysis of tracer kinetics using dynamic contrast
enhanced T1-weighted MRI”, Magn Reson Med, vol. 47, pp. 601-606, 2002.

BIBLIOGRAFIA
[36] D. De Lussanet, H. Backes, et al. “Dynamic Contrast-Enhanced Magnetic Resonance

Imaging of Radiation Therapy-Induced Microcirculation Changes In Rectal Cancer”,
J. Radiation Oncology Biol. Phys., vol. 63, pp. 1309-1315, 2005.
[37] S. Walker-Samual, M. O Lench and D. J Collins “Reference tissue quantification of
DCE-MRI data without a contrast agent calibration ”, Phys. Med. Biol, vol. 52, pp.
589-601, 2007.
[38] L. Choyke, J. Dwyer, V. Knopp “Functional Tumor Imaging With Dynamic
Contrast-Enhanced Magnetic Resonance Imaging”, JOURNAL OF MAGNETIC
RESONANCE IMAGING, vol. 17, pp. 509-520, 2003.
[39] M. Muller-Schimpfie, G. Brix, G. Layer, P. Schlag, R. Engenhart, et al. “Recurrent
Rectal Cancer: Diagnosis with Dynamic MR Imaging”, Radiology, vol. 189, pp. 881-
889, 1993.
[40] P. Tofts “Modeling Tracer Kinetics in Dynamic Gd-DTPA MR Imaging”, JMRI, vol.
7, pp. 91-101, 1997.
[41] P. Tofts “Accuarate Estimation of Pharmacokinetic Contrast-Enhanced Dynamic
MRI Parameters of the Prostate”, Journal of Magnetic Resonance Imaging, vol. 13,
pp. 607-614, 2001.
[42] G. Tofts et al. “Pharmacokinetic Parameters in CNS Gd-GDTA enhanced MR
imaging”, CompuAssist Tomogr, vol. 15, pp. 621-628, 1991.
[43] B. Larson et al. “Myocardial Perfusion Modeling Using MRI”, MRM, vol. 35, pp.
716-726, 2001.
[44] St. Lawrence, TY. Lee et al. “An adoabatia approximation to the tissue homogeneity
model for water exchange in the brain”, J Cereb Bllod Flow Metab, vol. 18, pp.
1365-1377, 1998.
[45] HB.Larsson, M. Stubgaard, JL. Frederiksen, M. Jensen, O. Henriksen, OB. Paul-
son “ Quantitation of blood-brain barrier defect by magnetic resonance imaging and
gadolinium-DTPA in patients with multiple sclerosis and brain tumors”, Magn Reson
Med, vol. 16, pp. 117-131, 1990.
[46] G.Parker, I. Baustert, S. Tanner, M. Leach “ Improving image quality and T1
measurements using saturation recovery turboFLASH with an approximate K-space
normalisation filter”, Magnetic Resonance Imaging, vol. 18, pp. 157-167, 2000.
[47] A.Parker, T. Redpath, F. Gilbert, A. Murray, R. Staff “ Accuracy of T1 Measurement
in Dynamic Contrast-Enhanced Breast MRI Using Two- and Three-Dimensional Va-
riable Flip Angle Fast Low-Angle Shot”, JOURNAL OF MAGNETIC RESONANCE
IMAGING, vol. 9, pp. 163-171, 1999.
[48] G.Parker, S. Tanner, M. Leach et al. “Probing Tumor Microvascularity by Measure-
ment, Analysis and Display of Contrast Agent Uptake Kinetics”, JMRI, vol. 7, pp.
564-574, 1997.
[49] NE. Simpson,JL. Evelhoch “Deuterium NMR tissue perfusion measurements using
the tracer uptake approach: I. Optimization of methods”, Magn Reson Med, vol. 42,
pp. 42-52, 1999.
[50] E. Smith, H. Barret “Hotelling trace criterion as a figure of merit for the optimization
of imaging systems”, Image Science, vol. 3, pp. 717-725, 1986.
[51] F. DeVries, J. Griebel, C. Kremser, W. Judmaier, T. Gneiting, A. Kreczy, D. Öf ner,
K. Pfeiffer, G. Brix, P. Lukas “Tumor Microcirculation Evaluated by Dynamic Magne-
tic Resonance Imaging Predicts Therapy Outcome for Primary Rectal Carcinoma”,
Cancer Research, vol. 61, pp. 2513-2516, 2001.

BIBLIOGRAFIA
[52] MO. Leanch et al. “The assessment of antiangiogenic and antivascular thera-
pies in early-stage clinical trials using magnetic resonance imaging: issues and
recommendations”, BR J Cancer, vol. 92, pp. 1599-1610, 2005.
[53] L. Daniel et al. “Breast Disease: Dynamic Spiral MR Imaging”, Radiology, vol. 209,
pp. 499-509, 1998.
[54] JPB O’Connor, A. Jackson, GJM Parker, GC Jayson “DCE-MRI biomarkers in the
clinical evaluation of antiangiogenic and vascular disrupting agents”, British Journal
of Cancer, vol. 96, pp. 189-195, 2007.
[55] R. Beets, G. Beets “Rectal Cancer: Review with Emphasis on MR Imaging”,

Radiology, vol. 232, pp. 335-346, 2004.
[56] C. Rodel et al. “Prognostic Significance of Tumor Regression After Preoperative Che-
moradiotherapy for Rectal Cancer”, JOURNAL OF CLINICAL ONCOLOGY, vol.
34, pp. 8688-8696, 2005.
[57] G. Atkin, N. J. Taylor, F. M. Daley, J. J. Stirling, P. Richman, R. Glynne-Jones, J.

A. d’Arcy, D. J. Collins and A. R. Padhani “Dynamic contrast-enhanced magnetic
resonance imaging is a poor measure of rectal cancer angiogenesis”, British Journal
of Surgery, vol. 93, pp. 992-1000, 2006.
[58] Weaver J.B., Yansun X. , Healy D.M. et al. “Filtering noise from images with wavelet
transforms”, Magnetic Resonance in Medicine, vol. 21, pp. 288-95, 1991.
[59] Yinpeng J., Angelini E., Laine A. “Wavelets in Medical Image Processing¿ De/noising,
Segmentation, and Registration”,
[60] Cohen A., and Kovacevic J. “Wavelets The Mathematical Background”, IEEE, vol.
84, pp. 514-522, 1996.
[61] Rioul O., and Vetterli M. “Wavelets and Signal Processing”, IEEE, vol. October, pp.
14-38, 1991.
[62] Widrow B., Glover J. et al. “Adaptive Noise Cancelling: Principles and Applications”,
IEEE, vol. 63 no. 12 December, pp. 1692-1715, 1975.
[63] Grouiller F., Vercueil L. et al. “A comparative study f different artefact removal
algorithms for EEG signals acquired during functional MRI”, Neuroimage, vol. 38
pp. 124-137, 2007.
[64] Sansone M., Mirarchi L. et al. “Adaptive removal of gradients -induced artefacts
on ECG in MRI: a preformance analysis of RLS filtering”, Medical and Biological
Engineering and Computing, vol. 48 pp. 475-482, 2010.
[65] Sansone M, Fusco R, Petrillo A, Petrillo M, Bracale M. An expectation-maximisation

approach for simultaneous pixel classification and tracer kinetic modelling in dy-
namic contrast enhanced-magnetic resonance imaging. Med Biol Eng Comput. 2011
Apr;49(4):485-95.
[66] Sansone M, Zeni O, Esposito G. Automated segmentation of comet assay images using
Gaussian filtering and fuzzy clustering. Med Biol Eng Comput. 2012 May;50(5):523-
32.
[67] Roberta Fusco, Mario Sansone, Mario Petrillo, Antonio Avallone, Paolo Delrio and
Antonella Petrillo (2011). Dynamic Contrast Enhanced Magnetic Resonance Imaging
in Rectal Cancer In: Rectal Cancer - A Multidisciplinary Approach to Management,
Dr. Giulio A. Santoro (Ed.), ISBN: 978-953-307-758-1, InTech,

BIBLIOGRAFIA
[68] Roberta Fusco, Mario Sansone, Silvio Maffei, Nicola Raiano, Antonella Petrillo Dyna-
mic contrast-enhanced MRI in breast cancer: A comparison between distributed and
compartmental tracer kinetic models Journal of Biomedical Graphics and Computing,
Vol 2, No 2 (2012)
[69] Roberta Fusco, Mario Sansone, Mario Petrillo, Antonella Petrillo Influence of para-
meterization on tracer kinetic modeling in DCE-MRI J. Med. Biol. Eng., In Press
Uncorrected Proof, Available online 7 Sep 2012 doi: 10.5405/jmbe.1097
[70] Keinosuke fukunaga, Introduction to Statistical Pattern Recognition, Academic Press,
1990
[71] Starmer CF, Clark DO. Computer computations of cardiac output using the gamma
function. J Appl Physiol 1970;28:219-220
[72] Ostergaard, L. et al., 1996. High resolution measurement of cerebral blood flow using
intravascular tracer bolus passages. Part I: Mathematical approach and statistical
analysis. Magnetic Resonance in Medicine: Official Journal of the Society of Magnetic
Resonance in Medicine / Society of Magnetic Resonance in Medicine, 36(5), pagg.715-
725.


Dispense 2015 PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Dispense 2015 PDF

Caricato da

Copyright:

Formati disponibili

Corso di Laurea Magistrale in Ingegneria Biomedica

Universitá degli Studi “Federico II” di Napoli

Analisi avanzata di segnali biomedici per applicazioni cliniche

I Introduzione ai modelli in fisiologia 3

1 Modelli per la cinetica dei traccianti 5

2 Modello del segnale elettromiografico (EMG) 47

3 Modello della Heart Rate Variability (HRV) 57

4 Modello per Magnetic Resonance Spectroscopic Imaging 71

5 Stima dei parametri mediante regressione 77

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 ii

5.9 Algoritmo di Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

II Introduzione all’uso di tecniche di Pattern Recognition per modelli

6 Introduzione al pattern recognition 107

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 iii

6.4.2 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

7 Principal component Analysis 117

8 Independent Component Analysis 135

9 Clustering o unsupervised learning 145

III Introduzione alle tecniche per il trattamento della non staziona-

10 Analisi della non stazionarietá dei segnali biomedici 155

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 iv

10.2.2 Reverse arrangement test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

11 Analisi tempo-frequenza 163

A Notazioni e richiami 181

B Stima spettrale per applicazioni biomediche - Metodi non parametrici 195

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 v

B.1.6 Stima dello spettro a minima varianza . . . . . . . . . . . . . . . . . . . . . . 201

C Stima spettrale per applicazioni biomediche - Metodi parametrici 207

D Filtri adattativi per applicazioni biomediche 217

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 vi

Figura 1: Confronto e validazione di piú modelli.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 2

Introduzione ai modelli in fisiologia

Modelli per la cinetica dei

E’ di interesse determinare il comportamento dinamico (cinetica) e spazio-temporale (andamento

1.1 Definizione delle quantitá fondamentali

volume di distribuzione (VD ) é il volume entro cui i traccianti si distribuiscono, si misura in

concentrazione (C) quantitd́i materia nell’unità di volume, si misura in mg/ml, mmol/mlm

Inoltre si useranno spesso le seguenti equazioni o simili:

equazione di tempo di transito F T = VD

equazione di diluzione C = M/VD

equazione di bilancio di massa dM/dt = Jinput − Joutput

1.1.1 Tempo di transito

1.1.2 Volume di distribuzione

VD puó essere misurato in condizioni ’statiche’ usando la equazione di diluzione: se il tracciante

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 6

1.2 Indicator Dilution Theory (IDT)

Figura 1.1: Relazione tra il tracciante in ingresso ad un organo ed la concentrazione di tracciante

da cui si ricava il flusso:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 7

Con le metodiche di imaging (MRI,CT,PET) non é possibile misurare la concentrazione venosa

dM (t) dVD CD (t) dCD (t)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 8

dove QT (t) é chiamata la risposta impulsiva del tessuto.

Figura 1.2: Relazione tra volume di distribuzione e flusso.

E’ possibile calcolare il volume di distribuzione VD facendo le seguenti considerazioni nel caso

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 9

1.3 Alcune questioni sulla funzione AIF

dove D é la dose somministrata al paziente. In particolare Weinmann [?] ha ottenuto i seguenti

Figura 1.3: Andamento nel tempo della funzione di input arterioso.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 10

Figura 1.4: AIF Gamma variata.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 11