GR27PROGETTO

CLASSIFICAZIONE E INTERPRETAZIONE
DI DATI BIOMEDICI
Implementazione di un sistema GA+NN

per un problema di features selection.
Gruppo 27
01/03/2011
Classificazione e interpretazione di dati biomedici
Aristizabal Jenny 162198
Progetto: Implementazione di un sistema GA+NN per un problema di features
Dedola Francesca 165856
selection. Giangrande Alessia 168488
1 Marzo 2011 Gonzalez Lina 162776
Problema e analisi del problema

L’obiettivo del progetto è identificare un sottoinsieme minimo di caratteristiche che consentano di classificare
correttamente i soggetti contenute nel file dati.dat. Per ciascuna delle 300 pazienti si hanno a disposizione 34
parametri, ottenuti dall’analisi di masse visualizzate in mammografia, l’ID paziente e la classe di appartenenza: 0
corrisponde a paziente sana e 1 a paziente malata. La descrizione di ciascuna caratteristica è riportata nel file
features.dat. Dall’analisi di questo file si può osservare come per alcune caratteristiche vengano forniti un insieme di
parametri statistici dipendenti tra loro; questo corrisponde ad una ridondanza di informazioni che potrebbero
condurre ad una classificazione fuorviante delle pazienti in esame.
A tale scopo si è implementato un file Matlab che classificasse i pazienti mediante reti neurali, utilizzando la funzione
newff contenuta nel Neural Network Toolbox. L’ analisi iniziale è stata condotta utilizzando l’intero data set con tutte
le caratteristiche disponibili; si sono valutate le prestazioni della rete al variare della numerosità di neuroni nel livello
nascosto e la funzione di trasferimento ad esso associata, mantenendo la funzione di trasferimento lineare per il layer
di uscita. Si è dunque individuato il fattore di proporzionalità tra numero di caratteristiche e numero di neuroni, tale
da ottimizzare le prestazioni della rete; questa è stata utilizzata come funzione di fitness dell’algoritmo genetico,
destinata al calcolo dell’MSE associato ad ognuna delle soluzioni proposte nella pool.
L’algoritmo dovrà generare un set di soluzioni a cui andrà associato un valore di fitness; dalla pool originaria verranno
estratte un numero di candidate pari ai genitori. Si procederà dunque alla creazione dei figli mediante operazioni di
mutation e crossover e anche di questi verrà calcolata la fitness; il tutto verrà ripetuto per un numero variabile di
iterazioni. Si proseguirà quindi assemblando la nuova popolazione contenente la pool iniziale e la pool dei figli e
selezionando la soluzione migliore. Il processo di calcolo della candidata ottimale avverrà per un numero variabile di
ripetizioni, utilizzando la stessa pool iniziale.
Ogni riga della pool è rappresentata da un vettore di 34 elementi codificato in binario e corrispondente alla selezione
delle caratteristiche da utilizzare per la classificazione; la migliore soluzione sarà quella associata all’errore MSE più
basso. Verranno di seguito riportati i grafici e le tabelle dei risultati ottenuti. Viene riportato nello schema 1 la
struttura dell’algoritmo implementato su Matlab.
1
Schema 1: Diagramma dell'algoritmo implementato in Matlab

2
Soluzione
Selezione dei parametri della rete neurale
Si è utilizzata la funzione newffdi Matlabper costruire la rete neurale, responsabile del calcolo della fitness
dell’algoritmo genetico. Mantenendo i valori di default per le funzioni di trasferimento associate ai livelli, si è imposto
un solo layer nascosto con numero di neuroni proporzionale al numero di caratteristiche selezionate, ovvero al
numero di ingressi della rete. Si è analizzato il comportamento della rete, utilizzando in fase di training l’intero data
set, e variando la proporzionalità per valori di ; le migliori prestazioni si ottengono con un numero
di neuroni nel layer nascosto pari ad dei percettroni in input.
Si è osservata la classificazione dei pazienti a confronto con la soluzione reale con fattore di proporzionalità k= .I
risultati ottenuti e riportati nella figura 1, dimostrano la corrispondenza tra valori reali e simulazione condotta: si
ottiene un MSE pari 0.0838. Come si può osservare dalla figura 1 i dati analizzati non sono localizzati nell’area della
soluzione reale e questo porta ad avere un’elevata probabilità di misclassificazione. Per ridurre l’errore di
classificazione si procederà a selezionare,mediante l’algoritmo genetico, un set di soluzioni costituite da un
sottoinsieme di caratteristiche.
Confronto classificazione rete e dati newff tot

Dati reali
1.2198 Classificazione rete
0.7198
Sopravvivenza
0.2198
-0.2802
0 50 100 150 200 250 300

Pazienti
Figura 1: Classificazione ottenuta mediante rete implementata con

la funzione newff e utilizzando l'intero data set.
3
Selezione dei parametri dell’algoritmo genetico

L’algoritmo genetico è utilizzato per la selezione della soluzione migliore a partire da unamatrice iniziale, le cui
dimensioni sono imposte dall’utente. Gli altri parametri decisionali sono numero di iterazioni, genitori e ripetizioni;
poiché abbiamo a disposizione 34 caratteristiche per ogni paziente, il numero delle possibili combinazioni di
34
caratteristiche sarà 2 -1: è perciò evidente l’impossibilità di giungere alla soluzione ottima!
Si è cercato tuttavia di ampliare il più possibile l’insieme di soluzioni analizzate, tenendo conto del costo
computazionale richiesto. Il numero di soluzioni iniziali da analizzare corrisponde a nind e sarà pari al numero di righe
della matrice pool. La sua implementazione è devoluta alla funzione creation(), che in ogni riga della pool inserisce una
possibile soluzione ottenuta generando, mediante la funzione rand() di Matlab, due numeri binari su 17 bit. Si crea in
tal modo una corrispondenza tra sottoinsieme delle caratteristiche utilizzate per la classificazione e soluzione proposta
dalla pool: l’indice delle caratteristiche scelte corrisponde all’indice delle locazioni in cui la riga soluzione è pari ad 1.
Negli algoritmi genetici, come in biologia, si parte da un insieme di genitori, le soluzioni a cui è associato il valore di
fitness più basso, che adeguatamente ricombinati generano una popolazione di figli. Il numero di genitori è una
porzione (numero pari) degli individui della pool; le operazioni di ricombinazione sono effettuate mediante le funzioni
mutation() e crossover().La pool iniziale calcolata con la creation() viene mantenuta per un numero di ripetizioni pari a
nrip; un ciclo interno, eseguito un numero di volte pari a iter e nel quale si effettuano le operazioni genetiche,
provvede anche al calcolo di una nuova pool. Le dimensioni di quest’ultima sono le stesse di quella iniziale, e il suo
contenuto è aggiornato ad ogni iterazione e corrisponde ad un sottoinsieme casuale di soluzioni iniziali e figlie.
Verranno riportati di seguito i risultati ottenuti, al variare dei parametri decisionali, mediante dei grafici in cui sull’asse
delle ascisse si riportano le 34 caratteristiche e sull’asse delle ordinate le ripetizioni condotte. Le caratteristiche non
sono tra loro indipendenti: le prime 7 sono parametri statistici associati alla caratteristica1; le colonne da 8 a 14 sono
descrittive della caratteristica 2; da 15 a 21 appartengono alla caratteristica 3. Si hanno poi le caratteristiche da 4 a 9
corrispondenti alle colonne da 22 a 27; si ha infine la caratteristica 10 descritta nelle colonne da 28 a 34. I parametri
statistici associati alle caratteristiche 1, 2, 3 e 10 sono: massimo, media, mediana, minimo, moda, numero di voxels,
deviazione standard.
4
Numero di individui nella popolazione 100

Numero delle iterazioni 10
Numero di genitori 50
Numero di ripetizioni 10
Tabella 1: Parametri Algoritmo genetico
Selezione delle caratteristiche nel caso di 10 ripetizioni

10
8
Numero ripetizione
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
mse 0.060447 n° car 15
mse 0.051176 n° car 19
mse 0.065515 n° car 17
mse 0.044715 n° car 16
mse 0.042286 n° car 19
mse 0.058038 n° car 25
mse 0.049382 n° car 20
mse 0.022578 n° car 26
mse 0.053379 n° car 18
mse 0.056354 n° car 18
Figura 2: Caratteristiche selezionate ad ogni ripetizione e corrispondente MSE
6
Numero di selezioni
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
Figura 3: Istogramma del numero di selezioni per ogni caratteristica
5


10
8
Numero ripetizione
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
mse 0.051848 n° car 17
mse 0.061835 n° car 23
mse 0.060115 n° car 19
mse 0.058114 n° car 20
mse 0.059044 n° car 20
mse 0.053946 n° car 23
mse 0.067313 n° car 20
mse 0.047547 n° car 17
mse 0.04599 n° car 24
mse 0.057588 n° car 23
10
7
Numero di selezioni
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
6
Le figure 2 e 4 e gli istogrammi 3 e 5 ad esse associati corrispondono ai parametri riportati nelle tabelle 1 e 2.
Nella figura 2 si osserva che per la prima caratteristica i parametri maggiormente selezionati sono mediana (8/10) e
deviazione standard (9/10) e risultano correlati tra loro 6 volte. Si osserva inoltre che esiste una compresenza di
queste ultime con la moda (7/10). Per quanto concerne la caratteristica 2 non si possono trarre conclusioni
significative dai risultati ottenuti dalla simulazione in esame. Anche la caratteristica 3 non offre risultati chiarificanti; si
osserva tuttavia una lieve supremazia di minimo moda e deviazione standard che, per la maggior parte delle selezioni,
sono correlate. Tra le caratteristiche singole spiccano la 4 e la 7 corrispondenti rispettivamente alle colonne 22 e 25.
La caratteristica 10 è maggiormente rappresentata da minimo (7/10) e deviazione standard (9/10) che per 6 volte
sono compresenti.
Nella figura 4 si osserva che per la prima caratteristica i parametri maggiormente selezionati sono numero di voxels
(7/10) e deviazione standard (8/10) e risultano correlati tra loro 5 volte. Per quanto concerne la caratteristica 2 si
osserva che il minimo è la più selezionata (9/10), accompagnata da numero di voxels (7/10), di cui però solo 4 volte in
compresenza. Si osserva invece che la mediana (6/10) è stata scelta per 5 volte in compresenza con il minimo.Nella
caratteristica 3 si osserva tuttavia la supremazia di mediana (9/10), moda (9/10) e deviazione standard (10/10) che,
per la maggior parte delle selezioni, sono correlate; si osserva inoltre una forte correlazione tra massimo (7/10) e
mediana. Tra le caratteristiche singole spiccano la 4 e la 9 corrispondenti rispettivamente alle colonne 22 e 27. La
caratteristica 10 è maggiormente rappresentata da minimo (9/10) e deviazione standard (9/10) che per 8 volte sono
compresenti; è inoltre evidente una correlazione tra moda (7/10) e numero di voxels (8/10).
Per quanto riguarda l’analisi dell’mse si è osservato che sia nella prima che nella seconda simulazione, l’errore non
arriva al 7%; questo prova che la selezione delle caratteristiche ha migliorato le prestazioni del classificatore
implementato, in quanto si partiva da una errore superiore all’8%. Il numero di caratteristiche associate ad ogni
soluzione è variabile, ma solo in due casi supera il 20 nella prima simulazione, ed è solitamente di poco superiore a 20
nel secondo caso; si osserva dunque la scomparsa di almeno 10 delle caratteristiche originarie.
7


10
8
Numero ripetizione
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
mse 0.059615 n° car 17
mse 0.058311 n° car 20
mse 0.047072 n° car 19
mse 0.055951 n° car 21
mse 0.05464 n° car 25
mse 0.05502 n° car 26
mse 0.046374 n° car 21
mse 0.053857 n° car 17
mse 0.044645 n° car 22
mse 0.063313 n° car 19
6
Numero di selezioni
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
8


10
8
Numero ripetizione
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
mse 0.054581 n° car 20
mse 0.051581 n° car 20
mse 0.046929 n° car 22
mse 0.06285 n° car 21
mse 0.055024 n° car 22
mse 0.044965 n° car 21
mse 0.048903 n° car 17
mse 0.041187 n° car 17
mse 0.044926 n° car 23
mse 0.046461 n° car 24
6
Numero di selezioni
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
9
Le figure 6 e 8 e gli istogrammi 7 e 9 ad esse associati corrispondono ai parametri riportati nelle tabelle 3 e 4.
Nella figura 6 si osserva che per la prima caratteristica non si possono trarre conclusioni significative dai risultati
ottenuti dalla simulazione in esame. Per quanto concerne la caratteristica 2 i parametri maggiormente selezionati
sono minimo (8/10), deviazione standard, numero di voxels e moda tutti con 7 presenze; si osserva inoltre una forte
correlazione tra minimo e deviazione standard e tra moda e numero di voxels. Per quanto concerne la caratteristica 3
si osserva lapredominanza di mediana (8/10) moda (8/10) e deviazione standard (9/10); queste ultime due risultano
compresenti 7 volte. Tra le caratteristiche singole spiccano la 4 e la 9 corrispondenti rispettivamente alle colonne 22 e
27. La caratteristica 10 è maggiormente rappresentata da minimo (9/10), moda (8/10)e deviazione standard (8/10);
per ben 8 volte si osserva la compresenza di minimo e deviazione standard; si ha anche la correlazione tra moda e
minimo , 7 volte, e per 6 volte sono compresenti.
Nella figura 8 si osserva che per la prima caratteristica il parametro maggiormente selezionato è la deviazione
standard (8/10) e risulta correlata per 5 volte con la mediana (6/10) e la media (6/10). Per quanto concerne la
caratteristica 2 si osserva che la deviazione standard è la più selezionata (9/10), in compresenza 5 volte con numero di
voxels (6/10) e minimo (6/10). Nella caratteristica 3 si osserva la supremazia di mediana (8/10), moda (8/10) che, per
la maggior parte delle selezioni, 6 volte, sono correlate. Tra le caratteristiche singole spiccano la 4, la 7 e la 9
corrispondenti rispettivamente alle colonne 22, 25 e 27. La caratteristica 10 è maggiormente rappresentata da
mediana (9/10) e moda (9/10) che sono sempre compresenti; è inoltre evidente una correlazione tra queste e
deviazione standard (7/10), compresenti per 6 volte.
Per quanto riguarda l’analisi dell’mse si è osservato che, sia nella prima che nella seconda simulazione, l’errore
diminuisce leggermente rispetto al caso precedente; questo potrebbe indicare che all’aumento del numero di
individui della pool corrisponde un miglioramento della classificazione. Il numero di caratteristiche associate ad ogni
soluzione è variabile ma solitamente supera il 20 sia nella prima che nella seconda simulazione.
10


10
8
Numero ripetizione
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
mse 0.05158 n° car 20
mse 0.054603 n° car 19
mse 0.057233 n° car 19
mse 0.062647 n° car 18
mse 0.050521 n° car 17
mse 0.059787 n° car 19
mse 0.054057 n° car 20
mse 0.048478 n° car 19
mse 0.040756 n° car 18
mse 0.037433 n° car 19
6
Numero di selezioni
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
11


10
8
Numero ripetizione
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
mse 0.0235 n° car 17
mse 0.042255 n° car 23
mse 0.031505 n° car 23
mse 0.034298 n° car 27
mse 0.042067 n° car 23
mse 0.041174 n° car 22
mse 0.026986 n° car 21
mse 0.026424 n° car 23
mse 0.037115 n° car 19
mse 0.030231 n° car 26
10
7
Numero di selezioni
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Caratteristiche
12
La figure 10 e l’istogrammi 11 corrispondono ai parametri riportati nella tabelle 5. In questa simulazione si è deciso di
aumentare notevolmente la popolazione iniziale così da esplorare una più ampia gamma di soluzioni possibili, nel
tentativo di ridurre ulteriormente l’errore di classificazione e il numero di caratteristiche selezionate nelle soluzioni
migliori.In un primo tempo si è deciso di lasciare inalterato il numero di iterazioni e variare solamente numero di
individuie genitori; questa scelta è da imputarsi esclusivamente all’aumento del costo computazionale che si era già
osservato nel raddoppiare i parametri iniziali dell’algoritmo, andando cioè a simulare una popolazione di 200 soluzioni
iniziali. Poiché con questa configurazione di parametri non si sono ottenuti miglioramenti tali da evidenziare la
predominanza di una soluzione rispetto alle simulazioni precedenti, si è condotta una prova finale e interminabile,
come suggerito dall’esperta durante il laboratorio, con numero di iterazioni pari a 50, come si osserva in tabella 6. I
risultati ottenuti dopo 30 ore di simulazione sono riportati nelle figure 12 e 13.
Nella figura 10 si osserva che per quanto concerne la prima caratteristica non si possono trarre conclusioni
significative dai risultati ottenuti dalla simulazione in esame. Nella caratteristica 2 si osserva ilpredominio del numero
di voxels (9/10) che è compresente 6 volte con deviazione standard (6/10). La caratteristica 3 è maggiormente
rappresentata da media (8/10) e deviazione standard (9/10) che per 7 volte sono compresenti. Tra le caratteristiche
singole non si osserva la predominanza di nessuna tuttavia la più presente è la 9 corrispondente alla colonna 27. Per la
caratteristica 10 i parametri maggiormente selezionati sono massimo (7/10), minimo (8/10) e deviazione standard
(7/10): il massimo è stato scelto in compresenza 5 volte con il minimo.
Nella figura 12 si osserva che per la prima caratteristica i parametri maggiormente selezionati sono mediana (9/10),
massimo e deviazione standard entrambe selezionate 7 volte su 10 e correlati con la mediana rispettivamente 6 e 7
volte. La caratteristica 2 non offre risultati chiarificanti; si osserva tuttavia una lieve supremazia di moda (8/10),
numero di voxels e deviazione standard (7/10) che, per la maggior parte delle selezioni, sono tra loro correlate. Per
quanto concerne la caratteristica 3 si osserva il predominio della deviazione standard (10/10) e moda (9/10 );si
osserva inoltre una forte correlazione con la mediana (7/10). Tra le caratteristiche singole spiccano la 8 e la 9
corrispondenti rispettivamente alle colonne 26 e 27. La caratteristica 10 è maggiormente rappresentata da massimo,
minimo e deviazione standard (9/10) che per 8 volte sono compresenti.
Per quanto riguarda l’analisi dell’mse si è osservato che nell’ultima simulazione, l’errore si riduce drasticamente, con
valore massimo del 4% e minimo del 2%. Il numero di caratteristiche associate ad ogni soluzione è variabile ma
solitamente supera il 20; si osserva tuttavia che la configurazione a cui è associato l’errore minimo consta di 17
caratteristiche.
Conclusioni
Analizzando i risultati delle simulazioni condotte si è potuta osservare la prevalenza di alcuni dei parametri statistici
delle caratteristiche esaminate. I risultati delle simulazioni dimostrano che, ampliando le possibilità di selezione
dell’algoritmo genetico, questo converge a soluzioni che forniscono errori di classificazione molto bassi. Tuttavia il
costo computazionale associato ad una simulazione con pool di 500 soluzioni è troppo oneroso.
In riferimento alla caratteristica 1 la mediana il numero di voxels e la deviazione standard sono le grandezze più
rappresentative in quanto si è osservata la loro compresenza in quasi tutti gli esperimenti; nella caratteristica 2
emergono minimo, moda, numero di voxels e deviazione standard; nella caratteristica 3 predominano mediana, moda
e deviazione standard. La caratteristica 10 è descritta tramite minimo moda e deviazione standard. Per quanto
concerne le caratteristiche singole vengono tutte considerate. La configurazione appena descritta è rappresentata nel
diagramma seguente e sarà utilizzata per classificare i pazienti.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
13

GR27PROGETTO

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

GR27PROGETTO

Caricato da

Copyright:

Formati disponibili

CLASSIFICAZIONE E INTERPRETAZIONE

Implementazione di un sistema GA+NN

Problema e analisi del problema

Schema 1: Diagramma dell'algoritmo implementato in Matlab

Confronto classificazione rete e dati newff tot

1.2198 Classificazione rete

0 50 100 150 200 250 300

Figura 1: Classificazione ottenuta mediante rete implementata con

Selezione dei parametri dell’algoritmo genetico

Numero di individui nella popolazione 100

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 2: Caratteristiche selezionate ad ogni ripetizione e corrispondente MSE

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 3: Istogramma del numero di selezioni per ogni caratteristica

Numero di individui nella popolazione 100

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 4: Caratteristiche selezionate ad ogni ripetizione e corrispondente MSE

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 5: Istogramma del numero di selezioni per ogni caratteristica

Numero di individui nella popolazione 200

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 6: Caratteristiche selezionate ad ogni ripetizione e corrispondente MSE

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 7: Istogramma del numero di selezioni per ogni caratteristica

Numero di individui nella popolazione 200

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 8: Caratteristiche selezionate ad ogni ripetizione e corrispondente MSE

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 9: Istogramma del numero di selezioni per ogni caratteristica

Numero di individui nella popolazione 500

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 10: Caratteristiche selezionate ad ogni ripetizione e corrispondente MSE

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 11: Istogramma del numero di selezioni per ogni caratteristica

Numero di individui nella popolazione 100

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 12: Caratteristiche selezionate ad ogni ripetizione e corrispondente MSE

Selezione delle caratteristiche nel caso di 10 ripetizioni

Figura 13: Istogramma del numero di selezioni per ogni caratteristica

Potrebbero piacerti anche