Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Classificazione Semi-Supervisionata
Si richiede di effettuare degli esperimenti con applicazione di algoritmi di classificazione in cui il
modello predittivo viene generato in maniera semi supervisionata. In questo contesto, si suppone che
il training set (F caratteristiche descrittive ed una caratteristica per la classe) sia costituito da una
porzione di dati non etichettati che vengono sfruttati per rafforzare il modello predittivo. Si supponga
di utilizzare un algoritmo di clustering quale il Simple K-means. L’approccio da seguire è:
Per ciascun punto di cui sopra realizzare uno script o una funzione (fare in modo che sia tutto
parametrico)
Viene fornito un dataset in formato ARFF (utilizzato in WEKA, facile da comprendere dalla descrizione
allegata) su cui si richiede di effettuare una 10 fold cross validation: per ogni training set (in tutto ne
saranno 10), estrarre un percentuale di istanza etichettate (cercando di mantenere la distribuzione
delle classi) pari al 30%, 20%, 10% e 5% delle classi e costruire il modello semi-supervisionato come
descritto sopra. Riportare su un grafico l’andamento dell’accuratezza media sul test set al variare della
percentuale di istanze etichettate sul training set.
Generare una o più tabelle che per ogni classe e per ogni percentuale di istanze etichettate riporti il
valore medio sui 10 fold del True Positive Rate e del False Positive Rate.
I punti devono essere svolti scrivendo dei programmi Java utilizzando le API di Weka.
Lo studente deve consegnare una relazione in cui vengono descritti tutte le scelte effettuate, i passi
realizzati, i risultati ottenuti (importante organizzarli in tabelle e discuterli), discussioni e
considerazioni finali. Tutti i codici e gli script prodotti devono essere consegnati e discussi in dettaglio
nella relazione.