Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Maggio 2010
Docente: R. Basili
Rispondente alle seguenti 15 domande marcando le risposte che ritenete corrette. Tem-
po a disposizione: 45 minuti. In sede di valutazione, ogni risposta sbagliata abbassa il
punteggio.
Gruppi: 2/10,1/8,1/2,1/1,1/5
1
4. Quale delle seguenti affermazioni definisce in termini più generali la Categorizzazione
di Testi automatica?
(A) Dati degli esempi si determina l’iperpiano di separazione che li divide. [−0]
(B) Dati degli esempi positivi e negativi si apprende l’iperpiano per separarli; questo
verrà usato per classificare anche i nuovi documenti. [−0]
(C) Dati degli esempi positivi e negativi si apprende la funzione di separazione; questa
verrà usata per classificare anche i nuovi documenti. [−0]
(D) Dato un insieme di training e uno di testing si apprende la funzione di separazione
sul training e sul testing; in particolare sul testing si stimano i parametri e le prestazioni.
[−0]
2
8. (M) Segnalare tutte le affermazioni corrette tra le seguenti:
(A) Un modello generativo a’ basato su un insieme di variabili stocastiche e su un insieme
di dipendenze che le legano alla probabilita’ totale del fenomeno da apprendere. [−0]
(B) I modelli generativi costituiscono esempi di algoritmi di Semi-Supervised Learning e
sono necessari quando non esistono abbastanza dati di addestramento. [−0]
(C) Le catene di Markov nascoste (Hidden Markov Models) costituiscono modelli
generativi per task di sequence labeling. [−0]
(D) Nessuna delle altre affermazioni e’ corretta. [−0]
(E) E’ generativo un algoritmo che classifica gli esempi positivi sulla base della probabilità
delle sue proprieta’ salienti. [−0]
3
10. Dato il seguente learning set
Age Has job Own house Class
young no no not approved
young Y1 yes approved
middle yes no approved
middle no Y2 not approved
old yes yes approved
determinare in quali casi il seguente albero delle decisioni è sufficiente per il problema
secondo l’algoritmo C4.5:
yes no
approved not_approved
4
12. Un Hidden Markov Model e’ descritto da un vocabolario di simboli O =
{Cof, T ea, Cap} e stati S = {CP, T P }, ove la matrice di emissione e’
! !
p(Cof |CP ) p(T ea|CP ) p(Cap|CP ) .65 .15 .2
E= =
p(Cof |T P ) p(T ea|T P ) p(Cap|T P ) .2 .8 0
Per quale sequenza di stati la probabilita’ massima della sequenza di simboli (Cap, T ea)
e’ pari a 0.08?
(A) Non e’ possibile determinare la sequenza piu’ probabile. [−1]
(B) (CP, T P ) [+3]
(C) (T P, T P ) [−2]
(D) (CP, CP ) [−1]
(E) Nessuna delle altre affermazioni e’ corretta. [−1]
5
14. Un Hidden Markov Model e’ descritto da un vocabolario di simboli O =
{Cof, T ea, Cap} e stati S = {CP, T P }, ove la matrice di emissione e’
! !
p(Cof |CP ) p(T ea|CP ) p(Cap|CP ) .65 .15 .2
E= =
p(Cof |T P ) p(T ea|T P ) p(Cap|T P ) .2 .8 0
Per quale sequenza di stati la probabilita’ massima della sequenza di simboli (Cof, T ea)
e’ pari a 0.26?
(A) Non e’ possibile determinare la sequenza piu’ probabile. [−1]
(B) (CP, T P ) [+3]
(C) (T P, T P ) [−2]
(D) (CP, CP ) [−1]
(E) Nessuna delle altre affermazioni e’ corretta. [−1]
6
Introduzione al Test in Itinere
Roberto Basili
Università di Roma, Tor Vergata
Argomenti oggetto di esame
• Probabilità ed informazione
• Spazi vettoriali, trasformazioni lineari e matrici
• Rappresentazioni vettoriali per la classificazione
• Clustering (2)
• Algoritmi di apprendimento automatico per la classificazione (1)
– K-NN
– DTs
– NB
– Rocchio
• Valutazione dei sistemi di classificazione (1)
• Modelli Markoviani (1):
– Language models & HMMs
– Example: POS tagging
• Statistical Learning Theory (3/4):
– PAC-learning
– VC dimension
– SVMs
– Kernels
Temi d’Esame: Domanda aperta
Discutere la applicazione di una modellazione markoviana
ai task di tipo sequence labeling.
(E' utile nella discussione presentare un esempio di
applicazione, come ad esempio i processi di Part-Of-Speech
tagging di frasi in linguaggio naturale)