Sei sulla pagina 1di 10

Esonero Web Mining and Retrieval

Esempi di domande (a.a. 2009-2010)

Maggio 2010
Docente: R. Basili

Rispondente alle seguenti 15 domande marcando le risposte che ritenete corrette. Tem-
po a disposizione: 45 minuti. In sede di valutazione, ogni risposta sbagliata abbassa il
punteggio.
Gruppi: 2/10,1/8,1/2,1/1,1/5

1. (M) Selezionare tutte le affermazioni corrette sull’algoritmmo K-Means


(A) E’ un algoritmo di tipo gerarchico. [−0]
(B) E’ un algoritmo di tipo divisivo. [−0]
(C) Genera un numero k di cluster. [−0]
(D) E’ indipenente dalla scelta dei seed iniziali. [−0]
(E) Ha una complessita’ lineare. [−0]

2. (M) Selezionare tutte le affermazioni corrette sull’algoritmmo Hierarchical


Agglomerative Clustering
(A) La Single Link Similarity e’ sempre meglio della Complete Link Similarity. [−0]
(B) Piu’ esecuzioni riproducono esattamente lo stesso insieme di cluster. [−0]
(C) Genera un numero k di cluster. [−0]
(D) E’ un algoritmo di tipo gerarchico [−0]
(E) Possono essere utilizzate differenti metriche per il calcolo della distanza tra due
elementi. [−0]

3. Data una classe Ci ed il classificatore seguente (Rocchio) ,


β ~ γ ~
( d∈C
~ i |Ci | d − / i |Ci | d) · ~
x − τ > 0, con la soglia τ > 0
P P
d~∈C
segnalare la affermazione corretta?
(A) La sua funzione di separazione è un polinomio di grado > 2. [−0]
(B) La sua funzione di separazione è un iperpiano che ha il massimo margine tra gli
iperpiani di separazione. [−0]
(C) La sua funzione di separazione è un iperpiano il cui gradiente è la differenza tra la
media degli esempi positivi e la media degli esempi negativi. [−0]
(D) La sua funzione di separazione è un vettore che è la sommatoria di tutti i vettori
rappresentati i documenti positivi. [−0]

1
4. Quale delle seguenti affermazioni definisce in termini più generali la Categorizzazione
di Testi automatica?
(A) Dati degli esempi si determina l’iperpiano di separazione che li divide. [−0]
(B) Dati degli esempi positivi e negativi si apprende l’iperpiano per separarli; questo
verrà usato per classificare anche i nuovi documenti. [−0]
(C) Dati degli esempi positivi e negativi si apprende la funzione di separazione; questa
verrà usata per classificare anche i nuovi documenti. [−0]
(D) Dato un insieme di training e uno di testing si apprende la funzione di separazione
sul training e sul testing; in particolare sul testing si stimano i parametri e le prestazioni.
[−0]

5. Cosa s’intende per n-fold cross validation?


(A) Dati degli esempi di training e di testing si apprendono i modelli sul training e si
testano sul testing. [−0]
(B) Dati degli esempi di training e di testing si apprendono i modelli sul testing e si
testano sul training. [−0]
(C) Si divide il corpus di documenti in n parti; a rotazione una viene usata per il testing
e n − 1 sono usate per il training. [−0]
(D) Si divide il training in n parti e si addestra il classificatore n volte; ogni volta si
misura la performance sul test-set. [−0]

6. Data una classe Ci ed il classificatore seguente (Rocchio) ,


β ~ γ ~
~ i |Ci | d −
( d∈C / i |Ci | d) · ~
x − τ > 0, con la soglia τ > 0
P P
d~∈C
qual’è una differenza tra Rocchio e Naive Bayes?
(A) Naive Bayes usa l’assunzione di indipendenza delle parole mentre in Rocchio tale
assunzione non viene fatta. [−0]
(B) Naive Bayes è un classificatore lineare mentre Rocchio è probabilistico. [−0]
(C) Per ogni documento ed una classe, Rocchio fornisce in output un valore empirico
(score) mentre Naive Bayes una probabilità. [−0]
(D) Nessuna differenza perchè entrambi sono definiti sul Vector Space Model [−0]

7. (M) Segnalare tutte le affermazioni errate tra le seguenti:


(A) Gli algoritmi di learning generano esempi da classificare sulla base dei processi di
addestraemnto. [−0]
(B) Un algoritmo di learning basato su esempi apprende una funzione efficiente di
classificazione. [−0]
(C) Un processo markoviano non costituisce un modello di apprendimento per alcun
problema di classificazione binario. [−0]
(D) Nessuna delle altre affermazioni e’ errata. [−0]
(E) E’ generativo un algoritmo di learning che genera gli esempi positivi sulla base della
probabilità delle loro proprieta’ salienti. [−0]

2
8. (M) Segnalare tutte le affermazioni corrette tra le seguenti:
(A) Un modello generativo a’ basato su un insieme di variabili stocastiche e su un insieme
di dipendenze che le legano alla probabilita’ totale del fenomeno da apprendere. [−0]
(B) I modelli generativi costituiscono esempi di algoritmi di Semi-Supervised Learning e
sono necessari quando non esistono abbastanza dati di addestramento. [−0]
(C) Le catene di Markov nascoste (Hidden Markov Models) costituiscono modelli
generativi per task di sequence labeling. [−0]
(D) Nessuna delle altre affermazioni e’ corretta. [−0]
(E) E’ generativo un algoritmo che classifica gli esempi positivi sulla base della probabilità
delle sue proprieta’ salienti. [−0]

9. Dire se i vettori 2 e 3 compaiono nello stesso cluster finale prodotto da un algoritmo


di tipo k-mean (con k = 2) basato su una metrica di tipo euclideo, applicato al seguente
Vector x-dim y-dim
0 0 0
1 1 4
2 2 3
3 3 6
insieme:
4 5 0
5 6 2
6 0 1
7 8 5
8 6 9
Si assuma che i due seed siano costituiti dai vettori 1 e 5.
(A) Si’ [+3]
(B) No. [−1]
(C) Si ma solo se non considero una metrica di tipo single-link [−1]
(D) Dipende dai seed [−1]

3
10. Dato il seguente learning set
Age Has job Own house Class
young no no not approved
young Y1 yes approved
middle yes no approved
middle no Y2 not approved
old yes yes approved

determinare in quali casi il seguente albero delle decisioni è sufficiente per il problema
secondo l’algoritmo C4.5:

yes no

approved not_approved

(A) X=Has job se Y 1=yes ed Y 2=no. [+3]


(B) X=Own house solo se Y 1=yes ed Y 2=no. [−1]
(C) X=Own house solo se Y 1=yes e per ogni valore di Y 2. [−1]
(D) X=Age solo se Y 2=yes e per ogni valore di Y 1. [−2]

11. Segnalare la affermazione corretta tra le seguenti:


(A) Gli algoritmi cosiddetti di LU learning migliorano le prestazioni di algoritmi
tradizionali di Supervised Machine Learning quando la taglia dell’insieme dei dati di
addestramento e’ grande. [−0]
(B) Gli algoritmi di LU Learning sono necessari quando non esistono dati di
addestramento [−0]
(C) La classe di algoritmi di LU Learning determina algoritmi efficenti di addestramen-
to nei casi in cui gli esempi di addestramento sono pochi ma sono molte le istanze da
etichettare). [−0]
(D) Un algoritmo di LU Learning classifica un solo esempio positivo e tutti gli altri esempi
come negativi. [−0]
(E) Un algoritmo di LU Learning si addestra attraverso un algoritmo supervised e
modifica solo la strategia di classificazione. [−0]

4
12. Un Hidden Markov Model e’ descritto da un vocabolario di simboli O =
{Cof, T ea, Cap} e stati S = {CP, T P }, ove la matrice di emissione e’
! !
p(Cof |CP ) p(T ea|CP ) p(Cap|CP ) .65 .15 .2
E= =
p(Cof |T P ) p(T ea|T P ) p(Cap|T P ) .2 .8 0

e le transizioni sono determinate da


! !
p(CP |CP ) p(T P |CP ) .5 .5
T= =
p(CP |T P ) p(T P |T P ) .3 .7

Se lo stato inziale è sempre CP qual’e’ la sequenza di stati piu’ probabilmente associata


alla sequenza (Cof, T ea)?
(A) Non e’ possibile determinare la sequenza piu’ probabile. [−0]
(B) (CP, T P ) [+0]
(C) (T P, T P ) [−0]
(D) (CP, CP ) [−0]
(E) Nessuna delle altre affermazioni e’ corretta. [−0]

13. Un Hidden Markov Model e’ descritto da un vocabolario di simboli O =


{Cof, T ea, Cap} e stati S = {CP, T P }, ove la matrice di emissione e’
! !
p(Cof |CP ) p(T ea|CP ) p(Cap|CP ) .65 .15 .2
E= =
p(Cof |T P ) p(T ea|T P ) p(Cap|T P ) .2 .8 0

e le transizioni sono determinate da


! !
p(CP |CP ) p(T P |CP ) .5 .5
T= =
p(CP |T P ) p(T P |T P ) .3 .7

Per quale sequenza di stati la probabilita’ massima della sequenza di simboli (Cap, T ea)
e’ pari a 0.08?
(A) Non e’ possibile determinare la sequenza piu’ probabile. [−1]
(B) (CP, T P ) [+3]
(C) (T P, T P ) [−2]
(D) (CP, CP ) [−1]
(E) Nessuna delle altre affermazioni e’ corretta. [−1]

5
14. Un Hidden Markov Model e’ descritto da un vocabolario di simboli O =
{Cof, T ea, Cap} e stati S = {CP, T P }, ove la matrice di emissione e’
! !
p(Cof |CP ) p(T ea|CP ) p(Cap|CP ) .65 .15 .2
E= =
p(Cof |T P ) p(T ea|T P ) p(Cap|T P ) .2 .8 0

e le transizioni sono determinate da


! !
p(CP |CP ) p(T P |CP ) .5 .5
T= =
p(CP |T P ) p(T P |T P ) .3 .7

Per quale sequenza di stati la probabilita’ massima della sequenza di simboli (Cof, T ea)
e’ pari a 0.26?
(A) Non e’ possibile determinare la sequenza piu’ probabile. [−1]
(B) (CP, T P ) [+3]
(C) (T P, T P ) [−2]
(D) (CP, CP ) [−1]
(E) Nessuna delle altre affermazioni e’ corretta. [−1]

6
Introduzione al Test in Itinere

Roberto Basili
Università di Roma, Tor Vergata
Argomenti oggetto di esame

• Probabilità ed informazione
• Spazi vettoriali, trasformazioni lineari e matrici
• Rappresentazioni vettoriali per la classificazione
• Clustering (2)
• Algoritmi di apprendimento automatico per la classificazione (1)
– K-NN
– DTs
– NB
– Rocchio
• Valutazione dei sistemi di classificazione (1)
• Modelli Markoviani (1):
– Language models & HMMs
– Example: POS tagging
• Statistical Learning Theory (3/4):
– PAC-learning
– VC dimension
– SVMs
– Kernels
Temi d’Esame: Domanda aperta
Discutere la applicazione di una modellazione markoviana
ai task di tipo sequence labeling.
(E' utile nella discussione presentare un esempio di
applicazione, come ad esempio i processi di Part-Of-Speech
tagging di frasi in linguaggio naturale)

• Definire le assunzioni di base,


• La nozione di stato, transizione ed emissione
• Le equazioni generali del modello
• I metodi di soluzione
• Possibili misure di valutazione
Temi d’Esame: Domanda aperta
Discutere la differenza tra un modello multivariato
(binomiale) ed un modello multinomiale nei processi di
classificazione bayesiana.
(E' utile nella discussione presentare un esempio di
applicazione, come ad esempio i processi di classificazione di
documenti)

• Definire le assunzioni di base,


• La nozione di evento, spazio campione e caso
possibile
• Le equazioni generali del modello
• I metodi di soluzione
• Possibili misure di valutazione

Potrebbero piacerti anche