Machine Learning

Apprendimento e Approssimazione
31 gennaio 2011 Tipi di apprendimento

Supervisionato: c` un supervisore che fornisce gli esempi corredati di e classicazione. Non supervisionato: il learner deve riconoscere schemi nellinput senza indicazioni sui valori in uscita (ovvero sulla classicazione). Per rinforzo: pi` generale, apprendere in base alle risposte dellambiente u e alle proprie azioni. In base allesperienza a disposizione lapprendimento sar` uno di questi tipi. In a base al controllo che il learner ha dellesperienza sar` apprendimento attivo o a passivo.
Concept learn
Fare inferenza su una funzione a valori booleani a partire da esempi di training del suo input e output. Una ipotesi h ` un insieme di valori di attributi. Ogni e valore pu` essere: o specicato. non importante ?. nullo . Un esempio di ipotesi potrebbe essere: < sunny ? ? strong ? same >. Un training examples `: esempi positivi e negativi della funzione target: < x1 , c(x1 ) > e , ..., < xn , c(xn ) >. Bisogna determinare se un ipotesi h H ` tale per cui e h(x) = c(x)x X. # istanze distinte= prodotto di tutti i possibili valori degli attributi. # concetti distinti= insieme delle parti delle istanze. # ipotesi sintatticamente distinte= prodotto di tutti i possibili valori degli attributi ad ognuno dei quali va aggiunto il valore dont care e null. # ipotesi semanticamente distinte= prodotto di tutti i possibili valori degli attributi ad ognuno dei quali va aggiunto il valore dont care e null conta come uno. 1
Esempio di learning task Date: Istanze X: i giorni possibili, ognuno dei quali descritto dagli attributi sky,temp...ognuno dei quali ha diversi valori possibili. Ipotesi H: ogni ipotesi ` descritta da particolari vincoli sugli attributi. I e vincoli possono essere un valore specico, ? o . Target concept c: EnjoySport : X {0, 1}, quindi c(x) ` il valore del e target concept. Esempi di training D: esempi positivi e negativi appartenenti alla funzione target. Determinare: Determinare unipotesi h in H tale che h(x) = c(x)x X. Denizione: Inductive learning Le uniche informazioni che si hanno su il target concept c sono i suoi valori sugli esempi di training. Gli algoritmi di inductive learning possono al pi` garantire che lipotesi di output tti il concetto u target sul dato di training. The inductive learning hypotesis Ogni ipotesi che approssimi bene la funzione target su un set abbastanza vasto di esempi di training approssimer` a anche bene la funzione target su altri esempi non osservati. Ordine parziale sullo spazio delle ipotesi Date due ipotesi hj e hk , si dice che hj ` pi` generale o uguale a hk ( ovvero hj hk ) se e solo se e u x X : [(hk (x) = 1) (hj (x) = 1)] Ipotesi consistente Unipotesi h ` consistente con un set di traning examples e D di target concept se e solo se h(x)=c(x) per ogni traning example < x, c(x) > in D. Version space Il version space, V SH,D , dello spazio delle ipotesi H e del training set D ` il sottoinsieme di ipotesi di H consistenti con tutti i gli esempi e di training: V SH,D = h H|Consistent(h, D) Denizione Linductive bias ` quellinsieme di assunzioni che, insieme ai dati e di training, giustica deduttivamente le classicazioni assegnate dal learner alle istanze future.
Algoritmo nd-S
Lalgoritmo nd-S ritorna lipotesi pi` specica che soddisfa gli esempi di traiu ning positivi.
List-Then Eliminate Algorithm
Allinizio il V S contiene tutte le ipotesi in H. Listando ogni esempio di training si eliminano dal V S tutte le ipotesi h che sono inconsistenti con quel determinato esempio. Denizione Ogni ipotesi del version space ` contenuta fra il set di ipotesi pi` e u generali e il set di ipotesi pi` speciche. u V SH,D = h H|(s S)(g G)(g h s)
Algoritmo candidate elimination
Quindi le ipotesi positive abbassano il limite superiore (quello pi` specico) e le u ipotesi negative alzano il limite inferiore (quello pi` generico). Il version space u appreso attraverso lalgoritmo candidate elimination converger` verso lipotesi a che descrive correttamente il target concept ammesso che: non ci siano errori negli esempi di training; ci sia qualche ipotesi in H che descrive correttamente il target concept. Il target concept ` appreso correttamente quando i limiti S e G coincidono, e ovvero convergono alla stessa identica ipotesi. Inductive bias del candidate elimination nello spazio delle ipotesi H. Il concetto target c ` contenuto e
Alberi di decisione
Denizione Lapprendimento attraverso alberi di decisione ` un modo di e approssimare funzioni target a valori discreti, nei quali la funzione appresa ` e rappresentata da un albero di decisione. Gli alberi di decisione possono rappresentare congiunzioni e disgiunzioni. Gli alberi di decisione possono rappresentare qualsiasi funzione degli attributi ` di input. E opportuno usare gli alberi di decisione quando: Quando le istanze sono descritte da coppie attributo valore. Quando la funzione obiettivo ` a valori discreti. e Quando sono necessarie ipotesi disgiuntive. 4
Quando mancano valori di attributi. Dati di training rumorosi.
ID3
Lobiettivo ` trovare un albero poco profondo che sia consistente con gli esempi e di training. Per fare ci` si sceglie ricorsivamente lattributo pi` signicativo o u come radice di un sottoalbero. Lattributo ideale divide gli esempi in subsets di esempi tutti positivi o negativi. Dato un set S di training example e detti p+ la proporzione esempi positivi e p la proporzione di esempi negativi, la sua entropia `: e Entropy(S) = p+ log2 (p+ ) p log2 (p ) Lentropia misura limpurit` di S. a Information gain: IG(S, A) = Entropy(S)
vvalues(A)
(Sv /S) Entropy(Sv )
Sv ` il numero di esempi che corrispondono al valore v dellattributo A. S ` il e e numero di esempi totali. Gli alberi si costruiscono mettendo in cima gli attributi con information gain maggiore.
Overtting
Lipotesi h H overtta i dati di training se c` unipotesi alternativa h H e tale per cui errortrain (h) < errortrain (h ) errorD (h) > errorD (h ) Si ha overtting quando unipotesi si rivela la migliore sullinsieme dei dati di training, ma non risulta tale generalizzando (ovvero sullintera distribuzione delle istanze, capita quando si hanno pochi dati).
Inductive Bias
Dato un insieme di esempi di training, a questo sono associati pi` alberi di deu cisione consistenti con gli esempi. Linductive bias di id3 introduce un criterio per scegliere una di queste possibili soluzioni. Id3 sceglie alberi poco profondi e posiziona gli attributi pi` rilevanti il pi` possibile vicino alla radice. Perch preu u e ferire alberi poco profondi? Rasoio di Occam: preferire lipotesi pi` semplice u che ` consistente con i dati. e Confronto fra ID3 e Candidate-elimination ID3: esegue una ricerca incompleta (ha una condizione di terminazione e non vengono esplorati tutti i rami) in uno spazio delle ipotesi completo. CE: esegue una ricerca completa (dal momento che cerca ogni ipotesi consistente con i dati di training) in uno spazio delle ipotesi incompleto (pu` esprimere solo un sottoinsieme dei concetti apprendibili). o
PAC learning
Nel PAC (Probably Approximately Correct) learning laccuratezza dei risultati ed il tempo di esecuzione degli algoritmi di learning sono esplicitamente quanticati e correlati. Il modello ` formato da: e Un dominio X Un concetto, sottoinsieme di X, f X o f {0, 1} Una classe di concetti 2x Una distribuzione di probabilit` P su X a
Errore vero dellipotesi h Lerrore vero dellipotesi h rispetto al concetto target c e alla distribuzione D, ` la probabilit` che H classicher` in modo e a a errato unistanza estratta a sorte secondo D. errorD (h) P RxD [c(x) = h(x)] Le risorse computazionali che sono usate dagli algoritmi sono: Sample Size: numero di esempi necessari allapprendimento Computation time: computazione necessaria al processo di apprendimento
Polynomially PAC learnability

La PAC learnability si ha quando ` vericata la condizione di PAC l statistica e (limite al numero di esempi di training) e la condizione di PAC l polinomiale (limite alla complessit` dellalgoritmo). a Denizione1: Una classe di concetti ` PAC apprendibile in tempo polinoe miale se c` un algoritmo con tempo di esecuzione limitato da una funzione e polinomiale e con sample size t = t(n, 1/, 1/). t ` il numero di esempi sue cienti ad imparare con accuratezza e con precisione . Lerrore ` cos denito: e P (errorD (h) ) = 1 . Denizione2: Si consideri una classe di concetti C di lunghezza n, e un learner L che lavora su uno spazio H, denito su un insieme di istanze X con lunghezza n; la classe C ` PAC-Learnable (da L usando H) se per tutti i concetti, per tutte e le distribuzioni di P su X, per tutti gli tali che 0 < < 1/2, e i tali che 0 < < 1/2, il learner L dar` in output con probabilit` > 1 un ipotesi h a a che sia buona (tale che errorD(h) <= ), in un tempo che sia polinomiale in 1/, 1/, n, e con dimensione size(c). Numero di esempi necessari: m 1 (ln|H| + ln(1/)) La disuguaglianza mostrata nella formula fornisce un limite generale al numero di esempi di training sucienti a qualsiasi learner per apprendere qualsiasi concetto obiettivo in H per qualsiasi valori desiderati e . Questo numero m di esempi di training ` suciente a garantire che qualsiasi ipotesi sar` e a probabilmente (con probabilit` 1 ) circa corretta (in un raggio di errore ). a Algoritmo di learning Un algoritmo A ` un algoritmo di learning con sample e size t = t(n, 1/, 1/) per una classe di concetti F = Un=1 Fn che usa la classe di rappresentazioni C se: n 1 f Fn 7
> 0 < 1 distribuzione di probabilit` p su {0, 1} implica che: Se la procedura a di inferenza An riceve come input un t-sample esso fornisce in output una rappresentazione c Cn di una funzione g che ` probabilmente approse simata bene, con probabilit` almeno 1 che un t-sample sia scelto in a modo tale che la funzione g soddis: P {x|f (x) = g(x)} Quindi g ` good se g ` una approssimazione di f, ` invece bad e e e altrimenti.
n
Dimensione di Vapnik-Chervonenkis
La dimensione VC misura la complessit` dello spazio delle ipotesi H, non per a il numero distinto di ipotesi |H|, ma invece per il numero di istanze distinte da X che possono essere completamente discriminate usando H. Denizione: La dimensione di Vapnik-Chervonenkis dello spazio delle ipotesi H denita sullo spazio delle istanze X ` la dimensione del pi` grande sottoinsieme e u nito di X frantumato da H. Se grandi insiemi niti di X possono essere ridotti arbitrariamente in frantumi da H allora V C(H) = . Denizione: Un insieme di istanze S ` frammentato dallo spazio delle ipotesi e H se e solo se per ogni dicotomia di S esiste qualche ipotesi in H consistente con questa dicotomia. Pi` ` grande linsieme S che pu` essere frantumato pi` ` espressivo H. ue o ue Limite inferiore al numero di esempi di training
Bayesian learning
Vantaggi
Nessuna ipotesi viene eliminata, anche se inconsistente con i dati. Ad ogni ipotesi h viene data una probabilit` P(h) che sia lipotesi corretta. a P(h) ` modicato incrementalmente dopo aver visto un esempio. e Svantaggi: Dicile stimare le probabilit` a priori. a Grande costo computazionale nel caso generale.
Teorema di bayes
P (h|D) = P (D|h) P (h) P (D)
P(h) = probabilit` a priori dellipotesi h a P(D) = probabilit` del training set D a P (h | D) = probabilit` a posteriori di h dato D a P (D | h) = verosimiglianza di D dato h
Predizione bayesiana
Si calcola la probabilit` condizionata di ogni ipotesi tenendo conto dei dati a osservati. Si predice il prossimo valore di X basandosi su una media pesata fra la vicinanza di tutte le probabilit` delle ipotesi. La predizione bayesiana ` a e ottima, ma ha un alto costo computazionale.
MAP approximation
Maximum A Posteriori learning: sceglie lipotesi pi` probabile allinterno u del training data. Un metodo di calcolare il MAP ` il brute force MAP learner: e h H calcola la probabilit` a posteriori P (h|D) = a
P (D|h)P (h) P (D)
Restituisci in output lipotesi hM AP con la pi` alta probabilit` a posteriori u a hM AP = arg maxhH P (h|D)
ML approximation
Sceglie lipotesi h che massimizza la verosimiglianza di D : hM L = arg maxhH P (D|h). ` E da notare che se la distribuzione di probabilit` a priori ` uniforme allora a e hM AP = hM L . ML ` il metodo di learning statistico (non bayesiano) standard. e
Bayes Optimal Classier

Qual` la classicazione pi` probabile della nuova istanza conoscendo i dati di e u training? argmaxvj V P (vj |hi )P (hi |D)
hi H
Questo metodo massimizza la probabilit` che la nuova istanza sia classicaa ta correttamente, basandosi sui dati disponibili, lo spazio delle ipotesi e le probabilit` a priori sulle ipotesi. a
Naive Bayes Classier

` E uno dei metodi di learning pi` usato in assoluto insieme agli alberi di decisione u e alle reti neurali. Gli ambiti in cui si usa sono le diagnosi e la classicazione di ` testi.E da usare quando: Set di training di medie e grandi dimensioni. Gli attributi che descrivono le istanze sono condizionalmente indipendenti data la classicazione. Vediamo come funziona: Naive Bayes assumption: P (a1 , a2 , ..., an |vj ) = Naive Bayes classier: vN B = arg maxP (vj ) Considerazioni Il classicatore ottimale di Bayes non fa assunzioni di indipendenza tra variabili ed ` computazionalmente pesante. e Il classicatore ingenuo di Bayes ` eciente grazie allipotesi molto ree strittiva di indipendenza condizionale di tutti gli attributi dato il valore obiettivo v. Algoritmo: N a i v e B a y e s L e a r n ( examples ) For each t a r g e t v a l u e v j P( v j ) = e s t i m a t e P( v j ) For each a t t r i b u t e v a l u e a i o f each a t t r i b u t e a P( a i | v j ) = e s t i m a t e P( a i | v j ) Classify New Instance (x) vNB = a r g max P( v j ) \ prod P( a i | v j )
i i
P (ai |vj )
P (ai |vj )
10
Reti neurali
Considerazioni sulle reti neurali Da usare quando ci sono input multidimensionale a valori reali o discreti (es. dati grezzi da sensori). Da usare quando in Output c` vettore di valori. e Da usare quando ci sono Dati rumorosi nei dati di training. Da usare quando la forma della funzione obiettivo sconosciuta. Da usare quando Non ` importante la leggibilit` da parte delluomo. e a Tempi di training elevati, ma valutazione della rete molto veloce. Si usano per predizioni nanziarie, medicina, riconoscimento e produzione parlato, elaborazione di segnali... Le reti neurali sono caratterizzate da un grande numero di unit`, ognuna delle quali svolge operazioni elementari e ha molte cona nessioni con le altre unit`. Il neurone cambia stato in funzione dello stato dei a neuroni vicini. Lo schema di connessione viene modicato con lapprendimento. ` Neurone formale E caratterizzato da uno stato, una funzione di transizione, una funzione di uscita e una modalit` di transizione. a
Percettrone
Esso ` collegato ad un insieme di nodi di input attraverso degli archi pesati. e I pesi vengono ssati a caso e poi modicati. Attraverso una procedura di apprendimento si forniscono alla rete degli esempi da classicare. Se la risposta ` errata, si modicano i pesi, incrementando i pesi delle unit` di input attive e a se si ` risposto 0 invece di 1, decrementandole nel caso duale: w = w x. Un e singolo percettrone pu` essere usato per rappresentare diverse formule booleane o (, , !...). Addestrare una rete di percettroni signica attribuire tutti i pesi w0 , ..., Wn della rete neurale. Lo spazio delle ipotesi H ` linsieme di tutti i e possibili vettori di pesi a valori reali.
11
Un singolo percettrone ` in grado di rappresentare correttamente le funzioe ni booleane AN D, OR, N AN D (AN D),NOR(OR). Tuttavia alcune funzioni booleane, come lo XOR (non linearmente separabile!) non possono essere rappresentate con un singolo percettrone. La capacit dei percettroni di rapa presentare queste funzioni booleane ` fondamentale poich qualunque funzione e e booleana pu` essere rappresentata da una rete di unit` interconnesse che si basi o a su queste funzioni booleane primitive.
Perceptron training rule

Un modo per apprendere un vettore di pesi accettabile ` iniziare con pesi cae suali, quindi applicare iterativamente il percettrone ad ogni esempio di training, modicando i pesi del percettrone ogni volta che non classica un esempio. Regola: wi wi + wi dove wi = (t o)xi t ` loutput target, o ` loutput che si ` eettivamente ottenuto e ` una costante e e e e positiva chiamata learning rate. Il ruolo di questa costante ` di moderare quanto e vengono cambiati i pesi ad ogni step. Esso ` generalmente impostato a valori e bassi (0,1 per esempio) e spesso ` fatto decadere con il crescere delle iterazioni. e Facciamo un esempio: Il percettrone ha classicato male, il risultato corretto sarebbe stato 1 (variabile t) e ha ritornato -1 (variabile o). Assumiamo come learning rate = 0.1 e xi = 0.8. La variazione sar`: wi = 0.1(1 (1))0.8 = 0.16 a La regola descritta sopra converge entro un numero nito di passi ad una soluzione solo se gli esempi sono linearmente separabili. Se i dati non sono linearmente separabili la convergenza non ` garantita e si deve usare la regola delta. e
Regola delta e discesa del gradiente

La perceptron training rule bench trovi con successo un vettore di pesi quando e gli esempi sono linearmente separabili potrebbe fallire nel caso non lo fossero. La delta rule supera questo limite; se gli esempi non sono linearmente separabili essa converge verso lapprossimazione pi` simile al target concept. Lidea base u ` quella di usare la discesa del gradiente per trovare nello spazio delle ipotesi il e vettore di pesi pi` consistente con gli esempi di training. Specichiamo cos il u e training error di una ipotesi( o vettore dei pesi): 1 E() = w 2 (td od )2
dD
12
Dove D il set di esempi di training, td loutput target dellesempio di training e e d e od loutput dellunit lineare per lesempio di training d. Sotto certe condie a zioni lipotesi che minimizza E ` anche lipotesi pi` probabile in H dati gli eseme u pi di training. Visualizziamo gracamente lo spazio delle ipotesi per una rete con
due archi: Il minimo globale rappresenta lipotesi pi corretta, quella con errore minore u possibile. Ma come si calcola la direzione presso la quale scendere? E neces. Questo sario calcolare le derivate parziali per ogni componente del vettore w vettore delle derivate parziali detto gradiente di E rispetto a e si indica e w ). Questo vettore contiene le direzioni presso le quali scendere per con E( w trovare il minimo globale. Quindi la training rule : e + w w w dove = w E() w
La costante ha segno negativo perch vogliamo andare nella direzione in cui e decresce. Teorema di Minsky e Papert La classe delle forme discriminabili da un percettrone semplice ` limitata alle forme linearmente separabili. e
Multi-layer networks
I nodi sono disposti a strati; allinterno di uno strato non ci sono connessioni, i nodi comunicano solo con i nodi appartenenti a strati superiori. Esiste quindi
13
un input layer, degli hidden layers e un output layer. Obiettivo ` che, ssata una e mappa f tra congurazioni di ingresso e di uscita, sulla base di una sequenza di stimoli xk , la rete cambi i pesi delle connessioni in modo che, dopo un numero nito s di passi di apprendimento, luscita yk coincida con f (xk ) per ogni k > s, almeno approssimativamente. Sigmoide Il tipo di unit` che si utilizza in questo tipo di reti ` il sigmoide, poich` ` simile a e ee al percettrone ma basato su una funzione continua (smoothed) e dierenziabile.
Loutput o del sigmoide `: e dove
o = ( ) w x (y) =
1 1 + ey La particolarit` di questa funzinoe ` che generano un output monotono crescente a e e che le derivate sono facilmente esprimibili in funzione delloutput ( d(y) (y) dy (1 (y)) Lalgoritmo di backpropagation Lalgoritmo d backpropagation impara i pesi per una rete multi strato, data una rete con un insieme ssato di unit` e connessioni. Esso utilizza la discesa del a gradiente per cercare di minimizzare lerrore quadratico fra i valori di output della rete e i valori obiettivo. Lerrore `: e 1 E() = w 2 (tkd okd )2
dD koutputs
dove tdk e odk sono i valori obiettivo ed eettivi del k esimo output unit e del training example d.
Support vector machines

Algoritmo di apprendimento eciente Imparano funzioni di separazione non lineari complesse
14
Classe di metodi che trovano liperpiano separatore (il migliore) per classicare un insieme di punti (linearmente separabili) Bisogna trovare quindi liperpiano separatore di massimo margine (lo si fa attraverso un problema di programmazione matematica). Esiste un unico iperpiano di massimo margine. A dierenza del percettrone semplice che ha un algoritmo di apprendimento eciente ma un potere espressivo limitato, e dei percettroni multistrato che sono in grado di apprendere funzioni di separazione non lineari complesse, ma sono dicili da addestrare a causa di un elevato numero di minimi locali, le SVM sono in grado di apprendere funzioni di separazione non lineari complesse ed hanno un algoritmo di apprendimento eciente. Il classicatore (il nostro iperpiano) divide gli esempi di training in due semispazi, identicando due classi di esempi. Denizione di iperpiano: Se liperpiano passa per lorigine < w, x >= 0 Se liperpiano non passa per lorigine < w, x > +b = 0 Un iperpiano quindi ` un insieme di punti espresso in questo modo: {x| < e w, x > +b = 0} I punti da un lato delliperpiano sono tali che < w, x > +b > 0 I punti dallaltro lato sono tali che < w, x > +b < 0 I vettori di supporto sono gli esempi del training set che giacciono sul margine delliperpiano. Esistono due tipi di margini: Funzionale: Un ampio margine funzionale ci da una certa speranza sulla nostra previsione, ma basarsi solo sul margine funzionale causa dei problemi. Geometrico: rappresenta la distanza da un punto dalliperpiano. Bisogna quindi estendere il pi` possibile il margine geometrico. Se i punti non sou no linearmente separabili Classicatore NON LINEARE e quindi Classicare mediante superci non lineari. Metodi Kernel Si usano per classicazioni non lineari e per applicare ecientemente le SVM in spazi ad un numero molto alto o innito di dimensioni. Per risolvere il problema dei punti non linearmente separabili si mappa lo spazio di input in un nuovo spazio a dimensione maggiore in cui i punti sono linearmente separabili.
15
Reinforcement learning
Lobiettivo ` scegliere unazione ai che massimizzi le future ricompense: r0 + e r1 + 2 r2 + ... dove 0 < < 1 ` un fattore di sconto. Quindi si d` pi` ime a u portanza alle ricompense immediate e meno importanza a quelle pi` distanti u nel tempo. La funzione obiettivo da imparare in questo caso ` una politica di e controllo,n : S A, che d` in uscita una azione appropriata dallinsieme di A, a dato lo stato attuale s dal insieme S. Il compito dellagente ` quello di imparae re una funzione obiettivo che mappi dallo stato attuale s allazione ottimale a = (s). Il learner dovr` utilizzare un compromesso nello scegliere se favorire a lesplorazione di stati sconosciuti e azioni (per raccogliere nuove informazioni), o lo sfruttamento di stati e azioni che ha gi` imparato, per avere una ricompensa a elevata (massimizzare il suo cumulo dei premi). Stati parzialmente osservabili: pu` essere necessario per lagente di considerare le sue osservazioni precedenti o insieme con i dati dei suoi sensori al momento di scegliere le azioni. Formazione permanente: Questa impostazione aumenta la possibilit` di utia lizzare lesperienza precedentemente ottenuta o la conoscenza per ridurre la complessit` del campione, per lapprendimento di nuovi compiti. Learning task: a Eseguire azioni nellambiente, osservare i risultati e imparare una policy : S A che associ ad ogni stato s S unazione a A cos` da massimizzare la ricompensa attesa E[r0 + r1 + 2 r2 + ...] da ogni stato di partenza s. Due tipi di funzioni: State value function: denota la ricompensa che si ottiene partendo dallo stato s e seguendo la policy Action value function: denota la ricompensa che si ottiene partendo dallo stato s, eseguendo lazione a e seguendo la policy . Q Learning Che funzione di valutazione deve apprendere lagente? Lagente dovrebbe preferire uno stato s1 allo stato s2 se il cumulo dei premi a partire da s1 e seguendo una policy ottimale ` superiore a quanto si otterrebbe con s2. Quindi lazione e ottimale nello stato s ` lazione a che massimizza la somma della ricompensa e immediata r(s, a) e il valore V dello stato successore, scontato da . (s) = argmax[r(s, a) + V ((s, a))]
Esercizi
Find-s
Lalgoritmo di risoluzione ` il seguente: e 16
Si parte dallipotesi pi` specica u Se lesempio ` positivo si aggiungono tutti i parametri dellesempio e Se lesempio successivo ` positivo e presenta parametri che non concordano e allora si cancellano dal concetto nale quei parametri impostando <? >. I concetti negativi li ignoro. Esempio: S = (, , ) x1 =< debole, mite, beltempo > positivo S = (debole, mite, beltempo) x2 =< media, f redda, stabile > positivo S = (?, ?, ?) x3 negativo lo ignoro. x4 negativo lo ignoro. x5 =< debole, mite, stabile > positivo S = (?, ?, ?) Concetto nale: S = (?, ?, ?)
Candidate elimination
Si ssano estremi superiori(pi` specici) e inferiori (meno specici). Considera u anche le ipotesi negative. Consideriamo S lipotesi (o insieme di ipotesi) pi` u specica consistente con le osservazioni e G lipotesi (o insieme di ipotesi) pi` u generale consistente con le osservazioni. Svolgimento Elenco di ipotesi: x1 =< s, w, n, s, w, s > positivo x2 =< s, w, h, s, w, s > positivo x3 =< r, c, h, s, w, c > negativo x4 =< s, w, h, s, c, c > positivo Svolgimento: G0 =<?, ?, ?, ?, ?, ? > S0 =< , , , , , > Considero x1 , G rimane invariato e modico S: G1 = G0
17
S1 =< s, w, n, s, w, s > Considero x2 che ` positivo, G rimane ancora invariato ed elimino da S le ipotesi e inconsistenti: G2 = G1 S2 =< s, w, ?, s, w, s > Considero x3 che ` negativo, aggiungo a G tutte le specializzazioni minime e consistenti: G3 =< s, ?, ?, ?, ?, ? >, <?, w, ?, ?, ?, ? >, <?, ?, ?, ?, ?, s > S3 = S2 Considero x4 che ` positivo, devo rimuovere da G la terza ipotesi, dal momento e che non ` consistente ed aggiornare S: e G4 =< s, ?, ?, ?, ?, ? >, <?, w, ?, ?, ?, ? > S4 =< s, w, ?, s, ?, ? > Quindi i limiti nali sono S4 e G4 e fra loro ci sono le ipotesi intermedie.
Esercizio ID3
Idea di base: scegliere ad ogni iterazione lattributo pi` signicativo come radice u del nuovo sotto-albero. Lattributo ` tanto pi` signicativo quanto divide in e u subset tutti positivi o negativi. Entropy(s) = p+ log2 (p+ ) p log2 (p ) IG(S, A) = Entropy(S)
vvalues(A)
| Sv | Entropy(Sv ) S
Esempio di selezione dellattributo pi` rilevante: I valori degli attributi sono i u seguenti: Humidity [9+,5-], E=0.940 High[3+,4-], E=0.985 Normal[6+,1-], E=0.592 Wind[9+,5-] , E=0.940 Weak[6+,2-], E=0.811 Strong[3+,3-], E=1.0 Outlook[9+,5-], E=0.940 Sunny[2+,3-],E=0.971 18
Overcast[4+,0-],E=0.0 Rain[3+,2-],E=0.971 Per ognuno degli attributi ` necessario calcolare LInformation Gain e selezioe nare come nuovo attributo da aggiungere allalbero quello con IG maggiore. 7 7 Gain(S, Humidity) = 0.940 ( 14 ) 0.985 ( 14 ) 0.592 = 0.151 6 8 Gain(S, W ind) = 0.940 ( 14 ) 0.811 ( 14 ) 1.0 = 0.048 5 4 5 Gain(S, Outlook) = 0.940 ( 14 ) 0.971 ( 14 ) 0.0 ( 14 ) 0.971 = 0.247 Viene scelto lattributo con IG maggiore, in questo caso Outlook. Dei 3 attributi di Outlook Overcast ha solo esempi positivi e dunque ` una foglia e dellalbero. Restano Sunny e Rainy. Ora dobbiamo decidere quale attributo selezionare come radice del nuovo sottoalbero caratterizzato dal valore Outcast=Sunny. 3 Gain(Ssunny , Humidity) = 0.970 ( 5 )0.0 2 (0.0) = 0.970 5 2 1 Gain(Ssunny , T emp) = 0.970 ( 5 )0.0 2 (1.0) ( 5 )0.0 = 0.570 5 2 3 Gain(Ssunny , W ind) = 0.970 ( 5 )1.0 5 (0.918) = 0.019 Humidity ha linformation gain maggiore. Allora Humidity sar` la nuova a radice del sottoalbero.
Esercizio Naive Bayes Classier

Si parte contando tra i dati di training quali sono gli esempi negativi e positivi e per ogni attributo il numero di volte che compare in esempi positivi e negativi. Dopo di che si computa il vN B nel seguente modo: vB N = argmaxvj V P (vj )
i
P (ai |vj )
Esempio: Il nostro obiettivo ` prevedere il valore target (si/no) del concetto playTennis e per questa nuova istanza: Outlook=sunny, Temperature=cool, Humidity=high, Wind=strong. Abbiamo i seguenti dati: 9/14 playTennis=yes 5/14 playTennis=no P (wind = strong|play = yes) = 3/9 P (wind = strong|play = no) = 3/5 Ora possiamo calcolare la probabilit` per i due casi(giocare e non giocare): a
P (play = yes)P (outlook = sunny|play = yes)P (temperature = cool|play = yes)P (humidity = high|play = ye
19
Esercizio Vapnik-Chervonenkis
Siano dati: X = {1, 2, 3, 4}; C = {{1}, {2}, {3}, {4}, {1, 2}, {2, 3}, {1, 3, 4}, {1, 2, 3, 4}} classe delle ipotesi; S = {{1, 2}} insieme degli esempi. S frammenta C? Si se linsieme delle parti di S deve essere contenuto in C, compreso linsieme vuoto. C S = {{1}, {2}, {1, 2}, } Per ottenere linsieme vuoto ` suciente intersecare un qualunque insieme di S e con 4. In questo caso vediamo che esso ` contenuto, quindi possiamo dire che e dV P ` almeno |S| = 2. Verichiamo con S = 1, 2, 3. e C S = {{1}, {2}, {1, 2}, {2, 3}, {1, 3}, {1, 2, 3}, } Anche in questo caso S ` frantumato da C. Provando con S = {{1, 2, 3, 4}} e invece non si riesce a frammentare perch` per esempio non c` {2, 4}. Quindi e e dV P = 3.
Esercizio MAP
Un test per vericare se una persona ha il cancro ha due possibili esiti: positivo o negativo . Il test per` ` impreciso, il test ritorna positivo solo o e nel 98% dei casi in cui la malattia ` eettivamente presente, mentre ritore na un risultato negativo nel 97% dei casi in cui la malattia non ` presente. e
Viste le probabilit` a priori computiamo per i due casi: a
Quindi il risultato `: hM AP = cancer. e
20

Machine Learning

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Machine Learning

Caricato da

Copyright:

Formati disponibili

Apprendimento e Approssimazione

31 gennaio 2011 Tipi di apprendimento

List-Then Eliminate Algorithm

Algoritmo candidate elimination

Quando mancano valori di attributi. Dati di training rumorosi.

(Sv /S) Entropy(Sv )

Polynomially PAC learnability

Bayes Optimal Classier

Naive Bayes Classier

Perceptron training rule

Regola delta e discesa del gradiente

Loutput o del sigmoide `: e dove

Support vector machines

Esercizio Naive Bayes Classier

Viste le probabilit` a priori computiamo per i due casi: a

Quindi il risultato `: hM AP = cancer. e

Potrebbero piacerti anche