Sei sulla pagina 1di 8

OK, allora quello che iniziamo oggi è qualcosa. Sono stato te rispetto a quello che abbiamo visto finora.

Come ricorderete, ciò che abbiamo fatto finora è correlato a. Apprendimento supervisionato. OK, quindi
partiamo da un insieme di dati etichettati e proviamo ad addestrare modelli in grado di calcolare. Sai,
cerchiamo di addestrare modelli di classificazione o modelli di regressione OK. Quindi il compito più
vecchio può essere svolto se e solo se ce l'ho. Ti ho fatto sapere che all'interno dei miei dati ho una
funzione di presentare le etichette per il. Per le istanze che sto cercando di classificare. Oppure sai che
cerchiamo di prevedere un aiuto con l'apprendimento non supervisionato. L'idea è che non abbiamo.
Non abbiamo etichette allegate ai dati, quindi abbiamo solo funzionalità. OK, quindi qual è il punto con
questo con questo tipo? Fermare. La libertà è qual è il punto con questo tipo di approccio è, beh, il
punto è che anche se non abbiamo nessuna etichetta, possiamo fare qualcosa. Quindi ad esempio
con. Apprendimento non supervisionato, quindi supponiamo che questi dati abbiano solo due
caratteristiche, quindi in questo caso, ad esempio, potremmo identificare all'interno di questo set di dati
uno schema che dice che conosci. Sembra che ci sia un insieme di dati abbastanza simili tra loro. Qui
in questa parte dello schermo e ci sono alcuni altri dati che conosci che sono anche abbastanza simili
tra loro. Quindi, in altre parole, stiamo dicendo che possiamo in qualche modo identificarci. Alcuni
cluster di dati. OK, quindi questa è l'idea. Quindi questo è un compito possibile per l'apprendimento non
supervisionato. Quindi il clustering è l'approccio non supervisionato più famoso nell'apprendimento
automatico, ma non è l'unico approccio non supervisionato che possiamo avere. Quindi, ad esempio,
parlando di clustering. Sai che l'esempio che abbiamo visto prima è abbastanza semplice e sai che
abbiamo solo pochi dati. Quindi, calcolando le distanze reciproche tra i punti, potremmo in linea di
principio capire che ci identificheremmo con ciò che sono fondamentalmente i cluster. Ma sai, in realtà
quello che abbiamo è che molto o molto spesso abbiamo molti dati, e soprattutto non abbiamo solo dati
in due dimensioni. Almeno sai, come in questo caso, o l'OR nel caso precedente. Ma ricorda sempre
che abbiamo dati in molte, molte funzionalità. OK, quindi abbiamo molte, molte dimensioni. Non può
essere, ma non c'è un modo per rappresentare visivamente i cluster se siamo in più di 3 dimensioni.
Fondamentalmente così ad esempio, in questo caso abbiamo molti dati. Abbiamo solo due dimensioni,
ma possiamo trovare un algoritmo in grado di identificare automaticamente questi cluster di dati. Quindi
questo dato indica. Mostrando alcuni punti in comune in qualche modo, quindi questo è solo questo è
solo. Il risultato di un possibile algoritmo di clustering. Vedremo che abbiamo molti algoritmi di
clustering, ognuno con i suoi vantaggi e svantaggi, ma anche che funziona bene o non funziona molto
bene a seconda dei dati che abbiamo. Uh, un altro apprendimento non supervisionato? Ask è quello di
una riduzione molto dimensionale. Quindi, ad esempio, vogliamo ridurre le dimensioni delle dimensioni
di. Ehm sul set di dati. OK, quindi vogliamo trasferirci. Vogliamo proiettare, diciamo, il nostro set di dati
dallo spazio con te tutte le dimensioni che possiamo immaginare, sai. Ho menzionato dato dal numero
delle funzionalità 2 ad esempio lo spazio in cui abbiamo un numero molto inferiore di funzionalità. Ma in
questo caso abbiamo che le nuove caratteristiche in qualche modo rappresentano già il tipo di
agglomerato, una sorta di combinazione delle caratteristiche che abbiamo nello spazio originale. OK,
quindi per esempio, possiamo passare da. Spazio tridimensionale con spazio bidimensionale e sai,
diciamo che questo spazio è un'inclusione di quello originale. OK, quindi questo è qualcosa che può
essere fatto e questo sai che è molto utile per molte attività, ma sai, gli incorporamenti per esempio
sono proprio ora dove rimani Sai tutto ciò che riguarda l'apprendimento profondo, ma sono piuttosto
famosi nell'elaborazione del linguaggio naturale. Quindi, per esempio, dato un insieme dato un insieme
o una sequenza di parole, possiamo calcolare gli embedding di queste parole e in qualche modo
possiamo. Possiamo passare da uno spazio in cui ogni singolo lavoro è tutto funzionerà. Il lavoro
rappresenta rappresenta una caratteristica con il valore binario. Quindi ho la parola che non devo
lavorare, ma poi possiamo passare da questo spazio molto, molto sparso e altamente dimensionale a
uno spazio più basso con a con un numero molto più basso. Le funzionalità dell'app e in questo caso è
molto più semplice gestire questa funzionalità e abbiamo anche. Spero che avremo tempo per vedere
anche questi algoritmi. Abbiamo anche. Questa bella proprietà sta dicendo che vediamo che usando
questi algoritmi di incorporamento alcuni diciamo concetti emergono dal testo. Il il punto principale. Con
questi algoritmi di apprendimento non supervisionato è che in realtà ho detto che ti ho detto all'inizio
della lezione che non abbiamo etichette. OK, quindi il punto è che, ad esempio, anche se abbiamo
questo cluster quindi non sappiamo di non avere un nome per questo cluster. OK, quindi supponiamo
che questo cluster rappresenti. Non lo so. Qualunque cosa tu possa immaginare, conosci qualunque
tipo di dati tu possa immaginare. Ad esempio, la popolazione con alcuni. Caratteristiche o non so niente
e abbiamo molte dimensioni che descrivono le persone a un certo punto. Noi, sai, risolviamo questo
problema. Quindi otteniamo questo cluster ma non sappiamo qual è la semantica. Qual è il significato
di questo grappolo rosso? Era il significato di questo grappolo giallo di questo. Grappolo azzurro
azzurro. Questo verde viola o blu scuro. OK, quindi sappiamo solo che sono collegati tra loro. Sono
raggruppati insieme condividono. Caratteristiche affidabili sono molto simili tra loro tutto il giorno, ma
tutti i punti dati all'interno dell'intonaco. Ma sai che è piuttosto difficile partire dalle caratteristiche pure
dalle caratteristiche per dare prima un nome a questo cluster. OK, quindi per vedere perché questo
raggruppa perché questi dati sono raggruppati insieme. E lo stesso vale per l'incorporamento. Quindi
abbiamo questo inserimento. Quindi abbiamo questo, diciamo aggregazione molto spesso. È
un'aggregazione non lineare di caratteristiche, ma si sa a partire dalla caratteristica originale per la
quale abbiamo un nome. OK, quindi abbiamo una semantica esplicita per la funzione. Bene, le
funzionalità che abbiamo in uno spazio incorporato che conosci non sono molto. Non ci parlano, non ci
dicono cosa rappresentano realmente. OK, sappiamo che ci sono significativi, ma non conosciamo
l'effettiva semantica che portano avanti. OK, allora cominciamo con il Pozzo, avete domande finora? È
chiaro? si fratello ok grazie Luca. OK, ho. Ho una richiesta, sai che puoi accettarla o meno. Sapete che
qualcuno di voi potrebbe accendere la telecamera? Nel caso in cui. OK, lo vedo. Nessuno di voi vuole
attivare l'account, ok? No, era solo perché è davvero difficile. Sai parlare per mettere lo schermo con il
senza vedere nessuno ma comunque. OK, allora continuiamo e. Ehm, sì, abbiamo introdotto il
primissimo algoritmo di base del clustering e questo algoritmo è, sai, è abbastanza famoso perché è
molto semplice. È anche semplice da capire e anche da implementare anche se ha dei limiti. Ma
questo è alla base di tante o tante applicazioni così. Sai che è utile sapere e questo algoritmo è il
cosiddetto K significa OK, quindi qual è? Qual è il punto con K significa? OK, quindi l'idea è di
identificare due centroidi del cluster. OK, quindi iniziamo da due round. Sai, partiamo da due punti
all'interno dello spazio e poi calcoliamo la distanza. Quindi supponiamo di avere questo punto rosso,
rosso e blu. All'interno del mio spazio e quindi ho tutti questi punti rossi che voglio raggruppare OK. Le
obbligazioni verdi più antiche. Scusa se voglio raggruppare, quindi qual è l'idea qui è che posso
calcolare la distanza tra ogni singolo punto. Da questo questo punto rosso qui e da ogni singolo punto.
Questa distanza dal punto blu qui e poi diciamo OK, tutti i punti che sono più vicini a questo punto
rosso appartengono al cluster e tutti i punti che appartengono a questo che sono più vicini al punto blu
appartengono ad un altro cluster. OK, quindi questo è il primo il primo. Quindi questa è la prima
approssimazione di un possibile cluster che abbiamo. Quindi, una volta che ho questa prima
approssimazione del cluster, quello che faccio è calcolare il nuovo, il centroide di questo e il centro di
questo cluster. Quindi è la media di tutti questi punti appartenenti al al cluster. OK, quindi se calcolo il
centroide per l'ammasso rosso e il computer centrale per l'ammasso blu, quello che succede è che ora
vedo che questi punti si stanno spostando un po' bene, quindi il centro dell'ammasso si sta spostando
da qui. Per l'ammasso di destra, per esempio, si sta muovendo da questo punto qui a questo punto qui
e lo stesso è per il centro dell'ammasso blu, che si sta muovendo da questo punto qui a questo punto
qui. Ok ora. Quello che ho è che va bene rispetto a questo nuovo centroidi? Quindi cosa sta
succedendo al al al punto che alle distanze che vengono calcolate prima e poi quello che faccio è
calcolare di nuovo la distanza per tutti i punti da questa notizia letta e Troy e la distanza di tutti i punti
da questo nuovo Synthroid blu. OK. E poi quello che succede è, per esempio, che vedo che questi
punti qui sono più vicini. Sono più vicini al centroide rosso, quindi al centroide blu. OK, allora quello che
vedo è che questo punto per cui sarebbe stato classificato come blu? Ora sono stati raggruppati come
blu. Ora sono raggruppati in rosso OK e posso continuare questo processo finché non trovo un criterio
di convergenza. OK così fino a quando non si converte così. Una convergenza si raggiunge quando sai
come al solito che possiamo. Possiamo impostare un numero massimo di passaggi o possiamo
impostare. Possiamo impostare il. Un criterio di convergenza che dice che va bene se non ho più alcun
punto in movimento. Quindi e se il cluster non cambia più di annullato. OK, quindi in questo caso
abbiamo solo due cluster, ma possiamo immaginare di poterlo fare con più di due cluster. OK, quindi
vediamo che in questo caso i centroidi continuano. Continua a muoversi finché non trovo questo finale.
Questa soluzione finale va bene, e in questa soluzione finale vedo che per esempio raggiungo la fine,
incontro il criterio di arresto dicendo che sai che i punti non si muovono più tra i due cluster in questo
caso, quindi rimangono lì e allora lo so adesso. Tutto il disprezzo appartiene al gruppo blu. Tutti
disprezzano appartengono al gruppo rosso. OK, quindi questo è l'algoritmo abbastanza semplice. È
anche abbastanza facile da capire, quindi ho solo questo ciclo qui in cui ciclo per tutti i punti dati nel
ciclo per tutte le cartelle e tre volte su tutti i cluster che ho all'interno. abbiamo che la media. Quindi
quello che abbiamo chiamato. Il centroide viene calcolato come media dei punti assegnati al cluster,
dove la media è rappresentata da 1. Diviso è rappresentato come uno diviso per il numero di punti
appartenenti al cluster. OK così con questo. COK maiuscolo rappresentiamo i punti dati appartenenti al
cluster è venuto bene quindi questo numero qui è il numero di punti dati appartenenti al cluster K e poi
La nuova la nuova carta SIM è solo la somma di tutti i punti appartenenti al cluster, OK , normalizzato
da questo fatto. OK, abbastanza facile, abbastanza semplice. Sai che è un. È anche sapere se si
desidera implementarlo. Sai che puoi. Puoi farlo in pochissimi minuti. È molto, è molto semplice. È un
algoritmo di clustering molto semplice. Bene, in realtà è un algoritmo di clustering molto semplice, e in
effetti è troppo semplice, ecco perché dovremmo usare K significa solo avere un'idea solo per avere
un'intuizione di quale dovrebbe essere il modello che la distribuzione, il modello distribuzione dei punti
dati. OK, quindi usiamo questo K significa solo perché è veloce e sai che è anche facile da
implementare solo per vedere cosa sta succedendo. Ma se vuoi, se vogliamo eseguire il clustering,
forse dovremmo fare qualcosa che è un po' più complicato ed è meno influenzato, ad esempio, dai
giocatori di buyout perché puoi facilmente capire, si spera, che i livelli fuori qui sono un problema serio.
OK, perché tutti i giocatori possono cambiare drasticamente la posizione del baricentro e se cambio la
posizione del baricentro a causa degli strati fuori, allora sai che l'intero cluster potrebbe essere
completamente spostato. Sai con la cena del trasloco. Conosci il modo che è più vicino allo strato
esterno invece di stare insieme al vecchio. Gli altri punti dati. È chiaro? Grazie. OK OK grazie OK sì
bene questo è solo un altro modo per rappresentare questo processo, quindi scegliamo a caso. Non un
caso e un prezzo. Quindi calcoliamo i cluster iniziali. Quindi ricalcoliamo i centroidi finché non troviamo
questo. Emerge e abbiamo lo spazio che è ben diviso tra tutti i cluster. OK, quindi questo è un. Questo
è un esempio in cui abbiamo solo dove non abbiamo solo due cluster, ma abbiamo tre cluster. Ma
questo è solo per mostrarti che funziona esattamente. Nello stesso modo. Quindi niente cambia.
Fondamentalmente tutto questo tutto è esattamente lo stesso. Quindi in effetti vedi che qui abbiamo un
ciclo che va da I a K, quindi non lo è. Non è affatto un problema OK, um, quindi riguardo a.
Inizializzazione dei centroidi. Così. Prima di tutto, quello che dovremmo avere è che, uh, il numero, um,
il numero di cluster, ovviamente, dovrebbe essere inferiore al numero di punti dati. OK, altrimenti
abbiamo per semplicità il semplice clustering in cui ogni singolo punto dati è a. Il clustering è un cluster
stesso, ma ovviamente non ha senso. Oppure, sai, a volte se sai se non siamo molto precisi
nell'identificazione di K, quindi forse possiamo anche impostare K maggiore di N, ma in questo caso
non ha alcun senso. In così un altro possibile, un altro modo possibile per inizializzare questo centroidi
è quello di non selezionare punti casuali casuali all'interno del mio spazio. Ma possiamo semplicemente
scegliere casualmente esempi di allenamento K in modi casuali. Oppure decidiamo che voglio tre
cluster 4K OK, e quindi in base a questo raccolgo casualmente K diversi campioni dai miei punti dati e
poi decido. Che questi punti sono i miei centroidi iniziali. E poi inizio, sai, l'intero processo e l'intero
algoritmo. Sì, sì. Per quanto riguarda i per i cluster. Inoltre, in questo caso possiamo farti conoscere
una sorta di funzione che ci dice qual è il Qual è l'errore correlato a, uh, qual è l'errore correlato a
questo clustering? OK, perché come puoi vedere a seconda del a seconda dei dati iniziali che noi E
selezioniamo OK. Quindi guarda questo primo caso. Selezioniamo casualmente, ad esempio, i
centroidi iniziali in questo rosso. Errore qui e selezioniamo casualmente un altro centroide iniziale in
quest'area blu qui e un altro centrale in quest'area verde qui. OK, quindi se siamo fortunati con questa
selezione. Allora abbiamo allora, sai, un bene. Buona separazione dei punti dati all'interno dello spazio,
quindi abbiamo un buon raggruppamento. Ma dal momento che abbiamo successo poiché stiamo
selezionando casualmente questi centroidi iniziali, quindi possiamo anche a seconda della selezione
iniziale, possiamo anche avere che il clustering finale è 1, sai è questo qui dove abbiamo che tutti
questi punti sono raggruppati all'interno il grappolo blu? Solo questi pochi punti. Il nostro grappolo è
rosso e giustizia. Due punti sono raggruppati in verde o possiamo avere qualcosa del genere, ok?
Bene, per capire qual è il migliore, uh, qual è il miglior cluster che possiamo calcolare? Diciamo questa
funzione di errore qui. Quindi questa funzione qui che calcola fondamentalmente la distanza di.
Distanza dei punti dai corrispondenti centroidi OK. E ovviamente vogliamo che questa distanza sia il più
lenta possibile, la più piccola possibile. OK, quindi più piccolo è, meglio è perché se ho una piccola
distanza tra ogni singolo punto dati e i suoi centroidi corrispondenti, significa che ho un'aggregazione
abbastanza buona. OK, quindi in questo caso, ad esempio, ho un'aggregazione molto buona perché in
media. Ho per una distanza piuttosto piccola tra ogni punto e i centroidi corrispondenti, ma in questo
caso ho se considero solo i cluster rosso e verde, quindi ho abbastanza piccoli. Ovviamente ho una
distanza abbastanza minore tra i punti dati nei centroidi, ma se considero il. Il blu, il grappolo blu. Qui
vedo che ad esempio la distanza di questo punto dal corrispondente baricentro è piuttosto elevata e lo
stesso è per questo punto dal corrispondente baricentro o questo punto dal corrispondente Synthroid e
così via. Quindi contribuisce con un numero più alto a questa sommatoria qui. OK, quindi una volta che
ne abbiamo tre diversi, supponiamo di eseguire il nostro algoritmo K significa tre o quattro volte, o
qualsiasi altra volta, per capire qual è il migliore. Clustering finale in modo da poter calcolare questa
funzione di costo. E naturalmente, in base al valore più basso della funzione di costo che abbiamo
identificato, selezioniamo il miglior clustering. OK ricorda sempre che in questo caso possiamo
rappresentare visivamente il più veloce e poiché abbiamo solo due caratteristiche, abbiamo solo due
dimensioni. Ma immagina quando hai, conosci quattro, 5, sette, 100 dimensioni. Quindi non puoi
visualizzare la plastica finale, quindi non hai modo di ispezionare visivamente i risultati finali e quindi
non hai modo di dire. Oh OK guarda, questo è un buon raggruppamento. Questo è un male. OK,
questo è il modo in cui possiamo calcolare automaticamente il miglior clustering che abbiamo calcolato.
Probabile sì. Inglese, quelle cose con il rifugio incantatore, ovviamente, influenzano già il numero di
cluster RH Armor. Ecco perché, sì, vediamo che il numero di cluster è una sorta di iperparametro di
questo modello, quindi il numero di cluster è un parametro che dobbiamo impostare manualmente. E in
linea di principio non sappiamo qual è il miglior numero di K e vedremo tra un po' come possiamo.
Stima per il miglior numero di chiavi. OK, quindi possiamo stimare il numero migliore per questo per
questo iperparametro. Ok, sì. Qualche altra domanda? OK, nessuna domanda. Ok bene. ehm, OK,
questo è un modo, ad esempio, per calcolare al meglio il miglior clustering, data la funzione di costo
che abbiamo visto prima. OK, quindi per esempio per 100 volte. Ma sai che questa volta potrebbe
essere. Qualunque sia il numero che ti piace, dipende dal tempo che hai. Fondamentalmente, hai
inizializzato casualmente le camies, quindi selezioni casualmente punti dati diversi e poi per la classe
corrispondente per il corrispondente clustering calcolato calcoli la funzione di costo e poi dopo questo
ciclo esterno qui. Si sceglie l'intonaco con il minor cedimento più basso per la funzione del palo. Ok,
questi sono i vantaggi e gli svantaggi di K significa. Questo molto, molto semplice ed è sufficiente da
una parte computazionale completa di esso è molto veloce, OK, e anche termina sempre. Lo sai in
linea di principio. Ad un certo punto, avrai un punto stabile, il che significa che avremo una situazione in
cui i punti dati non si spostano più da un cluster all'altro, quindi i centroidi sono tranquilli. Sono
abbastanza stabili e sono abbastanza fissi, quindi non hai più centroidi in movimento. Oppure puoi
anche decidere che dopo un determinato numero di iterazioni lo sei. Stai bene con il clustering in cui
abbiamo trovato. Quindi in pratica termini. I dati gli svantaggi sono che, come abbiamo visto prima, non
sappiamo se il clustering che abbiamo calcolato sia quello ottimale. OK, quindi abbiamo visto che
abbiamo un criterio basato su questa funzione di costo per. Seleziona quello che sembra il migliore, il
miglior clustering. Ma in linea di principio non sapremo mai se è il migliore o meno, a meno che non ne
abbiamo un numero infinito a conoscenza, possiamo iniziare un numero non infinito ma partiamo da
tutte le possibili combinazioni di K selezione di elementi. OK, quindi se posso selezionare tutte le
possibili combinazioni dei miei elementi chiave, allora sai alla fine che so qual è il miglior clustering per
K significa che un altro punto molto negativo contro K significa è che non possiamo applicare K
significa a categorico valori categorici. OK quindi se ho che i valori associati a un attributo non sono
numeri, ma se lo sono per esempio. Colori degli animali o qualunque cosa tu possa immaginare. Sai
che sono etichettati con sempre etichette che rappresentano fondamentalmente categorie, quindi non
abbiamo. Quella nozione di distanza in tali spazi. Ok, a meno che non eseguiamo quello che viene
chiamato uno, spesso codificando. Ma va bene, questa è un'altra storia. Ma comunque, se lavoriamo
con valori categorici puri, allora non possiamo usare i giochi. E anche come ha sottolineato Angela,
abbiamo bisogno di specificare il valore di K e come abbiamo discusso prima, questo algoritmo è molto
molto molto sensibile al rumore e ai valori anomali. OK perché se ho un punto dati che è molto lontano
dai dati della cameriera che ho nel mio spazio, la distanza di quel punto dati dal dallo stesso Troy
potrebbe. Sposta il baricentro. Sai in quella direzione. OK, può guidare lo spostamento del baricentro
nella direzione dello strato esterno. OK, qualsiasi domanda. OK, se non c'è dubbio passiamo al
prossimo algoritmo, che è K medoids? OK, quindi questo può essere visto come una variante di K
significa, ma in realtà. Sai che è un po' diverso anche dal punto di vista computazionale. Questo è
questo algoritmo è più costoso da un punto di vista computazionale rispetto al semplice K significa.
Quindi cosa succede in questo caso? Quindi selezioniamo a caso. K non ricordo questo. Ascolta,
selezioniamo casualmente i punti dati K dallo spazio dati From OK e quindi iniziamo calcolando il
cluster, ma il clustering OK e lo chiamiamo questo. Questo campioni mi abbiamo chiamato Droid. Ora
quello che facciamo, proviamo a scambiare ogni singolo punto dati all'interno di un cluster con il suo
corrispondente centrale OK il suo corrispondente. Chiamiamolo centroide. OK, allora con percorri ogni
singolo punto con il corrispondente centro destra e vediamo cosa succede alla distribuzione
complessiva dei cluster. OK, quindi vediamo se i cluster. Era la distribuzione dei cambiamenti dei
cluster. Oppure rimane lo stesso, quindi puoi facilmente immaginare che per ogni singolo passaggio
dobbiamo scambiare tutto questo. Tutti tutti gli elementi all'interno di un cluster con il corrispondente
con ghiaccio. Quindi è piuttosto costoso da un punto di vista computazionale. OK, ma in questo caso
questo algoritmo è molto più stabile di quanto K significhi. K significa algoritmo. Uhm, ok sì e questa poi
la distribuzione della distribuzione del. La nuova distribuzione del cluster viene valutata rispetto alla
funzione di costo. OK, quindi vediamo che se scambio un elemento con il centro corrispondente, è
quello che succede alla funzione di costo del nuovo clustering. OK, lo sono? Migliorando la situazione e
poi abbassando il valore della funzione di costo. O la funzione di costo sta aumentando bene? Quindi,
se la funzione di costo sta aumentando, questo significa che questo è ciò che non va bene. Se la
funzione di costo diminuisce, ciò significa che forse è ciò che va bene e quindi continua con quel
clustering OK, e poi ogni volta che faccio questo scambio male aspetta la nuova funzione di costo con.
Rispetto ai precedenti, e nel caso ho un decremento della funzione di costo allora continuo con quello
swap, altrimenti rollback lo swap e continuo in un'altra direzione. OK. Quindi quali sono i vantaggi di
questo algoritmo e gli svantaggi mentre questo algoritmo è molto meno sensibile ai nostri giocatori
rispetto a K, quindi poiché abbiamo questo scambio tra tutti i possibili elementi, quindi siamo in grado di
valutare tutte le possibili combinazioni . Fondamentalmente anche in questo caso non sappiamo se alla
fine troviamo il cluster ottimale. E ancora, questo dipende dall'iniziale sulla selezione iniziale del centro.
Fondamentalmente è anche in questo caso che non può essere utilizzato per valori categoriali.
Dobbiamo specificare. noi non Non è necessario specificare il numero di cluster, è meno sensibile di K
significa, ma è ancora un po' sensibile. Un po' sensibile al nostro giocatore, ma ciò che è molto più
importante è che è davvero costoso da un punto di vista computazionale. OK perché dobbiamo
calcolare tutti questi possibili scambi OK, e questo è tutto il possibile. Le passeggiate sono molto
costose. OK, puoi dirmelo in linea di principio? Qual è la complessità computazionale dello swap
discontinuo? Chiedere. Perché esponenziale? Ho dimenticato di fare la mia costituzione come al solito.
Ok, ma considerare tutti gli swap significa che devi arrivare a confrontare ogni singolo punto con tutti gli
altri punti. OK, quindi calcolando tutti i punti confrontando tutti i punti con se stessi. Qual è il costo di
questo? Confrontando esattamente qualsiasi cuadro. Questo è un quadrato, quindi abbiamo almeno
questo N ^2. OK. OK, va bene, qualsiasi domanda finora. OK, um quindi se non c'è dubbio, mi
dispiace, ma devo adeguarmi. Mi servono i 10 minuti perché devo partecipare a una riunione ufficiale,
ma devo solo votare sì, lo sai e poi torno, ok? OK OK. OK. Ma gli svantaggi di questo approccio è che
possiamo anche avere che l'algoritmo non è in grado di convergere. Se abbiamo solo pochi punti
Alcuni dati rispetto alla miscela complessiva E Inoltre, vediamo che questo algoritmo è molto flessibile,
ma è anche molto complesso. Ma il punto è che tutta questa flessibilità e tutta questa complessità sono
sfruttate e sfruttate, anche se non abbiamo bisogno di tutta questa complessità e di tutta questa
flessibilità. OK, quindi in linea di principio. Questo è molto buono. Questo è un ottimo algoritmo. ehm?
Ma lo sai. Ma noi possiamo facilmente capire che questo è molto più complesso di un mezzo chiave o
di una guida akimi L'Aikido è un algoritmo OK uh. OK, non credo che avremo tempo per essere lì oggi,
ma nella prossima lezione vedremo anche che l'effettiva efficacia dell'algoritmo di Clustering dipende
anche dalla distribuzione dei punti dati. OK sulla distribuzione di probabilità dei punti dati, ma è
qualcosa che vedremo OK, ora possiamo finalmente dare una risposta alla domanda posta da Angela,
inizialmente per la K significa OK, quindi come selezioniamo? Il miglior valore della grotta. Allora come
lo sappiamo? Qual è il miglior numero di clienti che posso trovare in Il mio spazio dati? Bene, questa
non è una domanda facile. Uh, in effetti, quello che facciamo è stimare in qualche modo A stimare
l'Um? Fuori un certo numero di cluster. OK, quindi ovviamente possiamo facilmente capire che
maggiore è il numero di cluster. Il basso è invisibile. L'um il Il valore della funzione di costo che
abbiamo. OK, quindi immagina di essere nel caso, diciamo il peggiore, in cui abbiamo un numero di
cluster pari al numero di punti dati. OK, in questo caso, qual è l'errore? Bene, il qual è il valore della
funzione di costo, mentre il valore della funzione di costo è uguale a 0. OK, d'altra parte, se abbiamo un
solo cluster. Allora l'errore che abbiamo è il più alto che possiamo avere. OK, ora partendo da questi
due esempi opposti, puoi immaginare tutte le possibilità che abbiamo in mezzo. OK, allora vedi che se
aumentiamo il numero di cluster, allora quello che abbiamo è che ad un certo punto lo sai. Questo
errore continua a diminuire. Ma il punto è che dobbiamo trovare un equilibrio tra l'errore in qualche
modo. E il numero di cluster. Quindi vogliamo un errore il più basso possibile ma allo stesso tempo non
lo vogliamo. Così tanti cluster OK. Quindi abbiamo bisogno che abbiamo bisogno di un modo. Abbiamo
tecnicamente la formula che è in grado di bilanciare questi due comportamenti opposti. ehm? Quindi,
se non vogliamo usare formule, quello che possiamo usare è un'ispezione visiva dei nostri risultati,
quindi possiamo semplicemente inserire i diversi valori a cui abbiamo dato il numero di pastori in
questo caso. E identifichiamo il miglior numero di cluster dove c'è il gomito di questo lotto. OK, quindi
questo è. Questo è chiaramente. Uh, questo è chiaramente, sai, questo può essere visto come un
braccio e questo può essere visto come il gomito di questo braccio. OK, quindi se guardiamo la trama
possiamo dire visivamente OK, questo K uguale sembra essere 3 tre questo K uguale a tre è il miglior
valore che posso avere per my per il mio numero di cluster OK? Beh, in realtà, um, un altro altro modo
per un'altra osservazione che dobbiamo fare quando ne parliamo. Quando parliamo di questo numero
di cluster, va bene? A volte abbiamo dei vincoli relativi ai dati che stiamo elaborando. Questo ci viene
dato, ci sta già dando, dandoci il numero esatto di grappoli. OK, così per esempio. Supponiamo di
avere. Abbiamo lo stesso problema di scegliere l'esatto esatto ma due per raggruppare le dimensioni di
una maglietta delle dimensioni di una maglietta. OK, in queste tre classi diverse, così piccola, media e
grande. OK, quindi in questo caso In questo caso, ho solo questi tre cluster, ma rispetto agli stessi punti
dati. OK, quindi posso per esempio, questo potrebbe andare bene, diciamo negli Stati Uniti dove ho
solo un piccolo medio e grande o no. Forse questo va bene in Europa dove ho solo small, medium e
large, ma non va bene negli Stati Uniti dove ho anche extra extra small, small, medium, large ed extra
large. OK, quindi anche a seconda dei vincoli che ho dal mio dominio. Ancora una volta, posso
selezionare il. Posso selezionare il numero di cluster rispetto all'applicazione specifica che sto
costruendo OK quindi non solo il set di dati ma anche l'applicazione che ho Um? Quindi tutto questo
tutti questi approcci sono, diciamo, approcci manuali, quindi sono fatti a mano. Quindi in questo caso
devo ispezionare visivamente questo grafico e dire, OK, questo è il gomito, quindi K uguale a tre è un
buon numero in questo caso ho già il numero di cluster provenienti dal Venendo dal dominio. Quindi
venendo dal problema e poi dico. OK, il numero di K deve essere 3 o il numero OK deve essere 5 e
quindi posso addestrare il mio algoritmo su questo su questo numero. Ma cosa succede se vogliamo
ciò che vogliamo? Stime su come vogliamo un metodo automatizzato. Quindi anche con l'esatto sai Il
miglior numero di cluster? Bene, abbiamo diverse metriche che vedremo rapidamente nei prossimi
metodi nei prossimi minuti. Questo, um. Queste metriche si basano sugli interruttori divergenti di
Kullback Leibler. Che è un oceano. eh. Quello Sì, che è qualcosa che, date due distribuzioni di
probabilità, calcola come in qualche modo questo server di distribuzione è diverso OK? Sulla stessa
sulle stesse variabili? Um, quindi questo è molto approssimativamente, il significato della divergenza
del Libor di pullback. Puoi anche, se sei interessato, darti alcune indicazioni per capire meglio questo,
ma. Sì, questo è quello che ti stavo dicendo così. Data la distribuzione di probabilità, Qi NPI, allora
questo pullback liebler divergent misura come una data distribuzione di probabilità Pi apiai. Spiacente,
questo caso diverge dalla distribuzione di probabilità prevista OK. Quindi questa è l'intuizione principale
dietro questo è il principale sfondo teorico dietro questo fantastico scudo. Per favore. Bob, quindi a
partire da questo. Um KL KL formulazione divergente. Definiamo questo criterio che è AICDBICDICB
FM DLNFIA OK. Tutti questi approcci più antichi si basano sulla nozione di verosimiglianza e possiamo
farlo molto rapidamente e. Definire e introdurre in questo modo. Quindi abbiamo rapidamente e.
Definire e introdurre in questo modo. Quindi abbiamo che un criterio AI AIC, il criterio karaoke funziona
in questo modo, quindi dobbiamo calcolare questo valore che è due K -- 2 volte il logaritmo della
funzione dell'obelisco. OK, quindi come crea criteri? Funziona. È esattamente lo stesso modo in cui tutti
i criteri sono che vedremo funzionare. Quindi vediamo che vogliamo minimizzare la funzione di perdita.
OK, ma sappiamo che riduciamo al minimo la funzione di perdita se aumentiamo il numero di cluster.
OK, quindi ti ricordi che se aumentiamo il numero di cluster. OK, quindi ovviamente riduciamo al
minimo la funzione di perdita, ma allo stesso tempo non vogliamo aggiungere così tanti valori così tanti
clienti. Quindi vogliamo che Kate sia il più piccola possibile, ma allo stesso tempo vogliamo anche la.
L'errore deve essere il più piccolo possibile. La funzione di costo deve essere il più piccolo possibile.
Ecco perché in questo caso cerchiamo di minimizzare questa formula qui. E puoi vedere che se ho
quella chiave sempre più alta, ho un valore del criterio che cresce. OK, ecco perché ho bisogno del
valore di K che in qualche modo bilancia la minimizzazione di questo termine qui OK, ecco perché
Diciamo che il modello che minimizza il valore di AIC è quello che selezioniamo la formulazione iniziale,
ma spero che hai capito l'idea principale qui. OK, quindi abbiamo questi due termini. Quello che
sappiamo che se aumentiamo il numero di cluster rispetto alla funzione di costo diminuisce OK, ma non
lo vogliamo. Um, non vogliamo che Kate sia, um che sia così grande. OK, ecco perché diciamo, OK,
devo ridurre al minimo questa compagnia. Perché questo Quando questo termine diminuisce, questo
passaggio aumenta OK, perché sappiamo che questo termine può aumentare se aumento il numero di
casi. OK, ma io non Non voglio aumentare il numero di casi perché voglio ridurre al minimo questa
formulazione complessiva. OK, è chiaro? Sì, OK OK bene In un altro, in un altro modo, possiamo
anche introdurre questo criterio di informazione bayesiano in cui sappiamo che l'elemento che siamo
non è solo 2K, ma è il logaritmo del numero di campioni per il numero di Il numero di cluster. OK, quindi
in questo caso consideriamo. La combinazione. Bob, ehm. La combinazione di questi due elementi
all'interno del mio algoritmo va bene, e poi abbiamo quest'altro. criterio DIC, mentre funzionano tutti in
modo diverso con diversi. Con diversa formulazione con presupposto diverso sostanzialmente. Ma sai,
l'idea principale è sempre la stessa, ok? Questi sono solo i. Questo è solo un confronto tra tutto questo.
Tutti questi criteri e sai che hanno alcuni vantaggi e svantaggi. Quindi, quello che di solito facciamo è
una volta che abbiamo un clustering, completiamo tutti questi valori più vecchi. I valori per tutti questi
criteri e poi confrontiamo i valori per tutti loro. OK, questo è il principale. L'idea principale. Infine
abbiamo questo coefficiente che è il coefficiente di silhouette in questo coefficiente. Devo dire che in
questo momento è molto utilizzato in tutte le aziende che lavorano con il machine learning. Quindi tutta
questa grande azienda. Così. Quindi, ogni volta che hai un colloquio con una di queste grandi aziende,
conosci Google, Amazon o qualsiasi altra cosa ti piaccia. E ti chiedono, qual è il modo in cui selezioni?
Il miglior numero di casi OK puoi iniziare a dire OK, posso usare i metodi del gomito, quindi devi.
Accanto a questo per lasciare il coefficiente OK, perché questo è abbastanza semplice da calcolare ed
è anche abbastanza facile approvare valuta OK, quindi con il coefficiente di silhouette quello che
facciamo è quello. 4. Per ogni singolo dato che abbiamo, calcoliamo questo valore di coesione e questo
valore di separazione. Quindi la domanda è: ci dà un'idea di quanto siano ben raggruppati i punti dati?
Quindi gli uni agli altri. OK, ecco perché definiamo la coesione come la distanza media data
l'eccitazione del singolo punto la distanza media di XI da tutti della stessa classe. io rispondo. Ma allo
stesso tempo, allo stesso tempo, vogliamo che i cluster siano a posto, i diversi cluster siano il più
separati possibile l'uno dall'altro, ed ecco perché calcoliamo anche il valore separato, che è il minimo.
La distanza minima. Della distanza media di XI dai campioni in altri cluster. OK, quindi dato un cluster
dato il cluster rosso, calcolo la distanza di un punto all'interno del mio record all'interno del mio cluster
rosso. Dai punti dati negli altri cluster OK, e in questo modo posso vedere. Come, quanto sono distanti i
punti dati all'interno del cluster rosso dai punti dati all'interno di un altro cluster? OK, certo che posso
combinare questi due. Questi due valori di creazione e di separazione e posso calcolare ciò che
chiamo la silhouette. Acquisizione per il punto dati. OK, quindi vogliamo che questo punto dati sia più
vicino a 1 e sai che più vicino è il punto della sagoma, più vicina è la sigaretta .1, meglio è OK. E beh,
ovviamente sai che questa è la sigaretta per il singolo punto dati, e poi calcoliamo la sagoma per la
media di tutti i punti che abbiamo. OK, immagino che sia abbastanza per oggi. Hai qualche domanda?
La tua domanda. Mela. Vedi domanda. Murphy OK OK, caricherò questo abbastanza strano, ma nel
caso non lo fossero. Perché non sono nella cartella dei file dei nostri team. Sai che aggiornerò. Li
caricherò subito. Problema. Non sono solo niente di pratico presidente. Breve una conquista, il signor
scivolando indietro. OK, OK quindi lo farò. vado ad aggiornare. Hey. Va bene, ok allora ti ricordo che
giovedì avremo l'esame di metà semestre. Lo sai? Scusa ancora per tutti i problemi che abbiamo avuto
con le macchine, ma lo sai. Può succedere. Va bene allora. In bocca al lupo per l'esame intermedio.
Per quelli di voi che parteciperanno all'esame intermedio per quelli di voi che non parteciperanno
all'esame intermedio. Immagino che ci rivedremo la prossima settimana, giusto, sì? Si si, per l'analisi
dei big data e l'apprendimento delle informazioni, immagino che vedrà il prossimo giovedì perché il
prossimo martedì è. Destra? Sì, Prof. OK, va bene. Ok, buona serata. Ciao ciao. Destra?

Potrebbero piacerti anche