Sei sulla pagina 1di 6

CAPITOLO 2

Bene, quando mostriamo la discesa del gradiente batch sarebbe quello che fondamentalmente
abbiamo visto che abbiamo questo. Abbiamo questo macrociclo che dice che finché non raggiungi una
convergenza, fai qualcosa di OK. Uhm in questo caso questo fare qualcosa lo è. Considera ogni
singolo parametro. Quindi considera ogni singola caratteristica e per ogni singola caratteristica,
considera ogni singolo campione all'interno del mio set di dati. OK, quindi l'idea è che oggi ho il mio
iPod con me, così posso farlo anch'io. Ricorda il codice. Ok allora. ehm? OK. Va bene? Sì, puoi ancora
sentirmi, vero? Profinale Cynthia Moore. L'autobus in partenza. Mi senti ora? Sì. OK. OK. Da OK,
quindi andiamo. Dividiamo. Schermo. Ok bene. Allora qual è il punto con questo? La discesa del
gradiente batch è che abbiamo questa condizione che si ripete. Fino a quando. Convergenza. OK,
quindi questo è fondamentalmente il ciclo e all'interno di questo ciclo ciò che facciamo è che per ogni
parametro facciamo qualcosa. Quindi quello che facciamo è questo per ciascuno. Data Gee. Quindi
questo è un altro ciclo. OK, quindi quello che facciamo è calcolare l'aggiornamento, ma se dai
un'occhiata a questa diapositiva che stavo presentando in precedenza dove abbiamo che il passaggio
principale è questo è che Theta J è assegnato a Peter J meno. Alfa per 1/M. Voglio finire. Età.
Mescolare. Grazie. OK. OK, quindi per ogni dato J dobbiamo fondamentalmente calcolare questo
aggiornamento qui OK, ma se guardiamo a questo aggiornamento questo aggiornamento contiene
questa somma qui. Ma cos'è questa sottomissione? Questa somma è un ciclo sul campione. OK e poi
abbiamo quello per ogni dato J. Poi abbiamo che all'interno di questo ciclo ne abbiamo 4 ciascuno. Per
ogni campione. Per ogni campione. X. OK e poi facciamo qualcosa non mi interessa cosa facciamo.
OK, causiamo quest'altro ciclo e causiamo il set finale. OK, quindi abbiamo fondamentalmente tre cicli,
uno dentro l'altro, il ciclo interno è quello. Relativo ai campioni, poi abbiamo l'altro ciclo, che è quello.
Relativo ai parametri e, quindi abbiamo il ciclo di convergenza. OK. Funziona? È chiaro, per favore?
Spiacente. Puoi ripetere questo, uh, il nome dei cicli. ok, ok certo. Così è chiara la struttura di questi
cicli. Quindi all'interno della diapositiva abbiamo ripetizione fino alla convergenza e poi abbiamo. Su.
Hai questa formula. OK. Quindi finché non troviamo una convergenza in modo che questa parte del
ciclo dovrebbe essere ottenuta dovrebbe essere chiaro che dobbiamo eseguire questa azione qui, ma
qual è il significato di questa azione? Come lo implementiamo? Questo aggiornamento per tutti i
parametri del nostro modello? Bene, quello che facciamo è quello per ogni parametro. Calcoliamo un
aggiornamento. OK. Quindi quello che facciamo fondamentalmente è questo. Per ciascuno. Allarme.
Per ogni J. Selezioniamo la teologia corrispondente. E sui dati corrispondenti J. Calcoliamo
l'aggiornamento. Ma se guardiamo l'aggiornamento vediamo che c'è un altro ciclo, che è in qualche
modo nascosto qui ed è questo. OK, perché quando vogliamo aggiungere qualcosa relativo a tutti gli
elementi all'interno del set di dati. Il punto è che ciò che vogliamo fare è ripetere il ciclo per ripetere
l'iterazione su tutti i campioni. OK, quindi in questo caso per tutti gli occhi o per tutti gli XI con il loro
calcolo. OK. È più chiaro adesso? Sì fratello. OK. OK, quindi ora se torniamo alle diapositive. Ho
appena capito come smettere. No. OK, ora vedi di nuovo le diapositive giuste. No. 8. Scusa, ma sai, mi
sto spostando dal mio iPod. Nonostante l'invio indietro. OK, ora lo vedi OK CS. Così. Quindi questa è la
discesa del gradiente batch, OK, quindi con la discesa del gradiente batch. Per prima cosa abbiamo
mangiato per ogni parametro e poi per ogni parimetro faremo questo calcolo. Ma questo calcolo implica
che dobbiamo fare qualcosa per ogni campione all'interno del set di dati. Cosa succede con la discesa
del gradiente stocastico? Bene, in questo caso quello che facciamo è quest'altra situazione qui. Quindi
permettetemi di condividere di nuovo lo schermo dell'iPod. OK. Così. In questo caso. Quello che
abbiamo è. Spiacente. OK, quindi quello che abbiamo qui è quest'altra situazione. Significa che ce
l'abbiamo. Ripeto, ripeti. sup. Ripetere. Fino alla convergenza. E poi qui quello che abbiamo è quello? 4
ciascuno. Addestramento. Ritmo. X. Aggiornamento. Vecchi parametri. Considerando il singolo XI. OK.
Ma. Se osserviamo questo calcolo. Bene, in questo caso, questo calcolo è un ciclo 4A per ogni giorno
per Jane. Quindi di nuovo qui abbiamo il. Il ciclo su I. Abbiamo anche il ciclo e J perché in realtà questa
formula può essere calcolata come. 4 ciascuno. Data AJ. Tu sai qualcosa. OK, quindi diversamente
dalla discesa del gradiente batch, vediamo che l'aggiornamento su ogni singolo parametro viene
calcolato considerando un solo singolo. Campione di formazione. OK, quindi non abbiamo alcuna
sommatoria qui diversamente dal caso precedente. Perché non stiamo calcolando l'aggiornamento su
tutti i campioni, ma stiamo calcolando l'aggiornamento considerando un solo campione e stiamo
aggiornando tutti i. Vecchio di circa metri con quel singolo campione. OK, quindi questa è la differenza
principale tra la discesa del gradiente batch nella discesa del gradiente stocastico. Ok, perché la
panchina. Il gradiente stocastico. La discesa è più veloce della discesa del gradiente batch. In linea di
principio, mentre essere causa se guardiamo il. Se guardiamo i cicli così in precedenza. Per ogni. Per
aggiornare tutti i parametri. Avevamo per ogni singolo parametro di scorrere su tutti i campioni. OK,
perché in questo caso aggiornare su popola tutti i parametri? Dobbiamo considerare un solo campione,
un solo campione. Quindi mentre in questo caso facciamo M con M come Milano. Facciamo M diversi
aggiornamenti di tutti i parametri. OK. Quindi questa è l'idea. OK, quindi questa è la differenza
principale. Ma ora. Che cosa? Torniamo alle slide. Ma ora cosa succede? In questo caso, beh, cosa
succede va bene? Quindi, dal punto di vista algoritmico, vediamo che i due cicli sono in qualche modo
invertiti, a causa della discesa del gradiente batch abbiamo che il ciclo esterno è il ciclo sul parimetro,
quindi è il ciclo sulla catena. Perché il ciclo interno è il ciclo sui campioni? Quindi è il ciclo su I. Questo
è il caso opposto per la discesa del gradiente stocastico perché il ciclo esterno è il è il sud è il ciclo su
M mentre il ciclo interno è il ciclo sopra i parametri e quindi è su N. OK, è finita Jae scusa per J da uno
a N. OK, quindi quando implementeremo questa discesa a due gradienti e lo faremo nelle prossime
lezioni, implementeremo questi algoritmi anche se nella tua vita forse sarà abbastanza difficile
implementarlo da zero , ma sai che nel nostro caso è successo perche' noi per la nostra ricerca
avevamo bisogno di implementare tutto da zero, ma il punto è che se vuoi capire davvero come
funziona. Devi implementarlo e questa è l'idea. Questo è quello che faremo. Rispetto al comportamento
finale di questi due algoritmi, quindi abbiamo quello per la discesa del gradiente batch, che è il. Il modo
in cui funziona questo algoritmo, quindi abbiamo che ci muoviamo direttamente verso il minimo OK, ma
siamo lenti. Perché per la discesa del gradiente stocastico, che è una sorta di approssimazione della
discesa del gradiente batch? Poi abbiamo questo tipo di comportamento schizofrenico, quindi abbiamo
questo tipo di comportamento a zig zag, ma il punto è che siamo più veloci. OK, ma di nuovo, poiché
questa è un'approssimazione. Dell'algoritmo effettivo, che è la discesa del gradiente batch. A volte
possiamo anche trovare una situazione di non convergenza. OK. Va bene? È chiaro? Sì. Sì, va bene?
Quindi come possiamo? Prova a ottenere il buon comportamento in termini di tempo della discesa del
gradiente stocastico e il buon comportamento in termini di trovare il valore minimo della discesa del
gradiente batch. Bene, l'idea è quella di realizzare qualcosa che sta nel mezzo. E questa è la discesa
del gradiente mini batch, quindi con la discesa del gradiente mini batch. Quello che facciamo è
implementare la discesa del gradiente batch. In effetti, vedi che il ciclo esterno è quello J, quindi
abbiamo implementato la discesa del gradiente batch, ma non consideriamo. Tutti i campioni. Per
l'aggiornamento, ma consideriamo solo un mini lotto di questi campioni. OK, quindi consideriamo ad
esempio un mini batch di dimensione 50. Quindi per il primo aggiornamento abbiamo considerato i
primi 50 valori. Quindi per il successivo aggiornamento consideriamo i successivi 50 campioni e poi i
successivi 50 campioni e così via. OK, in questo caso non dobbiamo ciclare su tutti i campioni per ogni
singolo aggiornamento, ma allo stesso tempo stiamo usando un algoritmo per il quale sappiamo che
dovrebbe essere una convergenza. È chiaro adesso? Sì fratello grazie OK. Buona. Ok allora. In questo
caso per noi per la seconda domanda relativa alla 4° possibile condizione di arresto, quindi la
pendenza di. Il gradiente mi dispiace non è un singolo valore. Ma il gradiente è un vettore di valore
perché il gradiente è la derivata parziale rispetto a T a zero, e poi è la derivata parziale rispetto a Theta
uno, e poi è la derivata parziale rispetto a Theta tre e così via e così via. OK, quindi abbiamo questo
vettore. E quindi in questo caso, una possibile condizione di arresto è dire, OK, lo voglio. Voglio che la
norma di questo vettore sia la più bassa possibile perché ricordi che quando hai una funzione, supponi
di avere una funzione con una sola variabile. Quindi in questo caso, quando abbiamo una funzione con
una sola variabile, se vuoi trovare il valore minimo, allora il gradiente che è la derivata rispetto a X è
uguale a 0. OK. Quindi, in questo caso, poiché abbiamo elementi diversi, che contribuiscono al
gradiente perché siamo in una situazione multidimensionale. Quindi vogliamo che fondamentalmente
tutti questi elementi di questo vettore dovrebbero essere il più basso possibile, il più vicino possibile allo
zero, OK, quindi come mettere tutto insieme, calcoliamo la norma di questo vettore e chiediamo alla
norma di questo vettore essere il più piccolo possibile. OK. Quindi fissiamo il valore e poi diciamo OK
quando siamo inferiori a questo valore fisso, allora stiamo bene. OK. È una buona risposta alla tua
domanda salvadoregni? Quindi si si si si si. È il gradiente della funzione di costo correttamente, sei il
benvenuto. OK, quindi l'ultima volta ti prometto di fare questo semplice calcolo sul. Circa il gradiente,
Non ricordo cosa sia. No, è da qualche parte qui. Così. Sì, ti ricordi che ti ricordi che abbiamo avuto
questo calcolo a un certo punto quando ti hanno detto, OK, vedremo insieme come calcolarlo. Questa
derivata parziale, giusto? Quindi spero che tu lo voglia ancora. Sapere per cancellare tutto. Sai come
pulire tutto sarebbe solo uno? OK. Sto cercando di pulire la lavagna che ho qui. OK. OK. OK, quindi se
torniamo alla lavagna che stavamo usando prima. Kate sta solo pulendo. OK. Buona. Quindi
permettetemi di condividere di nuovo qui. Sicuro. Sicuro. Ok bene. Quindi cosa succede in questo
caso? Quindi vogliamo calcolare la derivata parziale. Quindi vogliamo calcolare la derivata parziale
rispetto a Theta J di 1/2 M. Il Sole. Ne ho preso uno. Casa. 0. Più uno. Grazie. Miglia perché. Piazza.
OK, quindi prima di tutto, Voglio solo ricordarti che nel caso ti avessimo ricordato solo per questa
funzione con una sola variabile. Quindi supponiamo di avere una funzione FX. Quindi, se calcoliamo la
derivata di FX. Rispetto a, è single. Variabile singola quindi questo è molto più facile da capire ma
considera che vogliamo calcolare la derivata parziale di. Svolgere la sua funzione. OK, quindi in questo
caso abbiamo G di F di X, quindi potresti ricordare che questo è uguale a. ehm? Alla derivata di. FX.
Volte. La derivata di G. Zedd. OK, ricorda questo. Spero che ti ricordi che te lo ricordi dal tuo esame di
analisi matematica. Puoi ricordare? Bene, fondamentalmente l'idea è che quando hai la derivata di una
funzione composta. Quindi la derivata della funzione composta è fondamentalmente il prodotto della
derivata delle funzioni. OK. Ingiustizia. Allo stesso tempo, quando hai la derivata della somma di due
funzioni di funzione. Allora questo è uguale alla derivata della prima funzione. Inoltre, la derivata del
secondo pugno. OK. Allora perché questo è utile nel nostro caso? Bene, torniamo alla formula iniziale.
Nel. Proviamo a calcolare la derivata parziale rispetto a. Facoltà .0. Ma in questo caso. Quindi la
derivata parziale rispetto a Tita. 0. La mia funzione è di te lo sai. Ogni cosa. È? Chiamiamola G. Lo fa.
È uguale a. OK, uno o due pollici. Quindi abbiamo qui che questa somma significa che stiamo
sommando diverse funzioni. OK così è. 1/2 N. 1. In. Parziale. OO. Pietro 0 più. Pietro uno XI. Piazza
meno Yi. OK, questa è una chiara funzione composita perché abbiamo che lo è. F. di. Beta zero 20 a
uno. Nel. Potente è il mio Sol di Fa. Zero, Figura 1. OK, quindi in questo caso se noi. Se calcoliamo
questa derivata, quindi prima di tutto abbiamo la derivata di G di XT a 0 a uno quindi in questo caso. Ti
ricordi che quando calcoliamo la derivata di X potenza qualcosa a cui è uguale. Qualcosa. Volte così in
questo caso, se calcoliamo la derivata di X al quadrato, questa è uguale a 2X. Ok allora. Abbiamo 1 / 2
M. Telefono. La canzone 1. In di. 2. Trova. 0 + 1. X mio meno Y. Oh perché io? ehm? Cinque. Il
derivato di. UFT a uno con rispetto. OK, ma se calcoliamo la derivata di questa funzione, allora questa
è la derivata di Theta Zero rispetto a 0, che è 1. Più, la derivata di Theta, uno XY meno Yi rispetto a a 0
ma questo termine qui. È una costante con effettivamente a zero e poi ci sono la derivata è uguale a 0,
quindi abbiamo solo uno. OK, quindi possiamo semplificarlo con questo. E quello' s perché abbiamo il
Risultato per la derivata parziale rispetto a legato a 0. È chiaro? Sì fratello. Ok, bene, così in modo
analogo possiamo calcolare la derivata parziale rispetto a. Per quanto riguarda la beta uno. Quindi
anche questo caso. Anche in questo caso quello che abbiamo. È. Quindi quello che abbiamo qui è
questa situazione. Così. Quindi in questo caso questo è uguale a 1 su. Due in, alcuni per me andando
a una delle derivate parziali rispetto all'una o all'altra. Tutto quello che fa O. 0. Più uno scaduto meno
potenza bianca due OK, quindi in questo caso abbiamo esattamente la stessa situazione di prima,
quindi abbiamo che questo è. G di FO Pietro O piccolino. OK, ciò che cambia qui è che questa volta.
Abbiamo che questo è uguale a 1/2 M. Campione. 02. Tempi. Pietro O Plus. XI - e I. Volte. La derivata
rispetto al titolo uno di F zero a 1. Quindi in questo caso questa è una costante rispetto a Theta uno,
quindi a Theta uno. Che hai sulla diapositiva. OK. Quindi voglio che tu sappia il motivo per cui ho voluto
fare esplicitamente questo calcolo è solo per inviarti un messaggio con l'apprendimento automatico.
Abbiamo molta matematica, molta matematica davvero spaventosa, OK perché quando vediamo tutta
questa derivata parziale delle somme di qualunque cosa di questa strana formula, quindi è piuttosto
spaventoso, OK, ma alla fine, ti sta solo spaventando lo sai, ma sai che se giochi con questa
matematica è molto facile se giochi un po' sai solo il modo in cui vengono presentate le formule è
abbastanza spaventoso. Ma quando li manipoli, sono molto semplici. OK, quindi per favore non aver
paura di questa coordinata. Questo è il messaggio da portare a casa per questa dimostrazione. OK,
quindi torniamo a OK c'è qualche altra domanda. OK, nessuna domanda. Quindi possiamo continuare.
Buona. Ok, allora continuiamo. A partire dal. OK, quindi quello che abbiamo visto finora è che è
possibile. Usando la regressione lineare. Calcolare un modello che si approssima in modo lineare
quindi da una retta o da un iperpiano se siamo stati in più dimensioni. Quindi possiamo costruire questo
modello. Questo modello che approssima i punti dati che abbiamo. Ma cosa succede quando
l'approssimazione è l'approssimazione leader è pessima. E se un'approssimazione migliore? È per
esempio un polinomio? La funzione polinomiale, quindi cosa cambia in quanto visto finora? Ebbene,
cosa cambia da un punto di vista computazionale da un punto di vista matematico? Fidati di me, non è
niente, niente, niente sicuramente. Quindi, ad esempio, supponiamo di avere questo. Abbiamo queste
due caratteristiche quindi torniamo a casa. Esempio di prezzo OK. Quindi abbiamo queste due
caratteristiche. Abbiamo davanti e abbiamo firmato OK e poi diciamo OK. Spero che la mia ipotesi sia
un'ipotesi lineare e bla bla bla quindi ci ho provato. Ottimizza i valori di. Questo fa 0 a uno e tale che gli
errori l'errore sia il più basso possibile. Sai e tutto ciò che abbiamo visto l'abbiamo già visto. Ma il punto
è che forse il frontale e il lato da soli non sono così istruttivi. Ma l'area, ad esempio, potrebbe essere
molto più informativa. Quindi un'idea potrebbe essere quella di dire OK, quindi perché non aggiungiamo
anche l'area come caratteristica, ma l'area è una caratteristica è una combinazione di frontale e
laterale. Quindi in linea di principio possiamo. Possiamo semplicemente dire OK, cosa succede se
rimuovo completamente la parte anteriore e laterale e poi aggiungo solo questo? Area come nuova
caratteristica e quindi anche in questo caso guarda la forma dell'ipotesi è questa è A è una forma
lineare, quindi anche in questo caso non cambia nulla. OK. Ma il punto è che partendo da questo
esempio, possiamo dire OK, supponiamo di avere solo una caratteristica, quindi di nuovo abbiamo la
dimensione della zona giorno, ma vediamo che un'approssimazione lineare non è una buona
approssimazione. Quindi quello che possiamo fare è dire OK. Quindi ho 0 + 0 One X come prima, ma
posso anche aggiungere X power, 2X power tre e X Power 4. Quello che cambia al mio modello è
ancora un modello lineare ma in questo caso invece di avere solo due parametri, Io ho. Conosci quattro
parametri, ma di nuovo il punto? È esattamente lo stesso da un punto di vista computazionale. È
esattamente lo stesso OK. Quindi ora l'ipotesi è un'ipotesi polinomiale rispetto alle caratteristiche. OK,
perché ricorda che quando calcoli questa X ^2 X potenza 3X potenza quattro. Quindi in pratica quello
che facciamo tu prendi il valore di X e poi crei una nuova colonna e in questa colonna di questa tabella
metti tutti i valori o il quadrato debole. Quindi crea una nuova colonna e poi metti tutti i valori per X
power tre e X power, quattro OK e poi dagli questa nuova tabella che calcoli. L'ipotesi Lee su questo
nuovo tavolo con più funzioni. OK, dove le altre caratteristiche sono una combinazione della
precedente. OK, quindi di nuovo possiamo avere una regressione polinomiale. Ma se pensiamo di
sapere che la regressione polinomiale non è nulla di diverso dalla regressione lineare in termini di
calcolo, è solo nel modo in cui calcoli e crei nuove funzionalità. Ma creare una nuova funzionalità
significa semplicemente aggiungere nuove colonne ai tuoi dati e riempire queste colonne con il
quadrato, la moltiplicazione che moltiplichi 2 caratteristiche. Puoi fare ciò che vuoi. OK, è chiaro?
Russel certo. OK, quindi quello che abbiamo visto prima è che ho delle caratteristiche. OK, quindi ho
per esempio. Ho la parte anteriore e quella laterale della Camera e quindi in base a questo e quindi
qual è il significato di questo? Ho la parte anteriore e quella laterale. Ciò significa che ho una colonna.
Scusate a tavola con il colorato con tutti i valori di fronte. Quindi ho una colonna con tutti i valori di
Sight. OK, ora supponiamo che la mia ipotesi non sia più tè a 0 + T a una volta dalla plastica. Due volte
sito. Ma voglio anche aggiungere tempi. Theta 3 dal quadrato più tre o quattro lati al quadrato più tre o
cinque volte dal sito OK, quindi sto aggiungendo. Altre tre caratteristiche da lato quadrato quadrato
davanti sto lato. OK, quindi in questo caso non ho più, sai Theta 0 + 2 per uno XX 1 + T punto X 2 + 2
per tre X3 e così via, perché in questo caso ho. Zero più dati 1X1 più 2X2. Pastita 3 X 1^2 + 3 a quattro
X2 al quadrato e così via. OK, quindi ora la mia ipotesi è un polinomio OK, ma da un punto di vista
computazionale, quello che sto cercando è il valore minimo di Theta. Zero solletico voleva due e chi più
ne ha più ne metta. OK, quindi qual è il significato di aggiungere? Quadrato scusa X 1^2 X due al
quadrato e l'altro negli altri valori. Ciò significa che ho la mia tabella originale del valore originale su
questa tabella originale. Sto aggiungendo una nuova colonna contenente il valore. I valori di X1 al
quadrato, quindi aggiungo una nuova colonna contenente i valori di X2 al quadrato e così via. OK,
quindi anche questo caso, anche se Concettualmente da un punto di vista concettuale, sto lavorando
con un polinomio. In realtà, alleno sempre un modello lineare. OK. OK ho capito così io' Sto solo
passando da uno spazio con solo due funzioni a uno spazio con più di due funzioni a uno spazio con
cinque funzioni OK. Quindi, invece di rendere il modello più complesso e aggiungere funzionalità, lascio
il modello lineare. Questa è l'idea. OK. devo guardare il. Aggiungi orologio. OK, quindi quello che
abbiamo visto finora è l'unica barriera. Regressione lineare, ma cosa succede quando abbiamo più di
due parametri, e allora? Cosa succede quando abbiamo più di una caratteristica bene. Il punto è che
abbiamo quello che abbiamo visto finora. Abbiamo fondamentalmente più funzionalità. Abbiamo più
dimensioni. Abbiamo più parametri. Ma alla fine non cambia nulla. È esattamente lo stesso. Il punto sai
l'unica cosa che cambia ora. È che J non varia da zero a uno, ma sai che cambia da zero a N, dove N è
il numero di caratteristiche che abbiamo. OK. Così. Parliamone adesso. Qualcosa che dobbiamo fare è
molto probabile che lo facciamo prima di addestrare il nostro modello. Quindi, prima di addestrare il
nostro modello, è molto probabile che rendiamo tutti i valori compatibili tra loro. Quindi è molto
probabile che scaleremo la nostra funzione rispetto a. Non voglio dire un intervallo comune, ma almeno
intervalli compatibili. Quindi, per esempio, in questo caso, supponiamo di volerlo. Vogliamo confrontare.
Non lo cominceremo a commerciare rispetto a. X1 è l'area principale. L'indice 2 è il numero di camere
da letto. Mentre questo caso non abbiamo. Non abbiamo. Il confronto tra i numeri delle dimensioni della
zona giorno e il numero di motivi. Cosa succede in questo caso? Bene, quello che succede è che
abbiamo. Il comportamento della discesa del gradiente non è così ottimizzato, ma questo non è il caso
dove abbiamo che le caratteristiche sono all'interno dello stesso intervallo o, almeno, con intervalli
incomparabili. Quindi il ridimensionamento delle funzionalità è qualcosa che può essere fatto in diversi
modi. E vediamo un 2. Due tipi di normalizzazione. Quindi vediamo il mini Max Norm in questo caso?
Quello che facciamo è forzare i valori in un intervallo OK, quindi vogliamo che i valori siano compresi
tra un valore. A e un valore B, dove A può essere 0 in Beacon e Beacon. Vogliamo per esempio.
Possiamo anche avere che a è uguale a. Non so 10 e B è uguale a 100. Dipende da dipende dal
problema che stiamo risolvendo. Quindi quello che facciamo fondamentalmente è normalizzare X.
Quindi per ogni caratteristica. OK, quindi questo è qualcosa che facciamo per ogni funzione, quindi
consideriamo X uguale a X meno il valore minimo dell'elemento diviso per la differenza tra il valore
massimo e minimo per la differenza tra la lunghezza dell'intervallo. Quindi B meno. A + 8, quindi in
questo caso stiamo normalizzando i valori più vecchi all'interno di questo intervallo A&B. Quindi questo
è un bene. Questo di solito è un modo interessante e carino per normalizzare le funzionalità, ma qui
abbiamo un problema. Quindi il primo problema è che quando abbiamo valori anomali, quindi quali
sono i valori anomali? Gli outlier sono punti dati il cui comportamento è molto diverso dal
comportamento comune degli altri punti. Quindi qui nelle diapositive per in questa vita, per esempio,
vedete che questo punto è un livello chiaro. Perché lo è, sai che il suo comportamento è molto diverso
dal comportamento dell'altro. Gli altri punti dati. OK, quindi in qualche modo potrebbe essere un errore
nei dati. Forse sì forse no. Ma non è rappresentativo del. Del comportamento dei dati. Ma cosa
succede qui? Quello che succede è che molto spesso questo li stratifica. Forza il valore dei voti ad un
livello molto alto, che non è ancora rappresentativo del dei dei dati. Quindi forse abbiamo quello che
abbiamo se abbiamo questi strati. Quindi abbiamo che i nostri punti sono all'interno dell'intervallo A&B.
Ma sono tutti concentrati sugli aiuti per esempio, OK. Questo è ciò che accade di solito, l'altro punto
negativo contro questo. Questo tipo di questo tipo di approccio è che se a un certo punto. Abbiamo un
nuovo punto dati il cui valore è maggiore di Max. Allora sai che non funziona più tutto. OK ' perché la
normalizzazione è stata eseguita considerando un valore massimo, quindi se ho un nuovo valore che è
superiore al valore massimo che avevo prima, ovviamente questa normalizzazione non funziona più.
Ecco perché di solito tendiamo a normalizzare i nostri dati utilizzando la normalizzazione del punteggio
esatto. Quello che facciamo con la normalizzazione del punteggio Z è considerare la media dei valori e
la deviazione standard del valore. Quindi calcoliamo questo su questi due parametri e quello che
facciamo è normalizzare usando questa formula qui quando lo vediamo. Vedi che noi. Sottraiamo dal
valore sono io e poi dividiamo per la deviazione standard. OK, quello che stiamo facendo chiaramente
è che stiamo normalizzando i nostri dati e poiché stiamo facendo questa operazione qui, quindi X meno
la media dei valori. Cosa noi' fare è creare una distribuzione principale 0. OK, e poi normalizziamo per
la deviazione standard. In questo caso siamo meno molto più meno uguali, molto meno influenzati dai
nostri giocatori, e non lo siamo. Non è necessario impostare un valore medio o massimo. OK, quello
che succede in questo caso è che non abbiamo un chiaro. Non abbiamo un intervallo specifico, quindi
non possiamo dire che ora il mio giorno vada da A a B, ma allo stesso pulsante. Ovviamente possiamo
dire che sono equamente distribuiti se sono distribuiti con media 0. Con la distribuzione. Quindi, se
normalizziamo tutte le caratteristiche rispetto alla normalizzazione del punteggio AZ, sappiamo che
tutte le caratteristiche hanno questa caratteristica. OK. Sì, ok, bene. OK. Così. Alcune slide fa, durante
la nostra ultima lezione, ti ho mostrato che alla fine tutto si può formulare. Come moltiplicazione di
vettori o matrici e così via. Quindi l'idea è che OK, quindi dal momento che ho questo, posso scrivere
questa normale equazione. Allora perché dovrei? Implementa questa discesa del gradiente. Conosci
tutti questi algoritmi iterativi e giochi con queste approssimazioni. Allora perché non usiamo una forma
analitica in modo analitico? Per calcolare il miglior valore. Quindi, in altre parole, ce l'abbiamo. Poi
vedremo tra un po' che abbiamo quella mia funzione di perdita. La mia funzione di errore può essere
rappresentata in questo modo. Quindi ricordiamo che X è la matrice. Rappresentando l'intero data
center, tita è il vettore che rappresenta i parametri. E perché il vettore rappresenta le etichette
fondamentalmente i valori target? OK, quindi è possibile rappresentare la mia funzione di costo in
questo modo. Quindi posso calcolare analiticamente il gradiente di questa di questa funzione, e so che
se metto il gradiente di questa funzione uguale a 0, allora il valore di Theta che soddisfa questa
equazione. Il valore è tale che ho il il minimo della mia funzione OK? Questo è qualcosa che sappiamo.
Ma in realtà abbiamo dei problemi seri qui. La prima è che quando ci comportiamo in questo modo,
dobbiamo calcolare l'inversa di una matrice. L'inverso di matrice è. È un compito che ha una
complessità di. Tutti di N potenza tre, quindi abbiamo, sai, un completo piuttosto alto. Non è una
complessità lineare, quindi non siamo molto contenti di questa complessità. Ma i problemi principali
sono che le metriche potrebbero non essere invertibili, nel senso che potremmo avere caratteristiche
dipendenti lineari, o possiamo avere che i campioni di addestramento non sono sufficienti, o che forse
ci sono troppe caratteristiche e quindi è, sai , è davvero difficile dal punto di vista computazionale
tenere tutto in memoria e fare tutto questo calcolo in memoria, ma comunque. Giusto per ricordare un
po' di matematica su tutti i vettori che sarà utile anche in seguito. Proviamo a fare questo calcolo
analiticamente e proviamo a trovare questi dati ottimali. Così. Se osserviamo la funzione di costo
originale. Vediamo che il costo originale funziona come questa forma qui che vedi nella parte superiore
della diapositiva. Ma sai questo, questo, questa formula può essere riscritta in termini di matrice e
vettori in questo. Vediamo che il costo originale funziona come questa forma qui che vedi nella parte
superiore della diapositiva. Ma sai questo, questo, questa formula può essere riscritta in termini di
matrice e vettori in questo. Vediamo che il costo originale funziona come questa forma qui che vedi
nella parte superiore della diapositiva. Ma sai questo, questo, questa formula può essere riscritta in
termini di matrice e vettori in questo.

Potrebbero piacerti anche