Sei sulla pagina 1di 8

Ci concentreremo sul fondamento di alcuni algoritmi che abbiamo studiato in precedenza. Durante l'ultimo.

Esercizio abbiamo trattato fondamentalmente la regressione lineare. E all'interno della regressione lineare,
abbiamo capito come farlo. Preelabora i dati di cui abbiamo bisogno e possiamo vedere quell'algoritmo di discesa
del gradiente batch standard. E all'interno dell'implementazione dell'algoritmo che abbiamo eseguito. Almeno delle
operazioni importanti di cui avevamo bisogno, quindi abbiamo diviso il set di dati. In tal caso, se mi ricordo cosa
noi. Abbiamo deciso di utilizzare una vecchia strategia di divisione e poi. Abbiamo rimosso il main e diviso i dati
per la deviazione standard e quindi stavamo usando un tipo specifico di normalizzazione chiamato
normalizzazione del punteggio zed. Quindi abbiamo implementato e utilizzato l'algoritmo di regressione lineare.
Considero in un numero complessivo di passi di 1000 noi il tasso di apprendimento certo. In questo caso è stato
modificato. E dubitiamo della regolarizzazione. Quindi utilizziamo i dati che otteniamo dalla formazione. Asciugare.
Alcuni diversi comportamenti del sistema, quindi abbiamo tracciato il. Il costo. Ci aspettiamo per gli alberi e il costo
rispetto al set di convalida. Poi abbiamo anche analizzato un plot 3D. Considerando il modo in cui ci stavamo
muovendo in a. In uno stato in uno spazio degli stati composto dai parametri di Tita. In quel caso consideriamo
solo due theta differenti per un problema di visualizzazione ovviamente quindi. Abbiamo deciso di utilizzare le
curve di apprendimento. Quindi abbiamo capito come implementarli e come usarli per capire il comportamento del
nostro modello. Prima di continuare. Quello che vorrei sapere è. Se qualcuno di voi ha qualche domanda sul
codice che abbiamo esplorato. E che analizziamo durante l'ultima lezione. Se non ci sono domande possiamo
andare avanti. Ok perfetto. Quindi posso immaginare che tutto sia fantastico, ma non dovremmo essere
disponibili. Possiamo controllare. Una ricerca ospita una grande frazione campione 1. Primos a, in Questo Caso
un campione stereospecificamente frazione 1. In vendita un indice predefinito. OK. Oh quaglia commando.
Rimescolamento temporaneo dell'amore. Mischiare. Altermann che mischia. Ciao papà. Queenie ovviamente. Lab
Rats fanno a livello regionale. Agente percentuale. OK. lei lei va bene? Equità. Per favore qualsiasi Valerie
inadempiente, orientante e solo audio Coraline? I partiti inglesi relativi sono impostati index. Un rispetto
relativamente mite e lo voglio includere. Piovere. La qualità dovrebbe condividere l'OK. Tali idee in hindi? Io troppo
in fretta. OK. Probabilmente dovrei fare una chiamata di rimescolamento. Nessuna natura, modifica STL del
sedimento. Per ora fino al mentore. Poi quando sei tornato indietro, vero? Indice di reset equivoco, un calo OK?
Equità su Internet. Il tempo all'università. Panda. Un comune dissing lo sai. Prego ci sono altre domande che non
conosco, fammi controllare qui. Lui è matto. Demi Index sì, l'ho fatto. Ci siamo alzati. Ricerca. OK. Diciamo in
questo caso. Alias. Migliore kunica artigianale vedere. Volevamo il nostro frame di dati. zio inglese. Valori da
cowboy Queenie. Invito te. Ho capito. Ho detto che hai postato una possibilità. John McCain, OSA arrestato con
solo uno inglese Timbrato con la cornicetta OK, un modo sotto il frame di dati di prova. Nuovo file. Trippin scusa K.
inverter canale Coalition Sonoma Sate anno speciale. Babbo Natale. Questo miglioramento è che semplicemente
non ci sono. Ottengono il frame di dati D aquestaspecte. La complessità è importante. Non sicuro. Susie chat
perfetta. Ci sono altre domande o possiamo? Possiamo iniziare? OK. Perfetto. Così. Ora. Possiamo concentrarci.
Sulla parte di regolarizzazione. Lasciami. Hey. Solo un momento. OK. Ora possiamo. Ora possiamo concentrarci
sul percorso di regolarizzazione. Anzi, in questo caso dobbiamo considerare un altro fattore. C'è il fattore di
regolarizzazione che prima chiamavamo Lambda. In questo codice puoi vederlo nel file delle case originali. Alla
riga 56, durante la creazione di questo oggetto chiamato lineare, a partire dalla regressione lineare di classe.
Passiamo un valore di LMD. In questo caso, possiamo dire che questo bambino sarà impostato su allora. OK. Un
EA. Se ci concentriamo un po' sul costruttore di questo di questo oggetto, possiamo vedere che ad un certo punto
alla riga 24. An nel costruttore possiamo vedere che stiamo assegnando. Ad un campo ad un attributo di questo
oggetto, il valore di Lambda Creiamo una matrice. E queste matrici. È fondamentalmente. Un vettore di riga.
Componi per un numero di voci. Pari al numero di funzioni. Quindi questo significa che se stiamo considerando,
diciamo, 5 diverse caratteristiche. Creeremo questi vettori di riga composti da. OK, a partire da qui. E poi vai a
passare attraverso le diverse diapositive. Non abbiamo considerato. T a 0. Nella parte di regolarizzazione. E
abbiamo visto che non ha senso considerare Tesio Becausw X0 è fondamentalmente un segnaposto. Perché ha
valore uno e T a zero rappresentano sostanzialmente il pregiudizio. Ciò significa che. Il dato 0 non è un
coefficiente di una caratteristica reale. Una caratteristica reale dei nostri dati. È una cosa completamente diversa.
E poiché abbiamo bisogno. Il pregiudizio. Ma questo non è affatto correlato alla complessità del modello. Piccolo
ragazzo, questo è l'obiettivo. Ridurre per modificare l'apparente complessità del modello. Non tocca che sia qui.
Anche qui quando creiamo. Questo vettore di valori Lambda. Ciò che vogliamo. È quello di trasformare la cella
relativa corrispondente. Oggi per vederti. Prendiamo la prima cella. Di questo vettore. E lo trasformiamo in
entusiasmo. Sì, possiamo mettere un'impronta. Sì, quello, diciamo South Dot. Un giorno. Ma ci serve solo per
mettere il punto di rottura. Case case mi permetta di controllare la corte. Fino a quel momento, ok. Qui iniziamo la
parte di debug. OK. Ora puoi vederlo. Il primo elemento di questi vettore riga. È 0. Mentre tutti gli altri valori sono
uguali al valore originale di Lambda, c'è stand. OK. Ora sappiamo che abbiamo questi. Questo vettore, sì. Solo
per un attimo possiamo passare alle diapositive per capire cosa dobbiamo fare. La prima parte che vogliamo fare
è trasformare il costo. Quindi qui possiamo vederlo. Abbiamo le parentesi M. In cui calcoliamo l'errore al quadrato.
OK, e poi qui abbiamo un vantaggio. Dove facciamo che possiamo vedere il? La piazza che mangia. Moltiplicato
per Lambda. Si. OK. D'altra parte, di cosa abbiamo bisogno? Il computer è l'aggiornamento? Ciò è necessario per
eseguire la parte di regressione per eseguire l'aggiornamento in gradi nella sabbia. E anche qui abbiamo il
problema del 40 a 0. Lo vogliamo considerare solo. Ha fatto uno 0 uguale allo 0 meno. Il tasso di apprendimento
diviso per AM. Moltiplicato per il valore. Oh, l'app del gradiente, in pratica. In modo che abbiamo la somma degli
errori per ogni campione nel nostro set di dati moltiplicato per X. D'altra parte, quando abbiamo a che fare con
partite che non sono deter zero, quello che vogliamo. È ottenere un aggiornamento, ovvero i dati J pari a TJ meno
Alpha meno il tasso di apprendimento. Questo moltiplica una quantità diversa. In questo caso abbiamo molto in
ogni caso la prima parte che è relativa a 1/M moltiplicato per il valore del gradiente. Ma ora dobbiamo mettere un
plus in modo da realizzare un'addizione con Lambda su M moltiplicato per Tita. Questo dato specifico. Quindi,
come puoi vedere qui siamo in funzione. Questo è fondamentalmente un misurato di questi oggetti di regressione
lineare. In cui vogliamo calcolare la versione regolarizzata della discesa del gradiente batch. La prima delle prime
cose che facciamo è, come al solito, calcolare il numero complessivo dei campioni che abbiamo. E similmente a
quanto abbiamo fatto prima, possiamo calcolarlo come uguale alla lunghezza di Landsat. Di X signore, la nostra
metrica preoccupata contiene i dati che utilizziamo per la parte di allenamento. Poi ancora. Creiamo tre diverse
strutture dati. La cardinalità del traffico pari al numero di passaggi. In cui vogliamo memorizzare il costo relativo al
training set. Il costo relativo al set di validazione e ai theta. Come. Abbiamo fatto prima. Ora. Bene, vogliamo
eseguire questo tipo di operazione di addestramento. Per un passo. E ovviamente creiamo un ciclo for. Ora di
nuovo, questo è tutto uguale a quello che abbiamo visto prima. Quindi, di nuovo, qui calcoliamo le previsioni. Uh,
come spread pari al prodotto scalare tra X e dati. E ora voglio che ti concentri su questo. Cosa stiamo facendo. È
quello di utilizzare la tecnica della regolarizzazione. Migliorare. L'apprendimento del nostro algoritmo. Ma questo è
diverso dal dire che dobbiamo usare Lambda. E-mail o una protesi. Va bene, la protesi non viene modificata.
Quindi questo significa che le previsioni. Sono fatti. Come abbiamo fatto prima. Se abbiamo deciso che
sostanzialmente il valore del prodotto tra X&Y, significa che anche qui? Laddove stiamo applicando la
regolarizzazione, la previsione verrà calcolata allo stesso modo. E ovviamente facciamo la stessa operazione per
calcolare le previsioni relative al set di validazione. In questo caso, calcoliamo il prodotto scalare dell'ascia
corrispondente al set di convalida moltiplicato per theta. E ovviamente possiamo calcolare l'errore per entrambi.
Gioco calcoliamo l'errore pari alle previsioni meno i valori reali. Per il set di allenamento. E e dall'altra parte,
possiamo vedere che le previsioni o elette al set di convalida. Moltiplicando la X valutata per l'insieme di
variazione. Uh, non moltiplicare. Potremmo essere l'errore relativo al set di validazione come le previsioni che
abbiamo fatto sul set di validazione meno Il Perché i valori effettivi del set di posizione? Quindi per ora finora.
Tutto è. Lo stesso di prima. E ora nel calcolo dell'aggiornamento, possiamo vedere che questa situazione è molto
diversa. Ora la cosa migliore che possiamo fare è seguire questa riga di codice, la 79. Qui e sulla diapositiva. Qui
possiamo vedere che abbiamo un. OK. Ok, fammi aprire. L'aggiornamento qui. Ora. Fondamentalmente, non lo
faremo. Per realizzare questo tipo di operazione che puoi vedere per 40 G. Ma considerando. In Lambda questo
non è un singolo valore scalare come in questi. Formulazione che puoi vedere. Ma ora Lambda è un vettore. In
modo che possiamo vedere che abbiamo un Lambda diverso per ogni dato. Quindi 40 a 0 questa Lambda come
abbiamo visto prima. Come valore 0 e. Per tutti i diversi dettagli. 40 a voler insegnare. 3 Fino a quando non
abbiamo raggiunto in un. Abbiamo il valore effettivo di Londra. Quindi qui quello che vogliamo è Tita, Tita, J in
questo caso. Ma ora stiamo cercando di unificare queste due righe dell'aggiornamento usando questo trucco. Del
vettore Lambda. In modo che abbiamo un dato uguale a Tita meno. Il tasso di apprendimento, cioè, moltiplicando
una grande quantità qui. OK. Quindi qui abbiamo i miei dati pari a Tita meno una grande quantità qui. OK, quindi
la situazione è sostanzialmente la stessa all'interno di queste grandi quantità. Abbiamo il. Tasso di apprendimento.
Questo moltiplica un'altra quantità. moltiplicato per questa grande quantità tra parentesi. E questo è esattamente
ciò che otteniamo qui. 1 / R moltiplicato per il tasso di apprendimento moltiplicato per queste grandi quantità qui.
OK. Ora, all'interno di questa grande quantità, ciò che vogliamo è la somma su tutti i diversi campioni dell'errore
moltiplicato per X. Questo è fondamentalmente il gradiente. E possiamo. Mangiare. Abbiamo esattamente questa
quantità. L'errore moltiplicato per X. D'altra parte, vogliamo l'aggiunta di cosa? Oh, dati. Moltiplicare per la Lambda
OK. Mentre abbiamo già studiato perché stiamo usando la versione trasposta di X qui e l'errore per ottenere la
forma giusta, potete immaginare che qui stiamo vivendo la stessa cosa. E questo è il motivo per cui ne abbiamo
bisogno. Fondamentalmente un vettore di riga qui e stiamo usando la versione trasposta di Tita qui. Quindi alla
fine. Abbiamo un battito trasformato questo. Questa formula di aggiornamento. Considerare. Inoltre, il coefficiente
Lambda nel modo giusto. È tutto chiaro o avete domande per favore? Sembra di no. OK. Una volta che abbiamo
calcolato. Il valore dei dati. Il nuovo aggiornamento dei dati. Possiamo memorizzare il nuovo valore. Nella nostra
storia di insegnanti. Quindi quello che possiamo fare è calcolare il costo. E formulazione del costo. Come. Quello
che abbiamo visto prima. Fondamentalmente questo. OK. Quindi sì, ricapitoliamo. Il valore del costo è 1/2 M
moltiplicato per. Una grande parentesi composta dall'errore al quadrato. Di tutte le diverse decimazioni degli errori
al quadrato sui campioni. Più i valori al quadrato delle diete. La sommatoria delle versioni quadrate di theta
moltiplicate per Lambda. Ciao sì, possiamo vederlo. Abbiamo ancora 1/2 AM moltiplicato per. Lasciami. Notizia.
OK. Moltiplicalo per. La somma degli errori al quadrato. Ricordi questa formulazione? Sei PS? Più il valore di
Lambda È il valore del colore. Ricorda, questo è il valore scalare non è un vettore. Moltiplicato per. Che cosa? Il
quadrato. Poiché stiamo moltiplicando il punto, stiamo eseguendo un prodotto scalare tra self Tita e self Tita. E
stiamo facendo queste rose. Per Collins, ma qui non stiamo considerando tutto il vettore di dettaglio, ma stiamo
considerando i valori di questo vettore a partire dal secondo indice e puoi vederlo con questa colonna. Una
colonna. Quindi qui stiamo considerando solo i dettagli partendo da T a uno e andando avanti, e non
moltiplichiamo questo per se stesso e alla fine otteniamo la somma al quadrato dei quadrati. Tutti i vecchi valori. E
una volta ottenuta questa somma, la moltiplichiamo per il valore di Lambda. E poi lo aggiungiamo agli errori al
quadrato. OK. E questo è abbastanza chiaro, dicono. D'altra parte, possiamo usare la stessa tecnica per calcolare
il costo. È correlato al set di convalida. L'unica differenza qui è che stiamo considerando yaroze sul set di
convalida. Il computer squadra gli errori. Stiamo considerando questi diversi valori. Un ovviamente come al solito.
Torniamo. Tutti e tre questi sono tre matrici diverse Ogni giorno le storie dei costi. I vettori sono array. Mentre la
cronologia dei dati è efficace e matrice. E. OK. E ora potremmo. potrei eseguirlo. Possiamo ottenere questo
valore. C'è questo movimento nello spazio di ricerca. E poi possiamo calcolare le curve di apprendimento che
vanno bene. Ho interrotto la corsa. Perché fondamentalmente non siamo interessati e. Nelle curve di
apprendimento. OK. Rumore. Spiacente. OK. Ora. Ora. Noi possiamo. Possiamo concentrarci su un altro. Un altro
algoritmo diverso è la discesa del gradiente mini batch. Nelle diapositive. Abbiamo idolatrare quel giorno è. OK.
Posso fare. desiderio. Yocius nel significato distintivo. L'idea è di realizzare il tipo di a. Un compromesso è una
specie di compromesso. Bit consumato in estremo, ovvero la discesa del gradiente batch in cui possiamo vedere
contemporaneamente i campioni più vecchi. Aggiungi l'altro estremo che è la discesa del gradiente stocastico.
Cioè, considerando solo un singolo campione. La considerazione è un certo numero di? Di campioni da
considerare contemporaneamente, diciamo che abbiamo un Abbiamo 100 campioni. Un'ora. Sai che set di dati? E
noi vogliamo renderci conto. Uh, un mini gradiente batch. Il lotto di Sand Considerando è composto da 50
campioni. Ciò significa che per completare. Una sola epoca. Considererò. Due allenamenti diversi. Il primo
composto da. 50 campioni. In cui vogliamo, vogliamo realizzare il nostro e poi usiamo l'altro. 50 Samples tenta un
altro passaggio, un altro passaggio secondario. Di apprendimento. Considerando questi altri $ 0,50. Quindi ecco
l'idea. Per dare un'occhiata a un certo numero di passaggi di epoche, diciamo. E non l'abbiamo fatto ciascuno.
Giro di questo ciclo. Vogliamo considerare. Eseguo il ciclo su diversi lotti. Se abbiamo solo due batch, itereremo
solo due volte, altrimenti in base al numero di batch lo faremo. Hai qualche domanda sull'idea del batch di discesa
del gradiente mini batch prima di passare al codice? Se hai domande, pubblicale ora in modo che possiamo.
Possiamo risolverli insieme Un debito importante. Tutti questi. Tutte queste feste troppo facili. OK. OK, anche qui,
quello che calcoliamo la prima parte della nostra reputazione è legato alla creazione dei diversi array che
utilizzeremo in seguito. Quindi anche qui abbiamo la cronologia dei costi, abbiamo il problema dei costi relativo al
set di convalida e alla cronologia del riscaldatore. Di nuovo come prima. E poi possiamo calcolarlo il numero
complessivo dei campioni che abbiamo. Come io come ero. Menzionandoti quello che vogliamo fare qui è
realizzare un ciclo for, salutiamo in generale per un certo numero di passaggi che chiamiamo anche epoche.
Aggiungi alla fine. Decidiamo di inizializzare il costo del costo neurale sul training set. Due in valore 0. Quindi
possiamo calcolare il fatto. Predizioni? Rispettiamo il set di convalida allo stesso modo di prima. E l'errore relativo
alla convalida è impostato allo stesso modo di prima È il numero di lotti composti che ho corretto? Numero di
campioni. Quindi qui possiamo immaginare di averlo memorizzato. Queste informazioni non si trovano in una
variabile chiamata dimensione batch. E puoi vedere che eccoci qui, supponendo una dimensione del lotto pari a
10. Ora. A partire dalla riga 139. Vogliamo realizzare un ciclo for. Questo è in grado. Considerare. I diversi lotti. Un
possibile modo per farlo? Di solito se mettiamo solo diciamo. Gamma 0 AM. Ritorna è un generatore, ma
possiamo vedere che in generale restituisce le valli. Con il primo passo partendo da zero. E arrivando a meno
uno. OK. Se mettiamo. Valore passo un valore della dimensione del passo. Diciamo 2. Lo stiamo dicendo. Questa
funzione di intervallo dovrebbe restituire come valori. Santa Cruz Zero e raggiungendo M -- 1 con il passo di due.
Quindi non otterremo 012345 e così via, ma otterremo 02468 Otteniamo. 0. Dimensione del lotto. Dimensione
batch moltiplicata per due dimensione batch moltiplicata per tre e così via fino a raggiungere M -- 1. OK. Quindi
possiamo immaginare di poter supporre che io quella variabile io rappresenti il punto di partenza, l'indice certo. Di
una *****. Perché all'inizio ha valore 0. Nel secondo ciclo, nel secondo ciclo di questo ciclo. Ha una dimensione del
lotto di valore. E così via. Perfetto quindi se vogliamo realizzare una vista come pidocchi, diciamo sul set di dati
originale sulla nostra X originale. Basato su Derose che va da I. Do più la dimensione del lotto meno uno?
Possiamo renderci conto se ti piace che vedi nella riga 100. Dove stiamo dicendo che i nostri atti del lotto. Quindi
XI. È uguale a una vista sulla nostra X originale. Fatto partendo da I e proseguendo. Io più la dimensione del lotto.
Quello non è incluso, quindi stiamo considerando la dimensione del lotto meno uno. E poi sostanzialmente.
Questa situazione è completamente la stessa della bash originale. Procedura. Perché ora abbiamo due nuovi X&Y
e tu paghi di X&Y. Quindi sembra che la nostra procedura sia già pronta per lavorare. Dai un nome a queste
matrici. Possiamo applicare la procedura alle nuove strutture dati. Quindi, se possibile, possiamo calcolare le
previsioni come il prodotto DOT tra XI e Self Tita. E tu sei allo stesso modo perché non l'ha fatto? Perché io? E poi
possiamo andare avanti. E facciamo esattamente la stessa operazione. La differenza qui? È allora che vogliamo
calcolare i costi? E quando abbiamo realizzato l'aggiornamento. Dobbiamo ricordare che queste matrici. Non sono
composto da campioni M. Quindi non possiamo calcolare la nostra operazione considerando 1 / M uno su 2M.
Orecchio. Dobbiamo considerare. Una diversa quantità di campioni. Questa è la dimensione del lotto. Perché ora
lo sappiamo. Che ciascuno di questi lotti. Abbiamo la stessa lunghezza. O XI. Riesci a vedere la Lanova XI? X.
Oh, oppure possiamo considerare la prima forma di X. Qualcosa del genere. Forma. Sear OK. Queste due
formulazioni sono. Fondamentalmente meglio perché possono vedere che anche il. L'ultimo lotto che molto
probabilmente non è composto dallo stesso numero di lotti di campioni nel lotto. Ma oltre a questi, tutto il resto
della nostra procedura è esattamente lo stesso e puoi confrontarlo con quelli che abbiamo eseguito prima. Stiamo
ottenendo una buona parte di formazione. Ma prima di fermarmi un attimo, cosa vorrei. È spararti. Se riesco a
riprodurlo. OK. Uno strano comportamento. Guarda qui. Se noi. Se analizziamo il. La situazione in cui ci troviamo
di fronte. Durante questa formazione. Possiamo immaginare che forse potrebbero esserci errori nei nostri valori
sono leggermente diversi ma sono inclinati. Su e giù. A partire dalla prima iterazione. Attraverso l'operazione
1000. E il nostro modello. Non è in grado di migliorare o imparare nulla. OK, allora cosa sta succedendo qui?
Perché il nostro? La nostra procedura di apprendimento non funziona più. Quello che ho fatto è modificare. Il
tasso di apprendimento. Fammi trovare. OK. Qui puoi vedere che prima avevamo un comportamento del nostro
apprendimento come questo. Stiamo andando più e più volte le iterazioni, e poi otteniamo un costo che è. Molto
più basso di prima. D'altra parte, se usiamo a 2. Al valore Y ad un grande valore del tasso di apprendimento,
possiamo divergere e otteniamo la situazione che puoi vedere nel secondo grafico. Ma qui. Siamo di fronte a una
situazione molto rara che è la terza. La nostra posizione di formazione. La nostra procedura di formazione. Inizia a
inclinare. Ricerca dettagliata su e giù in modo da poter affrontare una situazione di ribaltamento. In cui siamo stati
leggermente meglio. Valore leggermente peggiore del del del costo dell'errore, ovviamente. E questo sta
accadendo di nuovo di nuovo di nuovo. Fino a quando non abbiamo raggiunto la fine della procedura di
formazione. E non siamo stati in grado di imparare nulla. Ma in questo caso, non appena I. Riduci. Il tasso di
apprendimento. La nostra procedura. Ricomincia. Per convergere. Presto allarme Canta Prodotto accidenti.Vedi
vittoria. Ok, eh. Forum per unghie maturo formalmente. OK, dì eco an. Supporto Non smettere. Crystal lo ha
menzionato così. Non lo so. Capire. Quindi ora possiamo essere soli. Correttamente. OK. Ciao Alice così. Bella
giovane video auto tita SIM. Perfetto. Solo il loro elemento di sé D. Volume. Così Lamente editore. Inoltre, non
posso mangiare a 0. Ho solo pensato. Sushi. Non mi va bene questo. Self Ella sottolineatura media. Ecoso OK.
OK. Capitale della domanda CC. Multi ad Anchor limitato litoraneo. Mangiatore di erbacce. Ma fino alla fine del
meglio. Audacia. Ho detto che ho visto. La mia visione. NUM py array. Dicerandra Jack Nero. OK tipuana Cosa?
Bell video generale. Qui. Lo sai? Per lo più contatore per Shaper Bend se necessario. Grazie. Basta non farlo Tori.
In realtà intendi il saggio Norman African, sai? Molto tranquilla. Pochissimi gioielli in vendita per Porto Tita.
Moltiplica automaticamente. Pazzo. Naboo, quindi sai che è l'unico. Freccia di Tokio. Ok, sushi. Ok perfetto. Sul
browser della tua comunità. Un camion duplicato. Se tu fossi un. La piccola Missy Mcqueeney, Sarah. Le uscite
sono. Può verificarsi una discesa del gradiente stocastico di legge. Isola. dilemma. In alcuni di essi, in un simile
gradiente stocastico, la discesa del gradiente implementerebbe i dati e lo è. Insieme OK adobo. Aggiungi il rococò.
Ok noi' torna indietro. E. Ora posso iniziare e molto probabilmente hai già iniziato a implementare questa discesa
stocastica del gradiente. In modo che io possa vedere che possiamo. Possiamo dedicarci. Diciamo. 510 minuti per
questo tipo di implementazione e poi. Il primo di voi che è in grado di realizzare il codice, lo vedremo e poi
potremo andare avanti. Per concentrarsi sulla parte di regressione logistica. Ovviamente se hai qualche tipo di
problema. Per favore mi faccia sapere. In modo che possiamo, possiamo risolverlo insieme. OK. Qualcuno di voi
ha terminato l'implementazione? immagino adesso. Ma comunque, quello che vorrei dirvi è questo. La parte degli
esercizi e l'implementazione. È fatto anche. Mettiti nella situazione che puoi provare il codice. E puoi trovare.
Persone come me o i nostri colleghi che sono in grado di risolvere il tuo problema. Se non provi affatto a
implementare questo tipo di codice. Sarà molto molto. Arthur affinché ognuno di voi capisca cosa stiamo facendo
qui e fuori per realizzare il vostro sistema e ovviamente superare automaticamente il vostro esame. Quindi il mio
umile suggerimento è quello? Ti sfrutti, ne approfitti. Di queste situazioni. Quindi Per questo motivo. Ah. Prima di
iniziare questa lezione, abbiamo deciso un elenco di diverse implementazioni da chiederti. E alla fine della lezione
e lo faremo, ci fermeremo un po' prima oggi alle 6:30. Vedrò che ti dirò la vecchia lista. Delle implementazioni che
ci aspettiamo da te. In modo che durante la parte successiva dell'esercizio puoi mostrare. Cosa hai fatto? Perché
ovviamente. Per renderlo più efficace per te. Devi mettere le mani sul cappotto. Non solo sì, ma comunque.
Possiamo andare avanti. Posso condividere il gioco sullo schermo. E possiamo passare al set di dati della Terra.
Penso che quell'anno ne avremo bisogno. Sì anche. Seleziona il bit corretto di questi codici. X0. Accedi qui oh OK.
In questo caso abbiamo un set di dati diverso che stiamo considerando e questa è una cosa importante perché mi
è stato detto che alcuni di voi sono un set di dati di regressione lineare da realizzare in un'attività di regressione
logistica log e in un'attività di classificazione generale. Ora distinguiamo le due cose. Lo stesso su alcuni set di
dati. Quello che ovviamente ci viene chiesto. È realizzare un compito di regressione. Ciò significa che, ad
esempio, ho detto che come quello delle case è perfetto per i compiti di regressione perché abbiamo una variabile
valutata continua come obiettivo. Questo è il prezzo. Delle case. Non abbiamo equilibrio. Non abbiamo categorie.
Non abbiamo classi. Non lasciarti ingannare dal fatto che la classe forse 1023 e così via. Sono classi. Non
specificamente numeri. E quando abbiamo a che fare con i numeri. Di solito in un compito di classificazione
abbiamo a che fare con le probabilità. Lascia il campione. Appartiene a una classe specifica. OK. Così. Ora se
ricordi. Quando noi. OK. Quando ci siamo concentrati sulla regressione logistica, abbiamo analizzato. Questo tipo
di algoritmo. composto dalle diverse caratteristiche e dai nostri teatri. Ma ora. L'ipotesi è il sigmoide. Di. Il prodotto
scalare. E abbiamo visto le diverse ragioni che ha quell'accordo che ci ha portato a scoprire questo tipo di
funzione. E per usarlo. Quello che vogliamo fare ora è creare e tu e tu sei la funzione e la potenza dell'interfaccia
utente che consideri. Questa nuova funzione sigmoide e la funzione sigmoide è finita. Uno in più. E. Alla potenza
del meno il prodotto scalare. OK. Abbastanza logico, questo è ciò che vogliamo nel nostro codice. È definire. Una
nuova funzione chiamata sigmoide. In questo caso, possiamo passare a questa funzione. Il valore del prodotto
scalare. Quell'anno si chiama Zed. E quello che vogliamo da questa funzione è ovviamente la formulazione che
abbiamo visto prima, quindi vogliamo 1/1 + E alla potenza di meno zed. E puoi vederlo qui. A partire dalla linea 29
e passando per la linea 35. OK. Ora possiamo tornare sulla Terra e possiamo vedere cosa faremo prima qui.
Come al solito, quello che faremo è aprire. Questo insieme di dati. E possiamo vedere che qui abbiamo alcune
informazioni. Questo è legato a un po' di pazienza. E quello che vogliamo è prevedere se questi pazienti. stanno
andando o no? Per avere qualche malattia della terra. E tra le caratteristiche possiamo vedere H, sesso, CP Treas
BPS. Cheat olio e così via. Immagino che questi siano alcuni tipi di analisi di esami clinici exova, test clinici. Che tu
puoi. Ah. Che puoi ottenere e devi fare e questo tipo di terra. Questo è un problema. E al Diciamo sull'ultima
colonna. Orecchio. La colonna denominata Target. Puoi trovare il risultato. Quindi se questo paziente che
possiamo vedere alla riga 2. Di fatto è stato colpito da questo tipo di malattia. Ora è chiaro che il nostro compito è
creare un sistema che sia in grado. Prevedere questo genere di cose, e questo è chiaramente un compito di
classificazione. Così possiamo tornare sulla Terra per spiare. E possiamo vedere che in generale le operazioni di
elaborazione In modo che possiamo leggere il set di dati, quindi possiamo stampare la descrizione di esso in cui
abbiamo visto che siamo in grado di vedere quel valore minimo per ogni colonna, il massimo valore. Possiamo
vedere anche i quartili. Poi di nuovo, quello che facciamo è mescolare i dati. E di nuovo ci dividiamo. Le prime
colonne. Dall'ultimo. Perché le prime colonne. Sono i dati che stiamo usando per prevedere l'ultima colonna?
Quindi di nuovo, anche qui trasformiamo i dati originali in una matrice. E confidiamo per il perché il risultato nella
colonna di destinazione. E stiamo calcolando e poi usando la media e la deviazione standard che abbiamo
calcolato sul training set. E poi applichiamo questa trasformazione. Questa media a questa deviazione standard
calcolata sul training set. Lo applichiamo sul set di validazione e sul set di test. OK, non calcoliamo di nuovo la
media sui nuovi dati. Usiamo ciò che abbiamo calcolato sul training set. Perché questo è l'unico dato che
conosciamo. Ok, questo è molto importante. Ora possiamo. Possiamo eseguire esattamente le stesse operazioni
prima di applicare questa trasformazione. Quindi quando possiamo aggiungere la colonna con un valore. A
sinistra del nostro dataframe, fondamentalmente la nostra matrice. In modo che creiamo la colonna XO. E poi
usando gli indici come abbiamo visto prima, possiamo. Possiamo mantenere la convalida il set di convalida nel set
di addestramento e nel set di test. Quindi possiamo dire che fondamentalmente quello che abbiamo fatto partendo
dalla riga 0, diciamo, e passando per la riga 50 è esattamente lo stesso di prima. Ma ora quello che vogliamo
creare è un diverso tipo di oggetto che ha molte, molte somiglianze con l'oggetto di regressione lineare. Ma ci
sono alcuni aspetti su cui vogliamo soffermarci. Anche qui, quando creiamo questo tipo di oggetto, memorizziamo
il tasso di apprendimento, il numero di passaggi, la D per an. Ovviamente il fattore Lambda, il fattore
organizzazione. OK, ma ora vediamo che abbiamo definito una nuova funzione che è la funzione sigmoide. Ora
possiamo concentrarci sui piedi. Anche qui quello che vogliamo è restituire un vettore e un array di valori che è
composto dallo storico dei costi per quel reset e dal set di validazione. Quindi anche qui creiamo questi array e li
inizializziamo a zero e sentiamo anche cosa facciamo per creare una nuova matrice. Che conteniamo diversi
valori di dati per ogni iterazione durante la discesa di addestramento per. Anche la regressione logistica lo è.
Creare la previsione utilizzando ipata SIS. Ora. Se guardiamo. OK. Se osserviamo il. Il gradiente che otteniamo,
possiamo vedere che il gradiente è sostanzialmente lo stesso della regressione lineare. Ma attenzione. Al fatto
che qui. HT a vax. È diverso. Quello che facciamo è calcolare il sigmoide di. Dosare il prodotto. Tra gli atti
formichiere. Quindi, alla fine, ciò che otteniamo è fare questo prodotto scalare. Fondamentalmente otteniamo il
prodotto scalare. Per ogni elemento. Per ogni campione. OK. Bot. Ora. Ciascuno di questi prodotti scalari. Al bus
per un'altra funzione, il sigmoide. Quindi abbiamo visto che dopo il prodotto DOT tra X&Y a, ciò che otteniamo è
un array di elementi. OK, quindi prendiamo il primo elemento e applichiamo il sequent. Poi andiamo al secondo e
facciamo la stessa operazione e così via. Quindi alla fine. La forma di questa matrice è la stessa. È l'una del
mattino. Ma il significato? È diverso. Perché sappiamo che ora ciò che è contenuto è la probabilità che quel
campione. Appartiene alla classe 1. OK. E possiamo eseguire la stessa operazione per la convalida impostata alla
riga 54. Ora. funzioni all'interno delle quattro cartelle per ciascuna. Per ciascuno. Quale passaggio abbiamo deciso
come iterazioni. Ma se ci pensi un po', puoi capire che in questo modo otteniamo direttamente alla riga 53 e 54
due vettori che corrispondono alle previsioni. Con la stessa forma di prima. E questo significa. Quello d'ora in poi.
La procedura. Sarà lo stesso di prima. Per la regressione lineare. Quindi qui possiamo calcolare la freccia come
prima come dispositivo di previsione meno. E quindi possiamo realizzare la stessa operazione in cui Data è
uguale alla maledetta parentesi meno grande che contiene il server. Tasso di apprendimento. Over sono
moltiplicato per il prodotto scalare. Di. X moltiplicato per l'errore che è lo stesso che puoi vedere qui. E ovviamente
in questo caso stiamo considerando anche il fattore Lambda. Esattamente come abbiamo fatto prima. Perché hai
già studiato che alla fine, quando calcoliamo il gradiente, le derivate della funzione dell'entropia incrociata, cioè il
costo della regressione logistica, abbiamo ottenuto lo stesso aggiornamento. Ma ricorda. Questo non è
esattamente lo stesso aggiornamento perché l'ipotesi è diversa. completamente diverso da prima è il calcolo
dell'errore di entropia incrociata. Perché ora il costo è completamente diverso da prima. Perché come puoi vedere
qui. Il costo. OK. Il costo è questo. Meno uno del braccio della sommatoria di. Come mai? Del campione I
moltiplicato per il logaritmo dell'ipotesi calcolata per il campione XI. Più 1 meno. Come mai? Moltiplicato per il
logaritmo di 1 meno. OK OK. OK, quindi qui siamo meno 1 / M moltiplicato per e questo è ovviamente. Studioso.
Moltiplicato per. Perché trasposto? Prodotto puntiforme. Il logaritmo, il logaritmo delle previsioni. OK. Quindi qui
puoi immaginare che stiamo trasponendo. Il perché? In modo che fondamentalmente otteniamo la freccia. E lo
stiamo moltiplicando. Per il logaritmo, questa è una funzione. Questo è applicato. c'è un volte uno. Quindi abbiamo
Y che è M * 1 trasponi quindi 1 * N moltiplicato per. Delegato applicato a M * 1 Che restituisce M * 1, quindi
abbiamo 1 * N. Moltiplicato per M * 1. Alla fine, quello che otteniamo è che moltiplichiamo il primo per il primo e
sottomettiamo con il secondo moltiplicato per il secondo del secondo vettore, e così via. Quindi alla fine abbiamo
ottenuto la sommatoria e questo è esattamente quello che vediamo qui. L'alcuni misura sui diversi campioni di che
cosa? Di questa quantità. Fai attenzione perché EA. Stiamo calcolando la somma nazione. sottomissione. Quindi
qui stiamo dividendo questa sommatoria. Potete vederlo? E ovviamente quello che facciamo qui è calcolare il
prodotto scalare di 1 meno l'Y trasposto che viene trasmesso. Quindi alla fine, quello che otteniamo è di nuovo 1 *
M. Come la forma di queste quantità qui. OK. Un easy viene moltiplicato per il logaritmo di 1 meno spread. E
ancora, sì, quello è trasmesso. Così che. Alla fine otteniamo AM per uno. E ovviamente possiamo farlo. Possiamo
eseguire la stessa operazione per calcolare il costo per il set di convalida o senza l'organizzazione, possiamo
realizzarla anche per la discesa del gradiente stocastico possiamo realizzare lo stocasticamente nella stessa
procedura o nella procedura mini batch. E ovviamente. Ti chiederemo di farlo. L'ultimo aspetto su cui voglio
soffermarmi, ovviamente qui possiamo renderci conto che possiamo ottenerne un po'. Alcune trame, alcune trame.
E ovviamente puoi giocare a noi una volta che hai il codice puoi giocare con i diversi tassi di apprendimento con i
diversi video su lambda e tutto il resto. Ma ora. Voglio spararti. Un altro aspetto è questo. Linea dell'orecchio 77.
Possiamo immaginarlo ad un certo punto. Noi decidiamo. Applicare per realizzare la nostra nostra previsione su
nuovi dati. Cosa dobbiamo fare in questo caso? È anche qui. 2. Probabilità e funzionalità falsa. Cioè X0 metti i
nuovi dati in modo che i diversi atti diversi che stiamo considerando le diverse caratteristiche. Per il nostro nuovo
campione. E poi. Otteniamo queste nuove stampe X. Ora questi X si sono diffusi. Può essere utilizzato può essere
utilizzato per soddisfare, per nutrire. Questa funzione prevede prob dove stiamo prevedendo le probabilità. Cosa
significa nella regressione logistica e in generale in un compito di classificazione? Ciò significa che prendiamo il
campione e applichiamo. L'ipotesi che abbiamo scelto. Quindi qui per la regressione logistica abbiamo detto la
nostra ipotesi. Molte volte. Che la nostra ipotesi sia il sigmoide. Oh, un prodotto scalare tra le X. Il nuovo campione
con la nuova colonna di 1. Moltiplicato per i dettagli. E i dettagli sono quelli che abbiamo ottenuto. Al termine della
procedura di formazione. Quindi qui puoi vedere che puoi trovare esattamente ciò di cui stavo parlando. Quello
probabilmente. 50 è dato dal sigmoide. Che dire del prodotto DOT? Di X moltiplicato per Tita. Ma ora abbiamo una
probabilità. La probabilità non sta dicendo che questo campione. Appartiene o no a una certa classe? È il valore
0,05 punto zero 99 e così via. Così. Quello che sappiamo è che se questo rappresenta probabilità di appartenere
a un'appartenenza a una certa classe, significa che con una probabilità di 0,99. Saremo abbastanza sicuri che
quel campione apparterrà a quella classe. Quindi, alla fine, quello che possiamo fare è definire una soglia.
Diciamo 0,5. Calcoliamo la probabilità. E poi diciamo OK, se. Il nostro campione. Con la nostra ipotesi restituisce
un valore uguale o superiore. La soglia. È 1. Altrimenti. Sei tu. E facile esattamente quello che stiamo facendo alla
linea 117. Qualche zees esattamente quello che stiamo facendo alla fine qui? Alla linea 80. È qui che stiamo
calcolando le previsioni alla riga 77. Ovunque dica OK, questo campione appartiene. La classe L'una classe quindi
è 1, l'altra è 0, l'altra è 1, l'altra è 0 S 1. Alla fine otteniamo una lista. Di uno e zero. Una volta che abbiamo questo
elenco, possiamo confrontarlo con i valori effettivi. Con i valori reali. Quindi possiamo prendere il primo. Il primo
elenco, l'elenco dei pronostici. E possiamo prendere il secondo elenco, l'elenco dei valori effettivi e puoi dire OK,
sto dicendo che questo campione è 1, ma è 0. Quindi questo è un errore. Altrimenti OK, questo è 1 e questo è ciò
che OK o questo è zero. Questo è zero. OK, era perfetto e così via. Quindi qui quello che ho fatto è calcolare alla
riga 80I, calcolato il numero di campioni. Che avevamo previsto correttamente. E alla fine abbiamo calcolato la
media. Ma in generale, questa è un'informazione. Il numero. Di. Campioni che abbiamo calcolato correttamente.
OK. E facile è una sorta di metrica delle prestazioni. Ma sappiamo che ce ne sono molti. Diverso. Matrice che può
essere utilizzata nell'attività di classificazione. E non l'abbiamo visto. Non li abbiamo visti. Non lo stiamo vedendo.
Così. E il motivo è che questa è una delle cose che ti chiederemo. Quindi ricapitolando. Oggi siamo giunti alla
situazione in cui siamo in grado di calcolare la procedura di addestramento utilizzando la regolarizzazione per la
regressione logistica. E sappiamo che è abbastanza semplice da fare. È un modo per fare previsioni e confrontare
queste previsioni con i valori effettivi che otteniamo dal set di dati Ora cosa vogliamo da te. Per quanto riguarda la
regressione lineare, quindi il test di regressione che abbiamo visto prima. L'implementazione della discesa del
gradiente stocastico che non abbiamo visto. E io. La creazione. Di nuove funzionalità. Comporre. Combinando le
diverse caratteristiche che abbiamo visto. E che puoi trovare nel frame dei dati. E decreazione. Di caratteristiche
polinomiali. Ora, con queste nuove funzionalità, il loro sistema di apprendimento automatico funzionerà meglio o
no? E perché nel caso? Inoltre, per la regressione logistica. Cosa vogliamo, cosa ti chiediamo? Per implementarlo.
È utilizzare un nuovo set di dati che invieremo che ti invieremo. Realizzare. La procedura uno contro tutti. E
utilizzerai un Multiclasse? Un centro dati specializzato si occupa di che si chiama caramelle. E poi te lo chiediamo
anche qui, e lo faremo. Vedrai che è davvero facile implementare la discesa del gradiente stocastico. La discesa
del gradiente mini batch. La matrice di confusione Perché ora dovremo calcolare le prestazioni del nostro modello
e utilizzare la matrice di confusione per calcolare la precisione, il richiamo e l'accuratezza. Del tuo incontro. OK. È
tutto chiaro? Per tutti. E spremere. Lasciami. Predizione. Anche la vera vita. Cantare l'istruzione di dipendenza
OK. Soglia di veemente un momento, Inc. Presentiamo un'idea di verifica è superiore o soglia al capitale di Metra
Falls I in Delta di un comando logistico Python. Teoria unitaria l'uno dell'altro così. Quando probabilmente vorrai
continuare a dormire in un bel cast. Digli che non sto scherzando. Qualsiasi altra domanda? OK. Quindi, come vi
dicevo oggi, stiamo finendo un po' prima, ma ora vi diciamo che in questi giorni vi invieremo tutto il codice e tutti i
dataset di cui avete bisogno. Per mettere le mani sull'obiettivo e durante il prossimo esercizio vedremo cosa hai
fatto. Del tuo incontro. OK. È tutto chiaro? Per tutti. E spremere. Lasciami. Predizione. Anche la vera vita. Cantare
l'istruzione di dipendenza OK. Soglia di veemente un momento, Inc. Presentiamo un'idea di verifica è superiore o
soglia al capitale di Metra Falls I in Delta di un comando logistico Python. Teoria unitaria l'uno dell'altro così
Quando probabilmente vorrai continuare a dormire in un bel cast. Digli che non sto scherzando. Qualsiasi altra
domanda? OK. Quindi, come ti dicevo oggi, stiamo finendo un po' prima, ma ora diremo che in questi giorni ti
invieremo tutto il codice e tutti i set di dati di cui hai bisogno. Per mettere le mani sull'obiettivo e durante il
prossimo esercizio vedremo cosa hai fatto. Del tuo incontro. OK. È tutto chiaro? Per tutti. E spremere. Lasciami.
Predizione. Anche la vera vita. Cantare l'istruzione di dipendenza OK. Soglia di veemente un momento, Inc.
Presentiamo un'idea di verifica è superiore o soglia al capitale di Metra Falls I in Delta di un comando logistico
Python. Teoria unitaria l'uno dell'altro così. Quando probabilmente vorrai continuare a dormire in un bel cast. Digli
che non sto scherzando. Qualsiasi altra domanda? OK. Quindi, come vi dicevo oggi, stiamo finendo un po' prima,
ma ora vi diciamo che in questi giorni vi invieremo tutto il codice e tutti i dataset di cui avete bisogno. Per mettere
le mani sull'obiettivo e durante il prossimo esercizio vedremo cosa hai fatto. Inc. Archiviamo una verifica se l'idea è
superiore o soglia a Metra Falls equity I in Delta di un comando logistico Python. Teoria unitaria l'uno dell'altro
così. Quando probabilmente vorrai continuare a dormire in un bel cast. Digli che non sto scherzando. Qualsiasi
altra domanda? OK. Quindi, come ti dicevo oggi, stiamo finendo un po' prima, ma ora diremo che in questi giorni ti
invieremo tutto il codice e tutti i set di dati di cui hai bisogno. Per mettere le mani sull'obiettivo e durante il
prossimo esercizio vedremo cosa hai fatto. Inc. Archiviamo una verifica se l'idea è superiore o soglia a Metra Falls
equity I in Delta di un comando logistico Python. Teoria unitaria l'uno dell'altro così. Quando probabilmente vorrai
continuare a dormire in un bel cast. Digli che non sto scherzando. Qualsiasi altra domanda? OK. Quindi, come ti
dicevo oggi, stiamo finendo un po' prima, ma ora diremo che in questi giorni ti invieremo tutto il codice e tutti i set
di dati di cui hai bisogno. Per mettere le mani sull'obiettivo e durante il prossimo esercizio vedremo cosa hai fatto.
ma ora diremo che in questi giorni ti invieremo tutto il codice e tutti i dataset di cui hai bisogno. Per mettere le mani
sull'obiettivo e durante il prossimo esercizio vedremo cosa hai fatto. ma ora diremo che in questi giorni ti invieremo
tutto il codice e tutti i dataset di cui hai bisogno. Per mettere le mani sull'obiettivo e durante il prossimo esercizio
vedremo cosa hai fatto.

Potrebbero piacerti anche