Sei sulla pagina 1di 5

Tradotto dal Inglese al Italiano - www.onlinedoctranslator.

com

Quello che stavamo dicendo è che vediamo cosa succede quando vogliamo modellare questa funzione
sorgente nont risolvere i tentatori di matrice OK quindi abbiamo i sacchi di mercato contenenti l'intero set
di dati abbiamo perso questo seguito con tutti i valori invece di 1 perché questa è la colonna a cui abbiamo
appena aggiunto per avere qualcosa da moltiplicare che i dettagli qui OK allora abbiamo i vettori dei
parametri e poi guarda gli sfondi dei valori target quindi abbiamo la funzione target quindi se ricordi il
modo in cui moltiplichiamo una matrice con vettore e matrice con un altro fattore allora abbiamo il
prodotto scalare il prodotto studioso di questo ruolo sulla prima riga con questa colonna OK che è 1 * 0 più
X11 volte Theta un'ultima bla bla bla più X volte espandi 1K più e poi abbiamo la plastica che la
moltiplicazione di questo ruolo qui con questa colonna e quindi abbiamo 120 volte 1 + 1 per piccolo 1/2 e
bla bla bla per Theta e più T per terminare i tempi X X1 OK questo's per XN 2 quindi dobbiamo finire per X e
questo è chiaro che ti ricordi questo modo di calcolare il prodotto tra due vettori no si OK OK bene quindi
moltiplicando questa matrice X con i dati otteniamo effettivamente la tenuta dell'ipotesi calcolata in X pipe
OK e poi arriviamo sottraiamo il vettore di Y a questo a questo se sottraiamo il vettore di vino a questa
moltiplicazione allora abbiamo questa formulazione qui quindi dobbiamo azzerare calcolato in X1 che è
questa riga moltiplicata per la colonna quindi abbiamo l'ipotesi calcolata in X2 che è questo ruolo qui
moltiplicato per questa colonna e poi abbiamo l'ipotesi calcolata in X10 che è questa riga moltiplicata con
questa colonna ma per tutti questi valori che abbiamo abbiamo sottraendo Y1Y2 in modo che 'ecco perché
vediamo che ogni volta che scriviamo questo testo o meno Y questo è il risultato finale OK ora è bianco lo
sai subito vedi che se consideriamo il trasformatore e questo è efficace OK ora questo è efficace non è più
una matrice questo effetto ora se calcoliamo la moltiplicazione del vettore trasposto con il vettore quello
che abbiamo è questo calcolo qui quindi abbiamo questo valore calcolato moltiplicato per se stesso più il
secondo valore moltiplicato per se stesso più bla bla bla questo è esattamente il figlio di Paul DM campioni
l'ipotesi calcolata nei campioni meno il quadrato del valore target in modo che's perché ora sappiamo che è
possibile riformulare questo questo fattore della mia frase cross funzionale di Peter Patrick no vogliamo
calcolare il gradiente di questa corrispondenza OK perché sai che il nostro obiettivo finale è quello di
agganciare il gradiente uguale a 0 e poi per trovare il valore di persone come questa banca questo
gradiente è uguale a no non l'abbiamo fattot membro che la catena derivata parziale della mia perforazione
incrociata rispetto a qualunque cosa Peter Peter K è uguale alla sommatoria della funzione di costo per i
ringraziamenti KR OK ma come possiamo rappresentare questo valore in modo che possiamo
rappresentare questo valore molto facilmente in questo modo OK quindi abbiamo l'ipotesi rispetto a X 1 - y
una volta XC1 più ho comprato questo computer quindi X - y due volte X K2 più bla bla bla X - y N volte XK sì
ma cos'è questo bene questo è quello il vettore che abbiamo ma se ricordiamo cosa abbiamo fatto prima
allora questa è la moltiplicazione della somma di questi elementi qui che ricordiamo è uguale a X - y
ricordiamo questo è ciò che abbiamo visto qui XD a meno Y è esattamente questo fattore qui e dobbiamo
moltiplicare questo fattore per tutti i valori di X quindi in questo caso è facile ma è terribilmente facile
vedere che serappresentare il gradiente di della funzione di costo come la matrice di dei miei dati trasposti
perché in questo caso abbiamo la prima riga che è uguale a 1 un altro post commenti moltiplica questa riga
per questa colonna e quindi questo ruolo per questa colonna e l'ultimo riga per questo viene quindi
otteniamo esattamente quello che vogliamo quindi alla fine quello che abbiamo è che il gradiente può
essere rappresentato come la la metrica del rappresentato nel set di dati traspone i tempi X - 1 quindi se
calcoliamo questo questa moltiplicazione noi fai in modo che questo sia uguale a X trasponi per X volte
potresti ricordarli dall'algebra lineare si spera nel caso tu lo sappia, vai e ricontrollalo con qualcosa di molto
facile e semplice da ricordare meno X trasponi grazie a quello che ora abbiamo due set questo value a 0 se
vuoi calcolare il valore per cui la mia funzione G è people in questo caso, quindi abbiamoimposta il
gradiente della funzione post che abbiamo appena scoperto che è uguale a X trasponi per X * - X iniziamo
questo fallimento e quindi questo è ciò che otteniamo quando otteniamo che la cosa migliore è uguale a X
trasponi per X per X trasponi Y quindi questo è il modo analitico per calcolare il miglior teatro e il teatro che
minimizza il valore della mia funzione ospite OK questo è il modo analitico per farlo ma come abbiamo
detto prima abbiamo alcuni problemi relativi a questa formulazione analitica perché qui vediamo che
abbiamo bisogno di calcolare l'inverso di una funzione e questo non è sempre possibile quindi questo è il
primo vero problema che abbiamo.
No uhm tutto quello che abbiamo visto finora è stato rappresentato in termini di let'cerco di ridurre al
minimo la funzione di costo per trovare un modello che si adatti meglio ai miei dati ma il punto è che se
ricordi durante la conosci la nostra lezione precedente abbiamo introdotto i modelli discriminativo e
generativo e poi alla fine quello che abbiamo detto era quello lineare la regressione è in realtà un modello
discriminativo perché quello che facciamo è calcolare la probabilità un certo valore perché sarà il vino
effettivo che il valore effettivo per un certo X OK quindi abbiamo una probabilità condizionata quindi
abbiamo la probabilità di PE di Y dato X quindi riformula tutto ciò che abbiamo visto finora in termini
probabilistici e quindi come possiamo interpretare la regressione lineare con l'interpretazione probabilistica
questa interpretazione probabilistica è molto importante perché la maggior parte dei modelli e la maggior
parte degli approcci che vedremmo in alla fine sono probabilisticheapprocci e modelli probabilistici, quindi
cerchiamo di introdurre questo concetto ora OK quindi cos'è quello cos'è cosa's l'idea qui come sappiamo
ho un numero di istanze uguale a N e quello che voglio fare è calcolare questa ipotesi edge XHX uguale a
trasporre volte OK e questa è l'ipotesi che cerca di approssimare il comportamento di trovare bene
effettivamente per ogni singolo punto dati che posso calcolare non posso interpretare e possono
rappresentare l'output chiesto il valore previsto più un errore OK quindi anche xpi il valore effettivo per XY
è uguale al valore calcolato più OK spero che questo abbia senso è questo il tipo di approssimazione che
Quindi cosa pensi che formuliamo qui l'ipotesi è che assumiamo che tutti i campioni siano indipendenti
l'uno dall'altro quindi non c'è dipendenza tra i punti dati che abbiamo quindi se questa psicosi è vera quello
che possiamo fare è modellare il probabilità Dist distribuzione dell'errore come distribuzione normale con
la mediauguale a zero e le persone dei genitori che sembrano un quadrato potresti ricordare che la
formulazione di una distribuzione normale è una singola diapositiva OK quindi c'è 1/2π radice quadrata al
quadrato per Sigma tutto moltiplicato per l'esponenziale di meno l'errore al quadrato bla bla bla OK quindi
per tutti i miei campioni di dati questo è l'errore che si è verificato OK quindi questo è l'errore con la casa
quindi questa è la distribuzione di probabilità dell'errore che ho sul dito ma cosa?s il punto qui il punto è
che se il diavolo passa questa distribuzione di probabilità lì poiché sappiamo che l'errore quindi se
guardiamo questo a questo punto della vita qui OK e poi scriveremo questa formula in termini di errore qui
abbiamo che l'errore è uguale a Yi meno ha disturbato queste persone abbastanza alto meno la mia ipotesi
ma poiché ipotizziamo che la distribuzione dell'aeroporto sia una distribuzione anormale bla bla bla allora
possiamo anche ipotizzare che la distribuzione di probabilità fuori dalla barca dato teatro e X abbia
esattamente la stessa probabilità quindi buchi in questo caso ha una distribuzione di probabilità con una
media uguale a 0 e varianza uguale a Sigma al quadrato ha senso per te sì bro OK sì quindi se possiamo se
possiamo considerare questa ipotesi è vera possiamo semplicemente sostituire il valore dell'errore con il
suo valore equivalente e quindi questoè la distribuzione di probabilità di Y dato il parametro e la
corrispondente Xbox ehi quindi questo è un mio problema nessuna pressione sì ce ne sono alcuni in
Vietnam abbiamo già avuto l'angolo di Laura Laura invece di scrivere quindi qui guarda abbiamo che la
distribuzione di probabilità di l'errore è che le persone a questo hanno ragione OK ma ora stiamo dicendo
che la distribuzione di probabilità di Y Peter è esattamente la stessa è la stessa distribuzione di probabilità
OK lì invece di scrivere che vive qui quello che facciamo è scrivere la sua formula corrispondente quindi
sostituiamo lui vino qui aspetta perché io'm Irish blah blah blah OK Signore ciao OK è chiaro a tutti voi o alla
maggior parte di voi sì sì OK no l'idea qui iniziamo quello che vogliamo fareè trovare la funzione che
chiameremmo la funzione di verosimiglianza disabilita per un output ogni addestramento dell'evento
intacca questa probabilità che abbiamo detto che questa funzione di probabilità lessicale è la nostra
funzione di probabilità no allora l'assunzione di dipendenza è vera allora abbiamo che la probabilità per
tutti i valori di Y perché ricorda che qui quello che abbiamo fatto è per il singolo punto di dati OK quindi qui
quello che abbiamo rappresentato è questa probabilità di distribuzione di probabilità Singleton ma in
questo caso ciò che vogliamo calcolare è la probabilità dell'intera attività quindi è la probabilità di tutti i
possibili risultati quindi è la probabilità di questo file vettoriale di mantenere l'intera cosa se noi considerare
l'ipotesi di indipendenzaè la probabilità di tutti i possibili risultati così è la probabilità che questo file
vettoriale mantenga tutto se consideriamo l'assunzione di indipendenzaè la probabilità di tutti i possibili
risultati così è la probabilità che questo file vettoriale mantenga tutto se consideriamo l'assunzione di
indipendenzaè la probabilità di tutti i possibili risultati così è la probabilità che questo file vettoriale
mantenga tutto se consideriamo l'assunzione di indipendenzaè la probabilità di tutti i possibili risultati così
è la probabilità che questo file vettoriale mantenga tutto se consideriamo l'assunzione di indipendenzaè la
probabilità di tutti i possibili risultati così è la probabilità che questo file vettoriale mantenga tutto se
consideriamo l'assunzione di indipendenzaè la probabilità di tutti i possibili risultati così è la probabilità che
questo file vettoriale mantenga tutto se consideriamo l'assunzione di indipendenzaè la probabilità di tutti i
possibili risultati così è la probabilità che questo file vettoriale mantenga tutto se consideriamo l'assunzione
di indipendenzaè la probabilità di tutti i possibili risultati così è la probabilità che questo file vettoriale
mantenga tutto se consideriamo l'assunzione di indipendenza

La funzione di verosimiglianza lessicale è la nostra funzione di probabilità ehi no questo allora l'assunzione
di dipendenza è vera allora abbiamo che la probabilità per tutti i banner del perché perché ricorda che qui
quello che abbiamo fatto è per il singolo punto dati OK quindi qui quello che abbiamo rappresentato è
questo la distribuzione di probabilità ma correlata al Singleton è il tipo di probabilità di parlare la
probabilità per il singolo punto dati ma in questo caso ciò che vogliamo calcolare è la probabilità dell'intero
set di dati così è la probabilità di tutti i possibili output così è la probabilità di questo file vettoriale dato
l'intero documento la matrice X ma ora se consideriamo l'assunzione di indipendenza Quindi quello che
abbiamo è che questa probabilità così ti ricordi che se due variabili sono indipendenti l'una dall'altra,
supponi che l'area MBR due variabili e loro'sono indipendenti l'uno dall'altro quindi la probabilità di A&B è
uguale alla probabilità di pagare per la probabilità OK ricordalo spero così sia meglio se scrivo qualcosa di
meraviglioso accendi la luce nella mia stanza quindi OK ora mi senti sicuro

OK ora dovresti vedere così potresti ricordare che anche gli sciocchi hanno previsto benefici amp quello che
abbiamo è che se sono indipendenti se sono indipendenti Quindi quello che abbiamo è che P di a e la
commissione è uguale a B a * b T OK do ti ricordi questo prossimo OK quindi poiché stiamo assumendo che
tutti i nostri campioni siano indipendenti l'uno dall'altro quindi la probabilità di avere perché uno dato X
uno e per metro Dan felice perché mantieni un X2 e parametri perché è libero poiché tutte queste variabili
sono indipendenti Quindi quello che abbiamo est che abbiamo questa moltiplicazione OK è questa clip
impostata OK quindi abbiamo che tutti questi punti dati sono indipendenti quindi abbiamo che possiamo
moltiplicare tutte le probabilità condizionali per ogni punto dati ma questo significa che stiamo calcolando
questa formula qui quindi questo è il mio sostentamento OK mi piace la funzione è questa Quindi cosa
voglio fare con la mia funzione di verosimiglianzaè massimizzare il suo riempimento OK perché quello che
voglio fare è massimizzare la probabilità di restituire l'output effettivo datogli allora quello che faccio è
calcolare questa volta ti ricordi che per la funzione post stavamo cercando il valore di Theta che significa
topi nella funzione post in questo caso stiamo cercando il valore che massimizza la probabilità OK quindi in
questo caso quello che facciamo è firmare il teatro per le candele teatro luce e se pensiamo a questo quindi
cerchiamo il vedere il mio Zynga funzione questo feedback massimizza anche il logaritmo di questa
funzione OK perché il logaritmo è bonnick punch dell'avversario OK quindi se ho una funzione e voglio
trovare il massimo di questa funzione allora la disfunzione massima del calcio è esattamente per lo stesso
valore che ho riempito il logaritmo di questa funzione ti suona bene nont ha senso sì sì quindi invece di
cercare il teatro massimizzando la probabilità cerchiamo il teatro massimizzando la vita che è esattamente
la stessa di cui ci siamo fidati quindi perché siamo interessati al logaritmo di questa funzione perché
sappiamo che il il logaritmo del prodotto è uguale alla somma dei logaritmi OK quindi in questo modo
abbiamo lasciato'diciamo in qualche modo questa brutta moltiplicazione qui stiamo trasformando il nostro
problema invece di cercare di trovare un massimo di fattori comportamentali adeguati nel cercare di
trovare la massima canzone pop quindi vediamo che si ferma quindi il logaritmo di questo fattore poiché i
buchi in questo caso abbiamo un moltiplicazione quindi abbiamo questo effettivo moltiplicato per questo
fattore allora questo è uguale al logaritmo punto esclamativo perso domanda questo è un post sul retro qui
opticsplanet Xbox quindi sommando per questa costante è uguale a N volte per il logaritmo del fattore che
abbiamo rispettato make sicuramente tutti gli esponenti che hai OK possiamo ulteriormente modificare
questo prezzo della formula su alcuni elementi e poi mettiamo questo due volte al quadrato Sigma persone
al di fuori del sole OK e poi abbiamo questa formulazione finale che ha perso sai abbastanza simile da
qualcosa che già possediamo sai puoi?vedi questa parte quièfattore quièabbastanza simile a qualcosa che
non abbiamo giàvisto prima continuiamo lì no vogliamo massimizzare la probabilità di log questo significa
che vuoi questa funzione che abbiamo appena trovato ma questo è un fattore costante quindi non è
interessato dal passaggio di massimizzazione quindi ecco perché siamo interessati solo a massimizzare
questa seconda parte o solo qui ma se vuoi massimizzare questo fattore è esattamente lo stesso di
massimizzare lo stesso fattore che conosci senza questa costante questo meno è uguale a minimizzare la
stessa funzione senza senza il pozzo principale senza il menos continua lì no vogliamo massimizzare la
verosimiglianza logaritmica questo significa che vuoi questa funzione che abbiamo appena abbiamo appena
trovato ma questoèun fattore costante quindi non è interessato dal passaggio di massimizzazione
quindièper questo che ci interessa solo massimizzare questa seconda parte o solo qui ma se vuoi
massimizzare questo fattore è esattamente lo stesso di massimizzare lo stesso fattore sai senza questa
costante questo meno qualcosa è uguale a minimizzare la stessa funzione senza senza il pozzo principale
senza il menos continua lì no vogliamo massimizzare la verosimiglianza logaritmica questo significa che vuoi
questa funzione che abbiamo appena abbiamo appena trovato ma questoèun fattore costante quindi non è
interessato dal passaggio di massimizzazione quindièper questo che ci interessa solo massimizzare questa
seconda parte o solo qui ma se vuoi massimizzare questo fattore è esattamente lo stesso di massimizzare lo
stesso fattore sai senza questa costante questo meno qualcosa è uguale a minimizzare la stessa funzione
senza senza il pozzo principale senza il menos perché ci interessa solo massimizzare questa seconda parte o
solo qui ma se vuoi massimizzare questo fattore è esattamente lo stesso di massimizzare lo stesso fattore
che conosci senza questa costante questo meno è uguale a minimizzare la stessa funzione senza senza il
principale bene senza il menos perché ci interessa solo massimizzare questa seconda parte o solo qui ma se
vuoi massimizzare questo fattore è esattamente lo stesso di massimizzare lo stesso fattore che conosci
senza questa costante questo meno è uguale a minimizzare la stessa funzione senza senza il principale bene
senza il meno

Ma questo significa che minimizza il declino della salute guarda questo è esattamente lo stesso più o meno
ci manca solo una M qui al dominatore ma questa è esattamente la funzione di costo OK quindi se lo
convertiamo in funzioni vediamo che con una diversa di questa regolarizzazione costante paura costante
che è questo sono esattamente gli stessi OK quindi acquistando il problema dell'errore United così abbiamo
dimostrato che risolvere il problema di minimizzare l'errore è equivalente a risolvere il problema di
massimizzare la probabilità del motivo per cui agisce anche in questo modo è equivalente a massimizzare la
probabilità luce notturna off line OK, ecco perché d'ora in poi possiamo anche parlare della funzione di
verosimiglianza in modo che disattivi la probabilità invece di parlare degli errori, quindi per noi è
esattamente lo stesso OK che'È per questa presentazione quindi se vuoi possiamo continuare So che sei
ansioso di imparare la prossima definizione vediamo ogni modello mentale.

Quindi abbiamo appena introdotto a sinistra solo introdotto la specifica del problema e la compressione
WBC OK Quindi quello che abbiamo visto finora è stata la regressione del passato ed è per questo che
avevamo questo modello di correzione per calcolarlo con questa approssimazione questo modello
approssimativamente ora quello che vogliamo fare è per risolvere il loro compito di classificazione, il
compito di classificazione del risolutore di modelli più semplice è effettivamente la regressione logistica

Ecco perché abbiamo avuto questo modello di moda che questa approssimazione di questo modello, ma
ora quello che vogliamo fare è risolvere il loro compito di classificazione C più il compito di classificazione di
risoluzione del modello è regressione logistica, in realtà puoi vedere che c'è un chiaro errore in nome di
questo di questo modello perché si chiama regressione logistica mentre è un metodo di classificazione OK
quindi per favore non essere confuso dal nome di questo perché questa non è una regressione tasl la
regressione logistica non viene utilizzata per un'attività di regressione ma è usato per la classificazione
quindi questa è la prima guerra a volte crea una certa fusione ed in realtà è anche ragionevole questa roba
come questa cosa OK, quindi cosa?s il punto qui abbiamo il tipico problema di classificazione di cui abbiamo
discusso anche l'ultima volta quindi abbiamo per esempio un'e-mail con questo problema o no questo tu in
questo caso abbiamo fatto Controlla se questo problema o no pantaloni che di solito significa che questo
caso abbiamo fatto il valore per il legante a spago inventato quindi abbiamo l'amministratore delegato di
uno è abbiamo solo gli occhiali qui abbiamo una classificazione del rivestimento o possiamo avere più classi
OK quindi plastica 5 quindi avere per esempio un grosso problema anche solo che rappresentano molto
vicini vogliamo classificarli come auto Imposta immagini a basso flusso che rappresentano veicoli vogliamo
classificarli come auto moto scatola più veloce quello che facciamo di solito è il full house si avvia e poi
impostiamo il pesce ehi questa soglia viene solitamente inviata a 0,5 grazie la mia funzione è maggiore di
0.5 quindi considero questo punto appartenente alla classe con etichettato uno se è inferiore a 0,5 che
considero questo punto appartenente all'aula ed etichettato soffitto OK in questo caso ho che ho chiamato
il sei maggiore importante e se è inferiore riporta che trovi la previsione è così puoi vedere che è uguale qui
perché questa libreria non voglio dire che questo è possibile ma in realtà no la mia vita non vedrò mai che
l'ipotesi ha calcolato il valore che è esattamente il valore del soglia così sai che puoi anche decidere se sarà
uguale solo qui già perché è lo stesso quindi in ordine era ancora lì più velocemente all'interno
dell'intervallo 01 in modo che metterebbe questa soglia di moda per esempio proprio nel mezzo e poi
diciamo OK laggiù, ma se stai bene così'per questo motivo i valori delle funzioni sono compresi tra zero e
uno matrigna la musica prima ottieni un'ipotesi più bassa bene no è il seguito OK quindi in questo caso di
questa funzione è questa funzione con questo sono 4 miliardi per questo microscopio 1/1 plus come i nostri
tipi di presentazione OK quindi 4 ore di aggiornamento questi sono i nostri uffici e possiamo vedere che
questa ipotesi funziona come spenditori che vanno da zero a 1. È una funzione simmetrica qual è il ruolo
che svolgiamo che abbiamo offerto aggiustando la progressione degna del ruolo è che questa funzione
lineare che rappresenta il confine tra il che's il punto quindi per esempio in questo caso supponiamo di
avere questo Quindi quello che vogliamoè che il classificatore preveda che Y è uguale a 1 se questa
funzione meno tre più X1 più X2èmaggiore di zero seèminore di zero che predice lo spazio del negozio
l'ipotesi ipotesi è la funzione sigmoide conosciuta anche come la scatola logistica che questa borsa questa
parte vedono che abbiamo discriminato tra i punti che sono etichettati per favore vedi OK sì così avendo
che in questo caso abbiamo quello X per esempio è probabilmente su questo asse e X2 è su questo asse OK
quindi penso che non sia il caso la proiezione commerciale sembra essere le sette di sera quindi sono
io'sono molto stanco ma anche io ma penso che anche tu sia molto stanco quindi forse è meglio se
continuiamo questo nostro prossimo test OK quindi se non c'è uno specifico se non c'è una domanda
specifica ascolta qui un altro sì bundle Wally Wally

di solito questo stupido ciao quando hai persone o persone che si spostano temono uno di questi giorni
alcuni casi che non hai più ma il punto è che anche se sai nella tua implementazione lasci l'uguale in
entrambi i casi allora è così improbabile che tu abbia esattamente il valore della soglia non ha alcun senso
sì, qualsiasi altra domanda OK quindi non c'è idea della prima fase

Potrebbero piacerti anche