Sei sulla pagina 1di 24

Predavanje 8

1. Definišite Deep Learning u odnosu na vještačku inteligenciju i mašinsko učenje.

Vještačka inteligencija​ je naučna oblast u kojoj se izučavaju


hardversko softverska rješenja koja treba da omoguće sposobnosti
i ponašanja slična ljudskom (percepcija, reagovanje, ponašanje,
rezonovanje, zaključivanje i činjenje).
Mašinsko učenje​ je podoblast vještačke inteligencije čiji je cilj
kreiranje računarskih sistema koji su sposobni da se adaptiraju na
nove situacije i rješe problem bez eksplicitnog i prethodno
napisanog programa.
Deep learning​ je podoblast mašinskog učenja u kojoj se problemi
rješavaju algoritmima mašinskog učenja koji su organizovani u
slojeve. Svaki sloj koristi izlaz prethodnog sloja. Na ovaj način
kreiraju vještačku neuronsku mrežu koja simulira način rješavanje
problema kod neurona u ljudskom mozgu.

2. Navedite tri glavne osobine koje karakterišu Deep Learning.


1​. Koriste višeslojne arhitekture kod kojih slojevi rade nelinearno procesiranje u cilju izdvajanja
feature-a (eng. feature extraction). Svaki sloj za ulaz koristi izlaz prethodnog sloja.
2​. Treniraju koristeći supervizijsko i/ili nesupervizijsko učenje.
3​. Uče na različitim nivoima reprezentacije koji odgovaraju različitim nivoima apstrakcije -
formiraju hijerarhijski koncept.

3. Objasnite generalnu arhitekturu mreža Deep Learning-a i problem koji se javlja kod
korištenja metode pada gradijenta (eng. gradient descent) kod “dubokih” mreža.
Arhitektura

Poznata arhitektura -> MLP (Multi Layer Perceptron)


Jedan sloj na ulazu, više skrivenih slojeva i jedan izlazni sloj
Izlaz iz jednog sloja predstavlja ulaz u sljedeći
Možemo li nad “dubokim” mrežama (veliki broj skrivenih slojeva) koristiti metode učenja koje
poznajemo - back propagation ? Problem nestajućeg i “eksplodirajućeg” gradijenta. Moramo
koristiti drugačiji pristup - deep learning metode.

1
4. Opišite arhitekturu i osobine Deep belief neuronskih mreža.

Deep Belief neuronske mreže su napredni tip


neuronskih mreža koje koriste model
nesupervizijskog učenja kroz slojeve
jednostavnijih “podmreža”. Nezavisno od modela
koji se koriste u slojevima deep belief neuronske
mreže, one imaju zajedničku osobinu da su slojevi
međusobno povezani, ali neuroni u jednom sloju
nisu. Ovako konstruisanu neuronsku mrežu
karakteriše to da je učenje u slojevima u maniru
“pohlepnih” algoritama i da rezultujući model
predstavlja hijerarhijsku reprezentaciju ulaznih
podataka. Model koji se najčešće koristi u slojevima je Restricted Boltzman machine (RBM).

5. Opišite arhitekturu i osobine Restricted Boltzman machine.

“We restrict the connectivity to make learning easier. “


RBM su neuronske mreže sa simetričnim konekcijama
između neurona, koji su podijeljeni u dva tipa slojeva:
1. Vidljivi (V - visible)
2. Skriveni (H - hidden)
Između neurona u jednom sloju nema konekcija. (zašto
Restricted?)
Vidljivi sloj predstavlja ulazni sloj. Skriveni slojevi “uče” na osnovu izlaza prethodnog sloja.

- Cilj je da kao rezultat dobijemo distribuciju vjerovatnoće za ulazni vektor podataka.


- Podaci iz ulaznog vektora se “proslijede” skrivenom sloju.
- Lančanje unaprijed (eng. forward propagation) nam daje vjerovatnoću izlaznog vektora za datu
težinu w.
- Tokom lančanje unazad (eng. back propagation) mreža rekonstruiše ulazni vektor. Rezultat
ovog koraka je vjerovatnoća ulaza x uz aktivacijsku funkciju a - P( x | a ).

2
6. Opišite način na koji se arhitektura deep belief neuronskih mreža može proširiti.
Na opisane slojeve arhitekture dodati još jedan koji će raditi - supervizijsko učenje. U tom
slučaju, koristimo izlazni model koji se se sastoji od slojeva RBM (nesupervizijsko učenje) i na
njega primjenjujemo poznati model supervizijskog učenja u cilju dodatnog tuniranja rezultata.
Supervizijsko učenje se u tom slučaju radi na poznati način - metoda pada gradijenta (eng.
gradient descent) i lančanje unatrag (eng. back propagation)

Predavanje 9
1. Koji su ciljevi za razvoj sistema za poređenje performansi i optimizaciju metoda
segmentacije slike?
1.​ Razviti sistem koji će obezbijediti uvid u strukturu segmentacijskih metoda i povezati se sa
drugim alatima za segmentaciju (NucleusJ i Microscopy Imaging Browser-MIB) tako da se može
vršiti batch segmentacija velike količine 3D stack slika u jednom pipeline-u.
2.​ Postići zadovoljavajući nivo tačnosti segmentacije koristeći optimizaciju baziranu na
genetskim algoritmima sa adaptabilnim parametrima i sa dinamičkom procjenom kvalitete
segmentacije koja je kontrolisana fitness funkcijama baziranim na pojedinačnim, sumarnim i
kvadratnim metrikama.
3.​ Razviti hipotetske matematičke ground truth slike koje će imati preciznost sličnu ručno
segmentiranim ground truth slikama, bez nedostataka metoda ručne segmentacije.

2. Objasniti operator kombinatorike sa tipovima.

3
3. Objasniti voter operator.

Kreira se za neparne brojeve matrice (0-1 tip). Vraca najvise ponavljan za svaki piksel u matrici.

4. Objasniti median operator.

Ako imamo n rezultata x1-xn, moramo ih sortirati u niz a1-an. Medijan je vrijednost iz gornjeg
seta, sortira se matrica po broju bijelih pixela i vraca se ona u sredini.

5. Objasniti blok šemu sistema za poređenje performansi i optimizaciju metoda


segmentacije slike.

4
Parametri metoda GA-OFF line GA-IN line GA-OFF line GA-IN line
zasnovani za oprimizirani oprimizirani oprimizirani oprimizirani
znanju i vanjske parametri metoda parametri metoda parametri metoda parametri metoda
metrike sa field fitness sa field fitness sa field fitness sa field fitness
funkcijama i funkcijama i funkcijama i funkcijama i
vanjskim vanjskim vanjskim vanjskim
metrikama metrikama metrikama metrikama

Predavanje 10
1. Objasniti algoritam Fuzzy C-means clusteringa.

Zašto fuzzy klastering povezujemo sa fuzzy logikom?


Podaci se vezuju za svaki cluster pomoću funkcije pripadnosti, koja predstavlja fuzzy obilježje,
odnosno, ponašanje ovog podatka. Da bi to uradili, potrebno je napraviti odgovarajuću matricu
U čiji su elementi brojevi između 0 i 1 (uključivo 0 i 1), i predstavljaju stepen pripadnosti
podataka u odnosu na centre clustera.

2. Teoretsko objašnjenje matrice funkcije pripadnosti.


Podaci se vezuju za svaki cluster pomoću funkcije pripadnosti, koja predstavlja fuzzy obilježje,
odnosno, ponašanje ovog podatka. Da bi to uradili, potrebno je napraviti odgovarajuću matricu

5
U čiji su elementi brojevi između 0 i 1 (uključivo 0 i 1), i predstavljaju stepen pripadnosti
podataka u odnosu na centre clustera.
Fuzzy C-Means (FCM) pristup: Ovdje, isti podatak ne pripada isključivo jednom dobro
definisanom clusteru, nego može bitit smješten na sredini između dva clustera A i B. U ovom
slučaju, funkcije pripadnosti slijede blago zakrivljene linije da indiciraju da svaki podatak može
pripadati i jednom i drugom clusteru s različitim vrijednostima funkcija pripadnosti.

3. Objasniti korake Fuzzy C-means algoritma na primjeru.

6
7
4. Objasniti matlab funkciju Fuzzy clusteringa.
[CENTER, U, OBJ_FCN] = FCM(DATA, N_CLUSTER)
Ova naredba pronalazi N_CLUSTER broj klastera u skupu podataka DATA. DATA je velicine
MxN gdje je M broj točaka podataka, a N broj koordinata za svaku točku podataka.
U redovima matrice CENTER se vraćaju koordinate se za svaki centar klastera. Matrica funkcije
pripadnosti U, sadrži ocjenu pripadnosti svake tačke DATA u svakom klasteru. Na svakoj
iteraciji, funkcija cilja je minimizirana kako bi se pronašla najbolja lokacija za klastere i njene
vrijednosti se vraćaju u OBJ_FCN.

Predavanje 11
1. Definicija microarray ekspresije gena.
Nivo (jačina) ekspresije gena se odnosi na aktivnost jednog
gena u stvaranju proteina u okviru centralne dogme. Ovaj nivo
se procjenjuje mjereći količinu RNK, odnosno iRNK za
konkretan gen. Proizvodnja veće količine RNK, odnosno,
iRNK obično indicira veću aktivnost gena (jaču ekspresiju) u
okviru centralne dogme.
2. Objasniti microarray eksperiment.

Neka su geni od interesa raspoloživi kao DNK klonovi. Polymerase Chain Reaction (PCR) se
koristi da pojača svaki gen na dovoljan nivo u cilju omogućenja printanja na array (microarray
chip). Osnovno uparivanje nukleotida ili hibridizacija je temeljni princip DNK/RNK microarray-a.
A-T i G-C za DNK, A-U i G-C za RNK (Stvaranjem RNK, T prelazi u U, a,G i C ostaju isti)

8
0-1. DNK/RNK se izolira iz
referentne (kontrolne) ćelije i
testne (eksperimentalne) ćelije
2. cRNK se sintetizira iz svake
RNK populacije reverznim
procesom.
3. Rezultujuć cRNK-uzorci
(kontrolni i testni) se labeliraju
sa dvije različite fluoreccentne
boje i miješaju.
4. i hibridiziraju na ciljne DNK
koji se nalaze na microarray
chipu.

9
10
3. Zadatak - Ponašanje gena sa aspekta vremenskih, odnosno tretman uslova.
Microarray eksperimenti omogućavaju biolozima da spoznaju funkcije gena čak i onda kada su
tehnike sličnosti DNK sekvenci nedovoljne za spoznaju njihovih funkcija. Microarray-i mjere
aktivnost gena (nivo ekspresije gena) pod različitim stanjima/vremenskim trenucima.

4. Objasniti predstavljanje podataka ekspresije gena na bazi apsolutnog i relativnog


mjerenja.
U slučaju apsolutnog mjerenja (Tabela 1) , svaka ćelija u
matrici će predstavljati nivo ekspresije gena u apsolutnim
jedinicama. Napomena: Pošto je naš cilj da pratimo promjene
u ekspresiji gena, nije smisleno porediti nivoe ekspresije u
apsolutnim jedinicama u dva različita uslova (Ci), jer za svaki
uslov (Ci) startujući iznosi iRNK, tj., startujuća vrijednost broja
može biti različita
Npr. Gen B nije se u uslovu C1 promijenio od 0 do 100 nego
od 50 do 100, ili u uslovu C2 startna vrijednost je mogla da bude 180 a ne nula. Realno stanje je
da je u C1 bila promjena 50 (a ne 100),a u C2 je bila 20 (a ne 200)
ZAKLJUČAK:​ ne možemo da pratimo promjene u ekspresiji gena!
U slučaju Tabele 2 koja predstavlja log2 (odnos ekspresije) vrijednosti. Informacija o
up-regulaciji (pozitivan broj) i down-regulaciji (negativan broj) se uzima i mapira na simetričan
način. Npr., 4-fold up-regulacija se mapira u log2 (4) = 2 (više se proizvodi iRNK) i 4-fold
down-regulacija se mapira u log2 (1/4) = -2. (manje se proizvodi iRNK) Tako, iz ove tabele
fold-promjena za različito regulisane gene pod bilo kojim uslovom može biti jednostavno
prepoznata. Tabela 2 prikazuje log2 (iznos ekspresije) vrijednosti gena pod različitim uslovima.
C4 uzorak je referentni.

11
5. Predstavljanje profila ekspresije gena i ekspresije uzorka kao vektora.
Do sada smo vidjeli kako individualne ćelije u matrici ekspresije gena mogu biti predstavljene.
Slično, profil ekspresije jednog gena ili profil ekspresije jednog uzorka mogu biti zamišljeni kao
vektori i mogu biti predstavljeni u prostoru vektora. Npr., jedan profil ekspresije gena se može
smatrati vektorom u n dimenzionalnom prostoru (gdje je n broj uslova), a jedan profil ekspresije
uzorka se može smatrati vektorom u m dimenzionalnom prostoru (gdje je m broj gena).

6. Zadatak - Prag i obrezivanje drveta.


Jedan THRESHOLD (prag) se može
zadati na bilo kojoj vrijednosti između -1
i 1 na korelacionoj osi. Geni upareni s
korelacionim vrijednostima većim od
tresholda mogu biti smatrani clusterom.
Geni ili clusteri s korelacionim
vrijednostima manjim od tog tresholda
se ne mogu smatrati clusterom. Ovo je
poznato kao “CUTTING TREE”.
Zadavajući threshold vrijednost , mi u
stvari kažemo: “SVI GENI MORAJU
IMATI KORELACIJU VEĆU OD MOG THRESHOLDA DA BIH IH SMATRAO JEDNIM
CLUSTEROM”. Npr., ako je threshold postavljen na 0.75 (gornji primjer), tada bi bio samo jedan
cluster(geni E i G), a sav ostatak gena bio bi ne clusterisan.

Međutim, ako bi threshold bio postavljen


na 0.50, tada bi imali dva cluster-a i jedan
slobodan gen(Cluster 1: ADBFC; Cluster
2: EG; slobodan gen:H)

12
7. Objasniti prosječni profil ekspresije gena.

Average linkage algoritam se izvršava iterativno dok se svi geni ne uključe u jedan cluster. Na
taj način se formira drvo u kome terminalni čvorovi predstavljaju gene,a sve grane predstavljaju
različite clustere.

Zašto je nepovoljna microarray tabela za praćenje gena kad imamo apsolutno mjerenje?
Jer ne možemo da pratimo promjene u ekspresiji gena!
U slučaju apsolutnog mjerenja, svaka ćelija u matrici će predstavljati nivo ekspresije gena u
apsolutnim jedinicama. Napomena: Pošto je naš cilj da pratimo promjene u ekspresiji gena, nije
smisleno porediti nivoe ekspresije u apsolutnim jedinicama u dva različita uslova (Ci), jer za
svaki uslov (Ci) startujuća vrijednost broja može biti različita.

Profil ekspresije gena


Geni koji su slicni jedni drugima se grupisu zajedno
Prosjecni profil expresije gena za za dobivenu grupu se racuna primjenom average linkage
algoritma.
Average linkage algoritam se izvršava iterativno dok se svi geni ne uključe u jedan cluster. Na
taj način se formira drvo u kome terminalni čvorovi predstavljaju gene,a sve grane predstavljaju
različite clustere.

13
Predavanje 12
1. Definisati sequence alignment i šta se sve može uparivati?
Način aranžiranja sekvenci (DNK, RNK ili proteina) od dviju ili više vrsta u cilju identifikacije
regija sličnosti koje mogu biti posljedica funkcionalnih, strukturalnih ili evolucionih relacija
(srodstva) između sekvenci.
Pairwise Sequence Alignment (PSA) se koristi da se identifikuju regije sličnosti koje mogu
indicirati funkcionalne, strukturalne i/ili evolucione relacije između dvije biološke sekvence
koristeći po jedan par u svakom trenutku.
Multiple Sequence Alignment(MSA) jeste uparivanje tri ili više bioloških
Sekvenci.
Mogu se uparivati DNK, RNK, tRNK, iRNK, aminokiseline, proteini

2. Šta je zadatak analize DNK sekvenci?


Zadaci su da se odredi broj gena u sekvenci, ključni geni i razlika između njih i geni sličnosti.
Zato nam treba poznavanje skupa pravila po kojima se redosljed A,C,T,G baza iz DNK sekvenci
prevodi u slijed aminokiselina (1 aminokiseline = 3 nukleotida). Ako otkrijemo ta pravila mi smo
otkrili genetsku mudrost. Lingvista proučava nepoznati jezik od kojeg je napisan neki tekst.
Bioinformatičar pokušava da dekodira najstariji jezik-jezik gena.
3. Definicija homologije i kako je prikazujemo?
“For many protein sequences, evolutionary
history can be traced back 1-2 billion years”
“When we align sequences, we assume
that they share a common ancestor: They
are then homologous”
Homologija - u biološkom kontekstu, je
postojanje zajedničkih predačkih struktura
i/ili gena kod razlčitih vrsta.
Prikazujemo je pomoću filogenetskog
drveta
1 Punjenje podataka sekvenci: load
primatesdemodata
2 Kreiranje filogenetskkg drveta: tree =
seqlinkage(seqpdist(primates),'single',
primates);
3 Izgled filogenetskog drveta: view(tree)
4. Šta je optimalno, globalno i lokalno poravnavanje, primjer.
OPTIMALNO PORAVNAVANJE - Poravnavanje koje je najbolje od jednog broja različitih
poravnavanja kada se na njih primjeni dati skup pravila i vrijednosti parametara. Ali, ako su kod
tih poravnavanja različite polazne* pretpostavke onda teško možemo reći da postoji optimalno
poravnavanje. * npr., jedna sekvenca iz jednog perioda , a druga iz drugog perioda
GLOBALNO PORAVNAVANJE - To je ono poravnavanje koje pretpostavlja da su dva
proteinska lanca ili nukleotidna lanca uglavnom slična na čitavim njihovim dužinama.

14
Poravnavanje pokušava da upari jedan lanac s drugim pomjerajući taj lanac od kraja do kraja
drugog lanca.
Različite dužine lanaca Iste dužine lanaca:

LOKALNO PORAVNAVANJE - To je poravnavanje koje istražuje slaganje samo segmenata od


dvije sekvence. Ne pokušava se forsiranje cjelokupnih sekvenci u proces poravnavanja. Samo
se forsiraju oni dijelovi koji izgledaju da imaju dobru sličnost, prema određenom kriteriju.
Različite dužine lanaca Iste dužine lanaca:

Na prvi pogled bi izgledalo da bi se uvijek moglo koristiti lokalno uparivanje. Međutim, bilo bi
teško snimiti cjelokupnu sličnost. I kad bi izvršili poravnavanje domena s domenom od dva
lanca, opet bi trebalo spojiti sve te domene radi cjelokupnog pogleda na sličnost dva lanca. Alati
za lokalno uparivanje pronalaze jedan ili više domena koji opisuju najsličnije regije unutar
sekvenci koje poredimo.

5. Zadatak - poravnavanje.

6. Kako se sve boduje sličnost?

15
Boduje se po: ključu, boji, kiselosti, bazičnosti, veličini, obliku

Predavanje 13
1. Objasniti biološku evoluciju?
Prvi odgovor na ovo pitanje se može pronaći u Charles Darwin-ovoj prirodnoj selekciji i
preživljavanja boljeg.
Drugi odgovor bi se mogao tražiti u Mendel-ovoj teoriji nasljednosti.
Treći odgovor bi se mogao dobiti od Fritza iz njegovih genetičkih istraživanja.
Četvrti odgovor bi se mogao saznati od Weismana iz individualnog varijabiliteta i polnih
elemenata.

16
Definicija:
Stohastički procesi koji djeluju na i unutar populacija i vrsta iz generacije u generaciju:
Reprodukcija, Mutacija, Natjecanje, Selekcija su glavni doprinos historiji života.

2. Objasniti na cvijetu proces od genotipa do fenotipa?

Zadatak genetike je da upoznaje i istražuje zakone prenošenja osobina koje mogu biti
morfološke, fiziološke, biohemijske i psihološke.

3. Evoluciono računarstvo (prva i druga klasifikacija)


Prva klasifikacija:
Evoluciono računarstvo - polje simuliranja evolucije na računaru, obezbjeđuje osnovu za
kretanje prema novoj filozofiji mašinske inteligencije. Evolucija se kategorizira kroz nekoliko
nivoa hijerarhije:
- Gen
- Hromozom
- Individua
- Vrsta i
- Ekosistem
Da bi konstruisali koristan model evolucija se mora apstrahirati u terminima relacija ponašanja
između ovih jedinica evolucije. Rezultat takvog modeliranja jeste serija optimizacionih
algoritama koji se oslanjaju na veoma jednostavna pravila

17
Druga klasifikacija:

Genetički algoritmi – previše su domenski neovisni da budu korisni u mnogim aplikacijama.


Evolucioni programi – koji inkorporiraju problemski specifično znanje u hromosomskim
strukturama podataka i specifični genetički operatori izvršavaju zadatke puno bolje.

4. Generički dijagram genetičkog algoritma?

5. Koraci pripreme za GA?


Korak 1. Funkcija koja se treba optimizirati ( f(x1,x2))
Korak 2. Parametri i njihovi limiti (x1: -5 do +5; x2: -10 do + 10)
Korak 3. Izbor broja bita za predstavljanje opsega ( 3 bita)
Korak 4. Konverzije decimalnih(fenotipa) u binarne( genotip) brojeve ( npr -10 u 000 za x2)
Korak 5. Formacija hromozoma ( 3 bita za x1 i 3 bita za x2)
Korak 6. Formacija populacije ( 8 x 8 = 64)
Korak 7. Polazna generacija ( raspored u prostoru)

18
6. Elementi GA?
1. Populacija (grupa) potencijalnih rješenja i broj generacija
2. Metod kodiranja potencijalnih rješenja u računarski razumljivu formu
3. Fitness funkcija
4. Operator selekcije
5. Operator ukrštanja
6. Operator mutacije
7. Metod zamjene populacija
8. Uvjet zaustavljanja

7. Objasniti kodiranje na bazi cvijeta?

19
8. Kako se vrši računanje fitnesa za cvijet?

20
9. Objasniti operator selekcije?

21
Bira one hromozome u populaciji kojima će biti dozvoljeno da se reprodukuju. Metod je
jednostavan za implementaciju Obrađuje probleme maksimizacije Prerana konvergencija

10. Objasniti rulet selekciju na primjeru cvijeta?

11. Implementacija rulet selekcije?

22
12. Objasniti genetički operator ukrštanje na primjeru cvijeta?
UKRŠTANJE izmjenjuje pod-djelove od dva hromozoma, ugrubo oponašajući biološku
rekombinaciju između dva single-hromozom (haploid) organizma;

13. Objasniti princip elitizma?

23
24

Potrebbero piacerti anche