Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
FE, UNTZ
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 1 / 48
Dimenzionalnost podataka
Broj podataka potrebnih za treniranje i veoma
jednostavnog klasi kacijskog problema eksponencijalno
zavisan od dimenzije osobina.
Problem dimenzionalnosti (engl. curse of dimensionality ),
odnosi se na razlicite fenomene pri analizi i organiziranju
podataka u visoko dimenzione zicke prostore (stotine ili hiljade
dimenzija), koji inace nisu prisutni u prostorima nizih dimenzija,
(npr. 3D).
Zapremina prostora se brzo povecava, podaci postaju rastrkani
(engl. sparse), sto znacajno utjece na statisticku znacajnost.
Kolicina podataka se mora prilagoditi, (rasti eksponencijalno s
porastom dimenzionalnosti).
Povecanjem dimenzionalnosti znacajno se smanjuju
performanse klasi katora.
Jedan od glavnih problema visoke dimenzionalnosti je
vizuelizacija podataka.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 2 / 48
Dimenzionalnost podataka (2)
performanse
dimenzionalnost
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 3 / 48
Previse prelagoden problem
Pojam previse prilagodenog problema (engl. over tting ) koristi
se u statistici kada statisticki model opisuje slucajnu gresku ili
sum umjesto odredene zakonitosti.
Model je pretjerano kompleksan, - mnogo vise parametara u
odnosu na broj observacija.
Karakteristike: lose performanse predikcije, precjenjuju se
minorne uktuacije vrijednosti podataka.
Primjer je dat na slici 2, uocavaju se linearni podaci predstavljeni
tackama. Nakon prilagodavanja (engl. tting ) tacaka linearnom
funkcijom ili polinomom, iako polinom daje perfektnu
podudarnost u tackama, linearna funkcija ne obuhvata vecinu
tacaka. Bolja generalizacija se ostvaruje pomocu linearne
funkcije.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 4 / 48
Previse prelagoden problem (2)
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 5 / 48
Previse prelagoden problem (3)
Ako je broj parametara isti ili veci od broja observacija,
jednostavni model perfektno predvida trenirajuce podatke,
prostim memoriziranjem, odnosno pri pojavi novih podataka dat
ce znacajno lose predikcije.
Problem over ttinga se moze izbjeci koristenjem tehnika kao sto
su krosvalidacija, regularizacija, rano zaustavljanje,
potkresivanje (engl. pruning ), Bayesian priors itd.
Neka je broj osobina d veliki, tada broj uzoraka n moze
biti nedovoljan za preciznu estimaciju parametara.
2
Kovarijantna matrica tada ima d parametara:
=2 2 ::: d 3 (1)
1 1
X 6 . ::: . 7
.. .
. . ..
1 2
d d
4 5
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 6 / 48
Previse prelagoden problem (4)
Za preciznu estimaciju n bi trebalo biti mnogo vece od
2
d , u suprotnom model je jako slozen - javlja se over
tting.
2
Za n < d pretpostavlja se nekoreliranost osobina, iako je
ova pretpostavka pogresna.
Tada kovarijantna matrica ima samo d parametara.
=2 2 ::: 0 3 (2)
1
X 6 . ::: . 7
.. .
. . ..
2
0 d
4 5
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 7 / 48
Premalo prilagoden problem
Premalo prilagoden problem (engl. under tting ) je model koji ima
lose prediktivne performanse, odnosno visoku gresku tokom testiranja.
Usljed ovoga nema dovoljnu kompleksnost da bi \uhvatio" pravu
strukturu u podacima.
Na slici 3 je prikazan primjer previse i premalo prilagodenog problema.
Underfitting Overfitting
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 8 / 48
Redukcija osobina
Redukcija dimenzionalnosti je proces smanjenja broja
analiziranih slucajnih varijabli
Dijeli se na selekciju osobina i ekstrakciju osobina.
Ekstrakcija iz originalnih vrijednosti kreira nove, a selekcija
izdvaja podskup.
Metode za ekstrakciju i selekciju osobina mogu se podijeliti na:
I nenadzirane, gdje spadaju komponentna analiza itd.
I nadzirane, gdje spadaju regresija, klasi kacija itd.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 9 / 48
Redukcija osobina (2)
Klasi kator koji koristi ekstrakciju/selekciju osobina moze se prikazati kao na slici.
2x2 3 2xi2 3 2x2 3 ekstrakcija osobina 2y2 3
6x 7 6x 6x1 7 6y1 7
1 i1 7
..
6. 7
selekcija osobina .
6.
. 7
..
6
. 7
..
6. 7
6
6 7 6 7 7 6 7
6xn7
6 7
6xim7 6
6 76
xn
7
7
6ym7
6 7
4 5 4 5 4 5
54
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 10 / 48
Selekcija osobina
Predstavlja proces odabira podskupa relevantnih osobina koje
ce se koristiti pri kreiranju modela.
Proces selekcije zasniva se na cinjenici da podaci sadrze mnogo
redundantnih ili irelevantnih osobina. Redundantne osobine su
one koje ne obezbjeduju vise informacija nego trenutno
odabrane osobine, dok irelevantne osobine ni u kom slucaju ne
obezbjeduju korisne informacije.
Tehnike selekcije osobina obezbjeduju nekoliko prednosti:
I smanjenje vremena kreiranja i/ili treniranja modela
I krace vrijeme treniranja
I poboljsanu generalizaciju smanjenjem over ttinga
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 11 / 48
Selekcija osobina (2)
Klasican primjer selekcije osobina je analiziranje DNK
mikronizova koji sadrze hiljade osobina, nekoliko desetina ili
stotina uzoraka.
Postoji nekoliko kriterija za mjerenje performansi klasi
kacije individualnih vektora ili vektora osobina.
Najvaznije tehnike: iscrpno pretrazivanje (engl. exhaustive
search), branch and bound algorithm, maksimalna i minimalno
odabiranje osobina, (engl. max-min feature selection) i
Fischerovi linearni diskriminanti.
Na slici je prikazan sistem koji koristi selektor i/ili ekstraktor
osobina. Ulazni uzorci se prije klasi kacije vode u
selektor/ekstraktor a zatim klasi ciraju.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 12 / 48
Ekstrakcija osobina
Podaci se iz visokodimenzionalnog prostora transformisu u
prostor manjih dimenzija.
Dimenzije se smanjuju odgovarajucom projekcijom D-
dimenzionog vektora na d-dimenzioni vektor (po mogucnosti
d D) u cilju minimiziranja (maksimiziranja) izabranog kriterija.
Ekstrakcija primjenjuje transformaciju nad vektorom ulaznih
podataka, a zatim se iz transformisanog prostora selektuje
podskup od d osobina.
Nova osobina u transformisanom prostoru je funkcija
originalne varijable D.
Ekstrakciju osobina mozemo podijeliti na nenadziranu i nadziranu.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 13 / 48
Ekstrakcija osobina (1)
Nenadzirane metode mogu biti linearne i nelinearne, a neki od
metoda su:
I Analiza glavnih komponenti (engl. Principal Component
Analysis PCA),
I Independent Component Analysis (ICA) ,
I Multidimensional Scaling (MDS), Topographic Maps (SOMs)
I itd.
d(x; y) 0 za svako x i y
d(x; x) = 0 za svako x (3)
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 16 / 48
Mjere razlicitosti i slicnosti (2)
Drugim rijecima kao ocite zahtjeve zahtijevamo
nenegativnost, i simetriju.
U slucaju dva identicna uzorka udaljenosti poprimaju
globalni minimum odnosno d(x; x) = 0.
Udaljenost (metrika) je zahtjevniji koncept i za bilo koji uzorak x, y i
z imamo
n P
P
i
unnt x2 y2
i i
i=1 i=1
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 19 / 48
Mjere razlicitosti i slicnosti (5)
U nastavku bit ce dat opis cesto koristenih udaljenosti (Tabela 2).
Osim ovih mjera postoje i mjere slicnost similarity. Takve mjere su
unutrasnji produkt, koe cijent korelacije i Tanimoto mjera
T (5)
S(x; y ) = x y
Koristi se kada su vektori x i y normalizovani, odnosno imaju istu
duzinu. koe cijent korelacije se de nise kao
P D
2 2
S = (x x)(y y)
CORR
(x
i=1
x) (y
i
y )
i 1=2 (6)
h P
i=1
D
i i i
ST (x; y ) = x y
T (7)
2 2 T
jxj + jy j x y
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 20 / 48
Euklidova udaljenost
Jedna je od najcesce koristenih udaljenosti.
Konture na kojim Euklidova udaljenost ima iste vrijednosti
su hipersfere, odnosno, u dvodimenzionom prostoru
kruznice.
Jedan od nedostataka je osobina jakog naglasavanja vecih
razlikama jedne varijable.
d
ch
de
d
cb
d
ch
d
e
d
cb
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 28 / 48
Big Data
Kolicina podataka neprestano raste, dok se cijena njihove pohrane
stalno smanjuje. Tehnike Big Data odnose se na obradu podataka.
Big Data predstavljaju novi izvor podataka koje se integrisu u
biznis i korelira sa vec postojecim podacima. Veca kolicina
podataka, razlicitog formata osim pohrane zahtijeva posebne
tehnike za dobijanje vrijednosti iz njih, usljed prisutnog \suma"
kojeg generisu podaci prije nego su pohranjeni.
Ovo predstavlja nedostatak Big Data. Prednost je sto \sirovi"
podaci otvaraju mogucnost novih otkrica koja ne bi bila moguca
da su prethodno bili obradeni i ltrirani.
Industrijski analiticar Doug Laney u 2001. godini skovao je
popularan izraz za opisivanje dostupnosti i eksponencijalnog
rasta struktuiranih i nestruktuiranih podataka.
Tako je nastala nova dominantna de nicija pojma big data koju
cine VVV, tri prva slova pojmova: Volume, Velocity i Variety.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 29 / 48
Big Data (2)
Volume (kolicina), postoji vise faktora koji su doprinijeli
povecanju u zapremini podataka. Baze podataka sa
transakcijama se koriste godinama, ali i nestruktuirani podaci
koji \struje" u drustvenim medijima.
Povecanje broja raznovrsnih senzora kao i komunikacije
masina sa masinom prikupljaju se ogromne kolicine
podataka.
Nekada prije je velika kolicina podataka uslovljavala probleme sa
pohranom, ali sa smanjenjem tih troskova ali i nekih drugih
faktora pojavljuju se drugi problemi a to su: kako analiticki kreirati
vrijednost iz relevantnih podataka.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 30 / 48
Big Data (3)
Velocity (brzina), podaci se stremaju velikom brzinama i uglavnom se
koriste u skoro realnom vremenu. (engl. Radio-frequency
identi cation - RFID) senzori te smart metering koriste veliku kolicinu
podataka. Dovoljno brzo reagovanje predstavlja izazov vecini
organizacija.
Variety (raznovrsnost), podaci se danas nalaze u razlicitim formatima.
Strukturirani, numericki, te podaci kreirani poslovnim aplikacijama.
Nestruktuirani tekstualni dokumenti, email, video, audio te
nansijske transakcije. Upravljanje, spajanje i upravljanje oblicima
podataka.
Primjer podataka koji su big data su petabajti (1024 terabajta)
i eksabajti (1024 petabajta) podataka koje sacinjavaju
milijarde do trilioni zapisa naprimjer o odredenim osobama.
Tehnologija koaj podrzava Big Data pokrenuta je u 2004. godini
od strane kompanje Google, u cilju obrade velike kolicine
podataka. Ova tehnologija je inspirirana rjesenjima za masovno
paralelno procesiranje (MapReduce) (koristeci paralelizaciju).
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 31 / 48
Big Data (4)
Raznovrsnost
terabajti
zapisi
transakcije
datoteke
Big
data strukturirani
batch nestrukturirani
streamovi polustrukturirani
skoro realno vrijeme njihove kombina-
realno vrijeme cije
Brzina Kolicina