Sei sulla pagina 1di 54

Problem dimenzionalnosti

dr.sc. Damir Demirovic

FE, UNTZ

14. studenog 2017.

dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 1 / 48
Dimenzionalnost podataka
Broj podataka potrebnih za treniranje i veoma
jednostavnog klasi kacijskog problema eksponencijalno
zavisan od dimenzije osobina.
Problem dimenzionalnosti (engl. curse of dimensionality ),
odnosi se na razlicite fenomene pri analizi i organiziranju
podataka u visoko dimenzione zicke prostore (stotine ili hiljade
dimenzija), koji inace nisu prisutni u prostorima nizih dimenzija,
(npr. 3D).
Zapremina prostora se brzo povecava, podaci postaju rastrkani
(engl. sparse), sto znacajno utjece na statisticku znacajnost.
Kolicina podataka se mora prilagoditi, (rasti eksponencijalno s
porastom dimenzionalnosti).
Povecanjem dimenzionalnosti znacajno se smanjuju
performanse klasi katora.
Jedan od glavnih problema visoke dimenzionalnosti je
vizuelizacija podataka.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 2 / 48
Dimenzionalnost podataka (2)

performanse

dimenzionalnost

Slika : Problem dimenzionalnosti slika nakon [?]

dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 3 / 48
Previse prelagoden problem
Pojam previse prilagodenog problema (engl. over tting ) koristi
se u statistici kada statisticki model opisuje slucajnu gresku ili
sum umjesto odredene zakonitosti.
Model je pretjerano kompleksan, - mnogo vise parametara u
odnosu na broj observacija.
Karakteristike: lose performanse predikcije, precjenjuju se
minorne uktuacije vrijednosti podataka.
Primjer je dat na slici 2, uocavaju se linearni podaci predstavljeni
tackama. Nakon prilagodavanja (engl. tting ) tacaka linearnom
funkcijom ili polinomom, iako polinom daje perfektnu
podudarnost u tackama, linearna funkcija ne obuhvata vecinu
tacaka. Bolja generalizacija se ostvaruje pomocu linearne
funkcije.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 4 / 48
Previse prelagoden problem (2)

Slika : Primjer previse prilagodenog problema, za date podatke daje krivulju


koja prolazi kroz date tacke, mada bi pravac bio prikladniji.

S druge strane, mogucnost over ttinga postoji usljed razlicitosti


koristenih kriterija za treniranje modela i ocjenu e kasnosti modela.
Za over tting je karakteristicno da model memorise podatke kojim se
trenira umjesto da generalizira iz trenda kojeg podaci predstavljaju.

dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 5 / 48
Previse prelagoden problem (3)
Ako je broj parametara isti ili veci od broja observacija,
jednostavni model perfektno predvida trenirajuce podatke,
prostim memoriziranjem, odnosno pri pojavi novih podataka dat
ce znacajno lose predikcije.
Problem over ttinga se moze izbjeci koristenjem tehnika kao sto
su krosvalidacija, regularizacija, rano zaustavljanje,
potkresivanje (engl. pruning ), Bayesian priors itd.
Neka je broj osobina d veliki, tada broj uzoraka n moze
biti nedovoljan za preciznu estimaciju parametara.
2
Kovarijantna matrica tada ima d parametara:
=2 2 ::: d 3 (1)
1 1
X 6 . ::: . 7
.. .
. . ..

1 2
d d

4 5

dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 6 / 48
Previse prelagoden problem (4)
Za preciznu estimaciju n bi trebalo biti mnogo vece od
2
d , u suprotnom model je jako slozen - javlja se over
tting.
2
Za n < d pretpostavlja se nekoreliranost osobina, iako je
ova pretpostavka pogresna.
Tada kovarijantna matrica ima samo d parametara.
=2 2 ::: 0 3 (2)
1
X 6 . ::: . 7
.. .
. . ..

2
0 d

4 5
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 7 / 48
Premalo prilagoden problem
Premalo prilagoden problem (engl. under tting ) je model koji ima
lose prediktivne performanse, odnosno visoku gresku tokom testiranja.
Usljed ovoga nema dovoljnu kompleksnost da bi \uhvatio" pravu
strukturu u podacima.
Na slici 3 je prikazan primjer previse i premalo prilagodenog problema.

Underfitting Overfitting

Slika : Primjer previse i premalo prilagodenog problema

dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 8 / 48
Redukcija osobina
Redukcija dimenzionalnosti je proces smanjenja broja
analiziranih slucajnih varijabli
Dijeli se na selekciju osobina i ekstrakciju osobina.
Ekstrakcija iz originalnih vrijednosti kreira nove, a selekcija
izdvaja podskup.
Metode za ekstrakciju i selekciju osobina mogu se podijeliti na:
I nenadzirane, gdje spadaju komponentna analiza itd.
I nadzirane, gdje spadaju regresija, klasi kacija itd.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 9 / 48
Redukcija osobina (2)
Klasi kator koji koristi ekstrakciju/selekciju osobina moze se prikazati kao na slici.
2x2 3 2xi2 3 2x2 3 ekstrakcija osobina 2y2 3
6x 7 6x 6x1 7 6y1 7
1 i1 7
..
6. 7
selekcija osobina .
6.
. 7
..
6
. 7
..
6. 7
6
6 7 6 7 7 6 7

6xn7
6 7
6xim7 6
6 76
xn
7
7
6ym7
6 7

4 5 4 5 4 5
54

Slika : Prikaz selekcije i ekstrakcije osobina. Selekcija odabire podskup


osobina, dok ekstrakcija transformise ulazne osobine.

Ulazni uzorak Senzor Selektor/ekstraktor Klasi kator Izla


osobina

Slika : Klasi kator koji koristi selekciju i/ili ekstrakciju osobina

dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 10 / 48
Selekcija osobina
Predstavlja proces odabira podskupa relevantnih osobina koje
ce se koristiti pri kreiranju modela.
Proces selekcije zasniva se na cinjenici da podaci sadrze mnogo
redundantnih ili irelevantnih osobina. Redundantne osobine su
one koje ne obezbjeduju vise informacija nego trenutno
odabrane osobine, dok irelevantne osobine ni u kom slucaju ne
obezbjeduju korisne informacije.
Tehnike selekcije osobina obezbjeduju nekoliko prednosti:
I smanjenje vremena kreiranja i/ili treniranja modela
I krace vrijeme treniranja
I poboljsanu generalizaciju smanjenjem over ttinga

dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 11 / 48
Selekcija osobina (2)
Klasican primjer selekcije osobina je analiziranje DNK
mikronizova koji sadrze hiljade osobina, nekoliko desetina ili
stotina uzoraka.
Postoji nekoliko kriterija za mjerenje performansi klasi
kacije individualnih vektora ili vektora osobina.
Najvaznije tehnike: iscrpno pretrazivanje (engl. exhaustive
search), branch and bound algorithm, maksimalna i minimalno
odabiranje osobina, (engl. max-min feature selection) i
Fischerovi linearni diskriminanti.
Na slici je prikazan sistem koji koristi selektor i/ili ekstraktor
osobina. Ulazni uzorci se prije klasi kacije vode u
selektor/ekstraktor a zatim klasi ciraju.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 12 / 48
Ekstrakcija osobina
Podaci se iz visokodimenzionalnog prostora transformisu u
prostor manjih dimenzija.
Dimenzije se smanjuju odgovarajucom projekcijom D-
dimenzionog vektora na d-dimenzioni vektor (po mogucnosti
d D) u cilju minimiziranja (maksimiziranja) izabranog kriterija.
Ekstrakcija primjenjuje transformaciju nad vektorom ulaznih
podataka, a zatim se iz transformisanog prostora selektuje
podskup od d osobina.
Nova osobina u transformisanom prostoru je funkcija
originalne varijable D.
Ekstrakciju osobina mozemo podijeliti na nenadziranu i nadziranu.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 13 / 48
Ekstrakcija osobina (1)
Nenadzirane metode mogu biti linearne i nelinearne, a neki od
metoda su:
I Analiza glavnih komponenti (engl. Principal Component
Analysis PCA),
I Independent Component Analysis (ICA) ,
I Multidimensional Scaling (MDS), Topographic Maps (SOMs)
I itd.

Supervizirane metode ukljucuju znanje o klasama. Tu spada


Linear Discriminant Analysis (LDA).
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 14 / 48
Analiza glavnih komponenti - PCA
PCA se jos zove diskretna Karhunen - Lo`fegve transformacija
(KLT), Hotteling transform itd. Ponekad je tesko pronaci uzorke u
visoko dimenzionom skupu podataka, (za visokodimenzione
prostore problem je vizuelizacije jer adekvatna gra cka predstava
nije moguca).
PCA sluzi za redukciju dimenzija ulaznih podataka u cilju
lakse vizuelizacije i otkrivanja uzoraka, uz sto manje gubitke
podataka.
PCA na odredeni nacin kompresuje podatke, predstavlja
jednostavan neparametarski metod za ekstrakciju relevantnih
informacija iz kompleksnih skupova podataka.
Pomocu PCA identi kujemo uzorke u podacima, na taj nacin
da naglasavamo njihove slicnosti i razlike.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 15 / 48
Mjere razlicitosti i slicnosti
Koncept razlicitosti dissimilarity ili udaljenosti (dualne slicnosti)
je osnovna komponenta bilo kojeg tipa klasteringa, a koja
nam obezbjeduje prolaz kroz prostor podataka i formiranje
klastera.
Izracunavanjem udaljenosti ocijenjuje se koliko su uzorci \blizu", i
na osnovu njihove udaljenosti dodijeljuju se u zajednicki klaster.
Dissimilarity d(x; y ) izmedu x i y je predstavljena kao funkcija koja
mora zadovoljiti sljedece uslove

d(x; y) 0 za svako x i y
d(x; x) = 0 za svako x (3)
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 16 / 48
Mjere razlicitosti i slicnosti (2)
Drugim rijecima kao ocite zahtjeve zahtijevamo
nenegativnost, i simetriju.
U slucaju dva identicna uzorka udaljenosti poprimaju
globalni minimum odnosno d(x; x) = 0.
Udaljenost (metrika) je zahtjevniji koncept i za bilo koji uzorak x, y i
z imamo

d(x; y) + d(y; z) d(x; z) (4)


dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 17 / 48
Mjere razlicitosti i slicnosti (3)
Sljedeca tabela predstavlja funkcije udaljenosti za kontinualne
varijable. Svaka od navedenih funkcija ukljucuje razlicit
pogled na podatke s obzirom na njihovu geometriju.
Za neke geometrije posmatra se jednostavan slucaj dvije
T
osobine odnosno (x = [x1x2] ) i izracunati udaljenost x od
ishodista. Linije konstantne udaljenosti prikazuju geometrijske
konstrukcije odredene strukture podataka.
Euklidova udaljenost daje kruzne oblike klastera podataka.
Mahalanobis udaljenost je pogodna za detekciju
hiperelipsoidalnih klastera. Ova udaljenost se koristi u
robustnoj statistici kada je potrebno detektovati outliere
(izolovane uzorke) u multivarijantnim podacima.
Metode klasteringa su osjetljive na outliere (sum), (K-Means, FCM,
. . . ), koje je tesko detektovati na multivarijantnim podacima.
Mahalanobis udaljenost ce poprimiti veliku vrijednost za
outlier uzorke. Potrebno je koristiti robustne ocjene srednje
vrijednosti i matrice kovarijanse.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 18 / 48
Mjere razlicitosti i slicnosti (4)

Tablica : Cesto koristene udaljenosti


Udaljenost De nicija
2
Euklidova d (x; y ) = s i=1 (xi yi )

n P
P
i

Hammingova (city block) d (x; y ) = jxi yi j


=1
Tchebyscheva d (x; y ) = maxi=1;2;:::;n jxi yi j
Minkowski d (x; y ) = sp i=1 (x i y )p
i
;p>0
n
n P

Canberra d (x; y ) = iP jxi yi j ; xi i yi > 0


=1 xi +yi
q
1
Mahalanobis d (x; y ) = (xi m)T (xi m)
P
n
xi yi
Ugaon razdvajanje d (x; y ) = v
i=1
u P P
" #

unnt x2 y2
i i
i=1 i=1
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 19 / 48
Mjere razlicitosti i slicnosti (5)
U nastavku bit ce dat opis cesto koristenih udaljenosti (Tabela 2).
Osim ovih mjera postoje i mjere slicnost similarity. Takve mjere su
unutrasnji produkt, koe cijent korelacije i Tanimoto mjera

T (5)
S(x; y ) = x y
Koristi se kada su vektori x i y normalizovani, odnosno imaju istu
duzinu. koe cijent korelacije se de nise kao
P D
2 2
S = (x x)(y y)
CORR
(x
i=1
x) (y
i
y )
i 1=2 (6)
h P
i=1
D
i i i

i Tanimoto mjera koja se koristi za vektore binarnih vrijednosti a


koja se de nise na sljedeci nacin

ST (x; y ) = x y
T (7)
2 2 T
jxj + jy j x y
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 20 / 48
Euklidova udaljenost
Jedna je od najcesce koristenih udaljenosti.
Konture na kojim Euklidova udaljenost ima iste vrijednosti
su hipersfere, odnosno, u dvodimenzionom prostoru
kruznice.
Jedan od nedostataka je osobina jakog naglasavanja vecih
razlikama jedne varijable.

d
ch
de
d
cb

Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva


dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 21 / 48
Hammingova (city block) udaljenost
Jos poznata kao Mannhatan udaljenost ili engl. box-car udaljenost
pogodna je u pronalazenju udaljenosti izmedu tacaka unutar grada koji
je sacinjen od mreze ukrstenih ulica (po cemu je dobila naziv).
Konture jednake udaljenosti, posmatrano od neke tecke,
formiraju u 2D prostoru oblik dijamanta.
Nesto je manje zahtjevna za izracunavanje od Euklidove, te se
koristi u slucajevima kada je ogranicavajuci brzina faktor.
d
ch
de
d
cb

Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva


dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 22 / 48
Tchebyscheva udaljenost
Tchebyscheva ili maksimalna udaljenost (engl. maximal
value distance) cesto koristi u slucajevima kada je brzina
izvrsavanja kriticna, odnosno kada je izracunavanje
Euklidove udaljenosti neprihvatljivo.
Slicno kao i city-block udaljenost ova udaljenost izracunava
apsolutnu magnitudu razlika elemenata za odgovarajuce parove
vektora.
U dvodimenzionom sistemu konturne linije za
Tchebyschevu udaljenost za posmatranu tacku formiraju
kvadrate.
d
ch
d
e
d
cb
Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017.23 / 48
Minkowski udaljenost
je generalniji oblik Euklidove i city-block udaljenosti.
Moze se primijetiti da Minkowski udaljenost prvog reda
odgovara city-block udaljenost a Minkowski udaljenost drugog
reda je jednaka Euklidovoj.

d
ch
d
e
d
cb

Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva


dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 24 / 48
Canberra udaljenost
Ova udaljenost predstavlja sumu serija frakcija i pogodna
je za varijable koje poprimaju nenegativne vrijednosti.
Ako su oba xi i yi nula odnos razlike u odnosu na sumu se uzima
da je nula. Ako je samo jedna vrijednost nula izraz je jednak
jedinici, nezavisan od ostalih vrijednosti. Stoga su, 0 i 1 jednako
5
razliciti kao i par elemenata 0 i 10 . Ponekad se vrijednosti za 0
zamjenjuju malim pozitivnim brojevima.
d
ch
d
e
d
cb

Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva


dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 25 / 48
Mahalanobis udaljenost
predstavlja generalizaciju Euklidove udaljenosti.
Prigodna je kada su varijable razlicitih skala i kada su
korelirane, ali su i dalje priblizno raspodjeljene po Gaussovoj
raspodjeli. 1

Clan m je srednja vrijednost a matrica kovarijanse podataka.


Uobicajeno je da se koristi kvadrat Mahalanobisove udaljenosti, sto
se podudara sa eksponencijalom u multivarijantnom Gaussijanu.
Stoga su isokonture multivarijantnog Gaussiana
elipsoidi sa konstantnom Mahalanobis udaljenosti.
d
ch
de
d
cb
Slika : Mjere slicnosti, d e -Euklidova, d -Hammingova, d -Chebysheva
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosticb ch14. studenog 2017.26 / 48
Ugaona separacija
Ova mjera je prije similarity nego dissimilarity mjera, koja mjeri ugao
izmedu jedinicnih vektora u smjeru dva uzorka koji se posmatraju. Ova
mjera predstavlja ugao izmedu jedinicnih vektora u smjeru x i y . Korisna je
za one podatke za koje su bitne relativne magnitude vrijednosti.
d
ch
de
d
cb

beginf gureg[htb] Mjere slicnosti,


de -Euklidova, dcb- Hammingova, d -Chebysheva nendf gureg
ch
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 27 / 48
Mjere udaljenosti
U zavisnosti od primjene na izbor odgovarajuce udaljenosti moze
uticati vise faktora, raspodjela podataka te racunska kompleksnost.
Nema smisla favorizirati odredenu udaljenost, jer se primjene
baziraju na empirijskim postavkama, prednost se daje mjerama
koje mogu uhvatiti esencijalne razlike izmedu objekata.

dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 28 / 48
Big Data
Kolicina podataka neprestano raste, dok se cijena njihove pohrane
stalno smanjuje. Tehnike Big Data odnose se na obradu podataka.
Big Data predstavljaju novi izvor podataka koje se integrisu u
biznis i korelira sa vec postojecim podacima. Veca kolicina
podataka, razlicitog formata osim pohrane zahtijeva posebne
tehnike za dobijanje vrijednosti iz njih, usljed prisutnog \suma"
kojeg generisu podaci prije nego su pohranjeni.
Ovo predstavlja nedostatak Big Data. Prednost je sto \sirovi"
podaci otvaraju mogucnost novih otkrica koja ne bi bila moguca
da su prethodno bili obradeni i ltrirani.
Industrijski analiticar Doug Laney u 2001. godini skovao je
popularan izraz za opisivanje dostupnosti i eksponencijalnog
rasta struktuiranih i nestruktuiranih podataka.
Tako je nastala nova dominantna de nicija pojma big data koju
cine VVV, tri prva slova pojmova: Volume, Velocity i Variety.

dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 29 / 48
Big Data (2)
Volume (kolicina), postoji vise faktora koji su doprinijeli
povecanju u zapremini podataka. Baze podataka sa
transakcijama se koriste godinama, ali i nestruktuirani podaci
koji \struje" u drustvenim medijima.
Povecanje broja raznovrsnih senzora kao i komunikacije
masina sa masinom prikupljaju se ogromne kolicine
podataka.
Nekada prije je velika kolicina podataka uslovljavala probleme sa
pohranom, ali sa smanjenjem tih troskova ali i nekih drugih
faktora pojavljuju se drugi problemi a to su: kako analiticki kreirati
vrijednost iz relevantnih podataka.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 30 / 48
Big Data (3)
Velocity (brzina), podaci se stremaju velikom brzinama i uglavnom se
koriste u skoro realnom vremenu. (engl. Radio-frequency
identi cation - RFID) senzori te smart metering koriste veliku kolicinu
podataka. Dovoljno brzo reagovanje predstavlja izazov vecini
organizacija.
Variety (raznovrsnost), podaci se danas nalaze u razlicitim formatima.
Strukturirani, numericki, te podaci kreirani poslovnim aplikacijama.
Nestruktuirani tekstualni dokumenti, email, video, audio te
nansijske transakcije. Upravljanje, spajanje i upravljanje oblicima
podataka.
Primjer podataka koji su big data su petabajti (1024 terabajta)
i eksabajti (1024 petabajta) podataka koje sacinjavaju
milijarde do trilioni zapisa naprimjer o odredenim osobama.
Tehnologija koaj podrzava Big Data pokrenuta je u 2004. godini
od strane kompanje Google, u cilju obrade velike kolicine
podataka. Ova tehnologija je inspirirana rjesenjima za masovno
paralelno procesiranje (MapReduce) (koristeci paralelizaciju).
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 31 / 48
Big Data (4)
Raznovrsnost

terabajti
zapisi
transakcije
datoteke

Big
data strukturirani
batch nestrukturirani
streamovi polustrukturirani
skoro realno vrijeme njihove kombina-
realno vrijeme cije
Brzina Kolicina

Slika : Big data


dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 32 / 48

Potrebbero piacerti anche