Problem Dimenzionalnosti

Problem dimenzionalnosti
dr.sc. Damir Demirovic
FE, UNTZ
14. studenog 2017.
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017. 1 / 48
Dimenzionalnost podataka
Broj podataka potrebnih za treniranje i veoma
jednostavnog klasi kacijskog problema eksponencijalno
zavisan od dimenzije osobina.
Problem dimenzionalnosti (engl. curse of dimensionality ),
odnosi se na razlicite fenomene pri analizi i organiziranju
podataka u visoko dimenzione zicke prostore (stotine ili hiljade
dimenzija), koji inace nisu prisutni u prostorima nizih dimenzija,
(npr. 3D).
Zapremina prostora se brzo povecava, podaci postaju rastrkani
(engl. sparse), sto znacajno utjece na statisticku znacajnost.
Kolicina podataka se mora prilagoditi, (rasti eksponencijalno s
porastom dimenzionalnosti).
Povecanjem dimenzionalnosti znacajno se smanjuju
performanse klasi katora.
Jedan od glavnih problema visoke dimenzionalnosti je
vizuelizacija podataka.
Dimenzionalnost podataka (2)
performanse
dimenzionalnost
Slika : Problem dimenzionalnosti slika nakon [?]
Previse prelagoden problem
Pojam previse prilagodenog problema (engl. over tting ) koristi
se u statistici kada statisticki model opisuje slucajnu gresku ili
sum umjesto odredene zakonitosti.
Model je pretjerano kompleksan, - mnogo vise parametara u
odnosu na broj observacija.
Karakteristike: lose performanse predikcije, precjenjuju se
minorne uktuacije vrijednosti podataka.
Primjer je dat na slici 2, uocavaju se linearni podaci predstavljeni
tackama. Nakon prilagodavanja (engl. tting ) tacaka linearnom
funkcijom ili polinomom, iako polinom daje perfektnu
podudarnost u tackama, linearna funkcija ne obuhvata vecinu
tacaka. Bolja generalizacija se ostvaruje pomocu linearne
funkcije.
Previse prelagoden problem (2)
Slika : Primjer previse prilagodenog problema, za date podatke daje krivulju

koja prolazi kroz date tacke, mada bi pravac bio prikladniji.
S druge strane, mogucnost over ttinga postoji usljed razlicitosti

koristenih kriterija za treniranje modela i ocjenu e kasnosti modela.
Za over tting je karakteristicno da model memorise podatke kojim se
trenira umjesto da generalizira iz trenda kojeg podaci predstavljaju.
Ako je broj parametara isti ili veci od broja observacija,
jednostavni model perfektno predvida trenirajuce podatke,
prostim memoriziranjem, odnosno pri pojavi novih podataka dat
ce znacajno lose predikcije.
Problem over ttinga se moze izbjeci koristenjem tehnika kao sto
su krosvalidacija, regularizacija, rano zaustavljanje,
potkresivanje (engl. pruning ), Bayesian priors itd.
Neka je broj osobina d veliki, tada broj uzoraka n moze
biti nedovoljan za preciznu estimaciju parametara.
2
Kovarijantna matrica tada ima d parametara:
=2 2 ::: d 3 (1)
1 1
X 6 . ::: . 7
.. .
. . ..
1 2
d d
4 5
Za preciznu estimaciju n bi trebalo biti mnogo vece od
2
d , u suprotnom model je jako slozen - javlja se over
tting.
2
Za n < d pretpostavlja se nekoreliranost osobina, iako je
ova pretpostavka pogresna.
Tada kovarijantna matrica ima samo d parametara.
=2 2 ::: 0 3 (2)
1
X 6 . ::: . 7
.. .
. . ..
2
0 d
4 5
Premalo prilagoden problem
Premalo prilagoden problem (engl. under tting ) je model koji ima
lose prediktivne performanse, odnosno visoku gresku tokom testiranja.
Usljed ovoga nema dovoljnu kompleksnost da bi \uhvatio" pravu
strukturu u podacima.
Na slici 3 je prikazan primjer previse i premalo prilagodenog problema.
Underfitting Overfitting
Slika : Primjer previse i premalo prilagodenog problema
Redukcija osobina
Redukcija dimenzionalnosti je proces smanjenja broja
analiziranih slucajnih varijabli
Dijeli se na selekciju osobina i ekstrakciju osobina.
Ekstrakcija iz originalnih vrijednosti kreira nove, a selekcija
izdvaja podskup.
Metode za ekstrakciju i selekciju osobina mogu se podijeliti na:
I nenadzirane, gdje spadaju komponentna analiza itd.
I nadzirane, gdje spadaju regresija, klasi kacija itd.
Redukcija osobina (2)
Klasi kator koji koristi ekstrakciju/selekciju osobina moze se prikazati kao na slici.
2x2 3 2xi2 3 2x2 3 ekstrakcija osobina 2y2 3
6x 7 6x 6x1 7 6y1 7
1 i1 7
..
6. 7
selekcija osobina .
6.
. 7
..
6
. 7
..
6. 7
6
6 7 6 7 7 6 7
6xn7
6 7
6xim7 6
6 76
xn
7
7
6ym7
6 7
4 5 4 5 4 5
54
Slika : Prikaz selekcije i ekstrakcije osobina. Selekcija odabire podskup

osobina, dok ekstrakcija transformise ulazne osobine.
Ulazni uzorak Senzor Selektor/ekstraktor Klasi kator Izla

osobina
Slika : Klasi kator koji koristi selekciju i/ili ekstrakciju osobina
Selekcija osobina
Predstavlja proces odabira podskupa relevantnih osobina koje
ce se koristiti pri kreiranju modela.
Proces selekcije zasniva se na cinjenici da podaci sadrze mnogo
redundantnih ili irelevantnih osobina. Redundantne osobine su
one koje ne obezbjeduju vise informacija nego trenutno
odabrane osobine, dok irelevantne osobine ni u kom slucaju ne
obezbjeduju korisne informacije.
Tehnike selekcije osobina obezbjeduju nekoliko prednosti:
I smanjenje vremena kreiranja i/ili treniranja modela
I krace vrijeme treniranja
I poboljsanu generalizaciju smanjenjem over ttinga
Selekcija osobina (2)
Klasican primjer selekcije osobina je analiziranje DNK
mikronizova koji sadrze hiljade osobina, nekoliko desetina ili
stotina uzoraka.
Postoji nekoliko kriterija za mjerenje performansi klasi
kacije individualnih vektora ili vektora osobina.
Najvaznije tehnike: iscrpno pretrazivanje (engl. exhaustive
search), branch and bound algorithm, maksimalna i minimalno
odabiranje osobina, (engl. max-min feature selection) i
Fischerovi linearni diskriminanti.
Na slici je prikazan sistem koji koristi selektor i/ili ekstraktor
osobina. Ulazni uzorci se prije klasi kacije vode u
selektor/ekstraktor a zatim klasi ciraju.
Ekstrakcija osobina
Podaci se iz visokodimenzionalnog prostora transformisu u
prostor manjih dimenzija.
Dimenzije se smanjuju odgovarajucom projekcijom D-
dimenzionog vektora na d-dimenzioni vektor (po mogucnosti
d D) u cilju minimiziranja (maksimiziranja) izabranog kriterija.
Ekstrakcija primjenjuje transformaciju nad vektorom ulaznih
podataka, a zatim se iz transformisanog prostora selektuje
podskup od d osobina.
Nova osobina u transformisanom prostoru je funkcija
originalne varijable D.
Ekstrakciju osobina mozemo podijeliti na nenadziranu i nadziranu.
Ekstrakcija osobina (1)
Nenadzirane metode mogu biti linearne i nelinearne, a neki od
metoda su:
I Analiza glavnih komponenti (engl. Principal Component
Analysis PCA),
I Independent Component Analysis (ICA) ,
I Multidimensional Scaling (MDS), Topographic Maps (SOMs)
I itd.
Supervizirane metode ukljucuju znanje o klasama. Tu spada

Linear Discriminant Analysis (LDA).
Analiza glavnih komponenti - PCA
PCA se jos zove diskretna Karhunen - Lo`fegve transformacija
(KLT), Hotteling transform itd. Ponekad je tesko pronaci uzorke u
visoko dimenzionom skupu podataka, (za visokodimenzione
prostore problem je vizuelizacije jer adekvatna gra cka predstava
nije moguca).
PCA sluzi za redukciju dimenzija ulaznih podataka u cilju
lakse vizuelizacije i otkrivanja uzoraka, uz sto manje gubitke
podataka.
PCA na odredeni nacin kompresuje podatke, predstavlja
jednostavan neparametarski metod za ekstrakciju relevantnih
informacija iz kompleksnih skupova podataka.
Pomocu PCA identi kujemo uzorke u podacima, na taj nacin
da naglasavamo njihove slicnosti i razlike.
Mjere razlicitosti i slicnosti
Koncept razlicitosti dissimilarity ili udaljenosti (dualne slicnosti)
je osnovna komponenta bilo kojeg tipa klasteringa, a koja
nam obezbjeduje prolaz kroz prostor podataka i formiranje
klastera.
Izracunavanjem udaljenosti ocijenjuje se koliko su uzorci \blizu", i
na osnovu njihove udaljenosti dodijeljuju se u zajednicki klaster.
Dissimilarity d(x; y ) izmedu x i y je predstavljena kao funkcija koja
mora zadovoljiti sljedece uslove
d(x; y) 0 za svako x i y
d(x; x) = 0 za svako x (3)
Mjere razlicitosti i slicnosti (2)
Drugim rijecima kao ocite zahtjeve zahtijevamo
nenegativnost, i simetriju.
U slucaju dva identicna uzorka udaljenosti poprimaju
globalni minimum odnosno d(x; x) = 0.
Udaljenost (metrika) je zahtjevniji koncept i za bilo koji uzorak x, y i
z imamo
d(x; y) + d(y; z) d(x; z) (4)

Sljedeca tabela predstavlja funkcije udaljenosti za kontinualne
varijable. Svaka od navedenih funkcija ukljucuje razlicit
pogled na podatke s obzirom na njihovu geometriju.
Za neke geometrije posmatra se jednostavan slucaj dvije
T
osobine odnosno (x = [x1x2] ) i izracunati udaljenost x od
ishodista. Linije konstantne udaljenosti prikazuju geometrijske
konstrukcije odredene strukture podataka.
Euklidova udaljenost daje kruzne oblike klastera podataka.
Mahalanobis udaljenost je pogodna za detekciju
hiperelipsoidalnih klastera. Ova udaljenost se koristi u
robustnoj statistici kada je potrebno detektovati outliere
(izolovane uzorke) u multivarijantnim podacima.
Metode klasteringa su osjetljive na outliere (sum), (K-Means, FCM,
. . . ), koje je tesko detektovati na multivarijantnim podacima.
Mahalanobis udaljenost ce poprimiti veliku vrijednost za
outlier uzorke. Potrebno je koristiti robustne ocjene srednje
vrijednosti i matrice kovarijanse.
Tablica : Cesto koristene udaljenosti

Udaljenost De nicija
2
Euklidova d (x; y ) = s i=1 (xi yi )
n P
P
i
Hammingova (city block) d (x; y ) = jxi yi j

=1
Tchebyscheva d (x; y ) = maxi=1;2;:::;n jxi yi j
Minkowski d (x; y ) = sp i=1 (x i y )p
i
;p>0
n
n P
Canberra d (x; y ) = iP jxi yi j ; xi i yi > 0

=1 xi +yi
q
1
Mahalanobis d (x; y ) = (xi m)T (xi m)
P
n
xi yi
Ugaon razdvajanje d (x; y ) = v
i=1
u P P
" #
unnt x2 y2
i i
i=1 i=1
U nastavku bit ce dat opis cesto koristenih udaljenosti (Tabela 2).
Osim ovih mjera postoje i mjere slicnost similarity. Takve mjere su
unutrasnji produkt, koe cijent korelacije i Tanimoto mjera
T (5)
S(x; y ) = x y
Koristi se kada su vektori x i y normalizovani, odnosno imaju istu
duzinu. koe cijent korelacije se de nise kao
P D
2 2
S = (x x)(y y)
CORR
(x
i=1
x) (y
i
y )
i 1=2 (6)
h P
i=1
D
i i i
i Tanimoto mjera koja se koristi za vektore binarnih vrijednosti a

koja se de nise na sljedeci nacin
ST (x; y ) = x y
T (7)
2 2 T
jxj + jy j x y
Euklidova udaljenost
Jedna je od najcesce koristenih udaljenosti.
Konture na kojim Euklidova udaljenost ima iste vrijednosti
su hipersfere, odnosno, u dvodimenzionom prostoru
kruznice.
Jedan od nedostataka je osobina jakog naglasavanja vecih
razlikama jedne varijable.
d
ch
de
d
cb
Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva

Hammingova (city block) udaljenost
Jos poznata kao Mannhatan udaljenost ili engl. box-car udaljenost
pogodna je u pronalazenju udaljenosti izmedu tacaka unutar grada koji
je sacinjen od mreze ukrstenih ulica (po cemu je dobila naziv).
Konture jednake udaljenosti, posmatrano od neke tecke,
formiraju u 2D prostoru oblik dijamanta.
Nesto je manje zahtjevna za izracunavanje od Euklidove, te se
koristi u slucajevima kada je ogranicavajuci brzina faktor.
d
ch
de
d
cb

Tchebyscheva udaljenost
Tchebyscheva ili maksimalna udaljenost (engl. maximal
value distance) cesto koristi u slucajevima kada je brzina
izvrsavanja kriticna, odnosno kada je izracunavanje
Euklidove udaljenosti neprihvatljivo.
Slicno kao i city-block udaljenost ova udaljenost izracunava
apsolutnu magnitudu razlika elemenata za odgovarajuce parove
vektora.
U dvodimenzionom sistemu konturne linije za
Tchebyschevu udaljenost za posmatranu tacku formiraju
kvadrate.
d
ch
d
e
d
cb
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosti 14. studenog 2017.23 / 48
Minkowski udaljenost
je generalniji oblik Euklidove i city-block udaljenosti.
Moze se primijetiti da Minkowski udaljenost prvog reda
odgovara city-block udaljenost a Minkowski udaljenost drugog
reda je jednaka Euklidovoj.
d
ch
d
e
d
cb

Canberra udaljenost
Ova udaljenost predstavlja sumu serija frakcija i pogodna
je za varijable koje poprimaju nenegativne vrijednosti.
Ako su oba xi i yi nula odnos razlike u odnosu na sumu se uzima
da je nula. Ako je samo jedna vrijednost nula izraz je jednak
jedinici, nezavisan od ostalih vrijednosti. Stoga su, 0 i 1 jednako
5
razliciti kao i par elemenata 0 i 10 . Ponekad se vrijednosti za 0
zamjenjuju malim pozitivnim brojevima.
d
ch
d
e
d
cb

Mahalanobis udaljenost
predstavlja generalizaciju Euklidove udaljenosti.
Prigodna je kada su varijable razlicitih skala i kada su
korelirane, ali su i dalje priblizno raspodjeljene po Gaussovoj
raspodjeli. 1
Clan m je srednja vrijednost a matrica kovarijanse podataka.

Uobicajeno je da se koristi kvadrat Mahalanobisove udaljenosti, sto
se podudara sa eksponencijalom u multivarijantnom Gaussijanu.
Stoga su isokonture multivarijantnog Gaussiana
elipsoidi sa konstantnom Mahalanobis udaljenosti.
d
ch
de
d
cb
Slika : Mjere slicnosti, d e -Euklidova, d -Hammingova, d -Chebysheva
dr.sc. Damir Demirovic (FE, UNTZ) Problem dimenzionalnosticb ch14. studenog 2017.26 / 48
Ugaona separacija
Ova mjera je prije similarity nego dissimilarity mjera, koja mjeri ugao
izmedu jedinicnih vektora u smjeru dva uzorka koji se posmatraju. Ova
mjera predstavlja ugao izmedu jedinicnih vektora u smjeru x i y . Korisna je
za one podatke za koje su bitne relativne magnitude vrijednosti.
d
ch
de
d
cb
beginf gureg[htb] Mjere slicnosti,

de -Euklidova, dcb- Hammingova, d -Chebysheva nendf gureg
ch
Mjere udaljenosti
U zavisnosti od primjene na izbor odgovarajuce udaljenosti moze
uticati vise faktora, raspodjela podataka te racunska kompleksnost.
Nema smisla favorizirati odredenu udaljenost, jer se primjene
baziraju na empirijskim postavkama, prednost se daje mjerama
koje mogu uhvatiti esencijalne razlike izmedu objekata.
Big Data
Kolicina podataka neprestano raste, dok se cijena njihove pohrane
stalno smanjuje. Tehnike Big Data odnose se na obradu podataka.
Big Data predstavljaju novi izvor podataka koje se integrisu u
biznis i korelira sa vec postojecim podacima. Veca kolicina
podataka, razlicitog formata osim pohrane zahtijeva posebne
tehnike za dobijanje vrijednosti iz njih, usljed prisutnog \suma"
kojeg generisu podaci prije nego su pohranjeni.
Ovo predstavlja nedostatak Big Data. Prednost je sto \sirovi"
podaci otvaraju mogucnost novih otkrica koja ne bi bila moguca
da su prethodno bili obradeni i ltrirani.
Industrijski analiticar Doug Laney u 2001. godini skovao je
popularan izraz za opisivanje dostupnosti i eksponencijalnog
rasta struktuiranih i nestruktuiranih podataka.
Tako je nastala nova dominantna de nicija pojma big data koju
cine VVV, tri prva slova pojmova: Volume, Velocity i Variety.
Big Data (2)
Volume (kolicina), postoji vise faktora koji su doprinijeli
povecanju u zapremini podataka. Baze podataka sa
transakcijama se koriste godinama, ali i nestruktuirani podaci
koji \struje" u drustvenim medijima.
Povecanje broja raznovrsnih senzora kao i komunikacije
masina sa masinom prikupljaju se ogromne kolicine
podataka.
Nekada prije je velika kolicina podataka uslovljavala probleme sa
pohranom, ali sa smanjenjem tih troskova ali i nekih drugih
faktora pojavljuju se drugi problemi a to su: kako analiticki kreirati
vrijednost iz relevantnih podataka.
Big Data (3)
Velocity (brzina), podaci se stremaju velikom brzinama i uglavnom se
koriste u skoro realnom vremenu. (engl. Radio-frequency
identi cation - RFID) senzori te smart metering koriste veliku kolicinu
podataka. Dovoljno brzo reagovanje predstavlja izazov vecini
organizacija.
Variety (raznovrsnost), podaci se danas nalaze u razlicitim formatima.
Strukturirani, numericki, te podaci kreirani poslovnim aplikacijama.
Nestruktuirani tekstualni dokumenti, email, video, audio te
nansijske transakcije. Upravljanje, spajanje i upravljanje oblicima
podataka.
Primjer podataka koji su big data su petabajti (1024 terabajta)
i eksabajti (1024 petabajta) podataka koje sacinjavaju
milijarde do trilioni zapisa naprimjer o odredenim osobama.
Tehnologija koaj podrzava Big Data pokrenuta je u 2004. godini
od strane kompanje Google, u cilju obrade velike kolicine
podataka. Ova tehnologija je inspirirana rjesenjima za masovno
paralelno procesiranje (MapReduce) (koristeci paralelizaciju).
Big Data (4)
Raznovrsnost
terabajti
zapisi
transakcije
datoteke
Big
data strukturirani
batch nestrukturirani
streamovi polustrukturirani
skoro realno vrijeme njihove kombina-
realno vrijeme cije
Brzina Kolicina
Slika : Big data


Problem Dimenzionalnosti

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Problem Dimenzionalnosti

Caricato da

Copyright:

Formati disponibili

Problem dimenzionalnosti

dr.sc. Damir Demirovic

14. studenog 2017.

Slika : Problem dimenzionalnosti slika nakon [?]

Slika : Primjer previse prilagodenog problema, za date podatke daje krivulju

S druge strane, mogucnost over ttinga postoji usljed razlicitosti

Slika : Primjer previse i premalo prilagodenog problema

Slika : Prikaz selekcije i ekstrakcije osobina. Selekcija odabire podskup

Ulazni uzorak Senzor Selektor/ekstraktor Klasi kator Izla

Slika : Klasi kator koji koristi selekciju i/ili ekstrakciju osobina

Supervizirane metode ukljucuju znanje o klasama. Tu spada

d(x; y) + d(y; z) d(x; z) (4)

Tablica : Cesto koristene udaljenosti

Hammingova (city block) d (x; y ) = jxi yi j

Canberra d (x; y ) = iP jxi yi j ; xi i yi > 0

i Tanimoto mjera koja se koristi za vektore binarnih vrijednosti a

Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva

Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva

Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva

Slika : Mjere slicnosti, de -Euklidova, dcb-Hammingova, dch-Chebysheva

Clan m je srednja vrijednost a matrica kovarijanse podataka.

beginf gureg[htb] Mjere slicnosti,

Slika : Big data

Potrebbero piacerti anche