Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Data Mining
Analiza logova
Profesor: Student:
Dr. Milena Stanković Stevan Grubač
Log analysis 2
Analiza logova
Predstavlja jedan od načina skupljanja podataka
i proučavanja korisnika nekog sistema preko log
fajlova.
Log fajlovi
Predstavlja jedan ili više fajlova (sistem fajlova)
koje arhiviraju i ažuriraju određeni sistemi,
programi ili u našem slučaju WEB serveri.
U njima se beleže mnogobrojne aktivnosti, kako
sistema tako i korisnika istih. Većina je
tekstualnog tipa i mogu se pogledati iz bilo kog
editora.
Log analysis 3
Povezanost sa Web Mining-om
Analiza logova obezbeđuje pronalaženje određenih informacija
vezanih za korisnike određenih usluga.
Log analysis 4
Vrste log fajlova:
Mogu se nalaziti unutar jednog log fajla a
mogu biti razvrstani i kao različiti fajlovi
Access.log
Error.log
Reffer.log
Search.log
Rotation log (apache)
Piped log (apache)
....
Log analysis 5
Najčešće korišćeni web serveri:
ProductVendor Web Sites HostedPercent
most recent statistics of the market share of the top web servers on the internet
GSW(google)
Log analysis 7
Struktura log fajlova
NCSA Common Log:
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif
HTTP/1.0" 200 2326
NSCA Combined Log
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif
HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08
[en] (Win98; I ;Nav)" ”
Log analysis 8
Web sintaksa
Parametri koji se koriste iz log fajlova
HIT – broj zahteva za nekim fajlom objektorm sa web servera. Dobijamo ga analizom
fajla, ali ovaj parametar gubi na važnosti (precizosti) za neke dinamičke i
kompleksne web stranice koje otvaranjem određenih stranica i povlače veliki broj
fajlova.
UNIQUE VISITORS – Stvarni broj posetilaca koji koriste jedinstvenu ip adresu.
NEW/RETURN VISITORS – Broj poesetilica koji prvi put dolaze na sajt u poređenju sa
posetiocima koji su već bili na sajtu.
PAGE VIEWS – Broj pregleda stranica, parametar koji razdvaja sadržaj sajta koji se
češće pregleda ili se uopšte ne pregledava
PAGE VIEWS PER VISITOR – Broj pregleda stranica podeljen sa brojem posetilaca u
nekom vremesnkom intevalu.
IP ADDRESS – Tridesetdvobitni broj koji identifikuje kompjuter u okviru mreže.
Internet konekcija može biti dinamička ili statička.
VISITOR LOCATION – Geografska lokacija posetioca sajta
VISITOR LANGUAGE – Jezik na računaru posetioca
REFERRING PAGES – Da li je došao sa neke druge web adrese, ili direktnim
ukucavanjem adrese sajta.
BROWSER TYPE - verzija browsera koji koristi
ERRORS - greške na strani klijenta ili servera
VISIT DURATION - prosečno vreme posetioca na sajtu
VISITOR NAVIGATION - putanja kojom se posetilac kretao kroz sajt
...
Log analysis 9
Prednosti analize log fajlova :
Dostupnost podataka
Mogućnost analize podataka
Mogućnost korišćenja nezavisno od
programa za analizu logova
Nezavisnost
Dobijamo specifične pokazatelje web
saobraćaja za određeni sajt.
Log analysis 10
Nedostaci analize log fajlova:
Ne vide se klijenti nego računari
Greške pri analizi:
Uvećanje broja pogodaka (hits) kada se traži zahtev za nekom
stranom na sajtu se otvaraju mnogi objekti koje sadrži ta strana,
dok posetilac nije zahtevao sve te objekte, u logovima će se
svakako zabeležiti kao korišćeni.
Uvećanje broja poseta -Dužina posete se računa kao vreme u toku
koga je svaki interval između dva zahteva za stranicom bio manji
od 30minuta, nakon tog period smatra se da je posetilac otišao sa
sajta.
Log analysis 11
Sofwer za analizu log fajlova:
Analog
Piwik
Web log analyser
W3Perl
WebLog Expert
...
Log analysis 12
Hvala na pažnji !
Pitanja?
Log analysis 13
Literatura
http://en.wikipedia.org/
http://technet.microsoft.com/en-
us/library/cc738725%28WS.10%29.aspx
http://publib.boulder.ibm.com/tividd/td/ITWSA/ITWSA_info
45/en_US/HTML/guide/c-logs.html#iplanet
Log analysis 14