Sei sulla pagina 1di 14

Log analysis 1

Data Mining
Analiza logova

 Profesor: Student:
 Dr. Milena Stanković Stevan Grubač

Elektronski fakultet - Niš 2011

Log analysis 2
Analiza logova
Predstavlja jedan od načina skupljanja podataka
i proučavanja korisnika nekog sistema preko log
fajlova.

Log fajlovi
Predstavlja jedan ili više fajlova (sistem fajlova)
koje arhiviraju i ažuriraju određeni sistemi,
programi ili u našem slučaju WEB serveri.
U njima se beleže mnogobrojne aktivnosti, kako
sistema tako i korisnika istih. Većina je
tekstualnog tipa i mogu se pogledati iz bilo kog
editora.
Log analysis 3
Povezanost sa Web Mining-om
 Analiza logova obezbeđuje pronalaženje određenih informacija
vezanih za korisnike određenih usluga.

 Proizilazi uska povezanost sa WEB menadžmentom, tako da Web


mining i anlaliza logova su usko povezani spadaju u oblast
informatike poznatije kao Data mining

Log analysis 4
Vrste log fajlova:
 Mogu se nalaziti unutar jednog log fajla a
mogu biti razvrstani i kao različiti fajlovi

 Access.log
 Error.log
 Reffer.log
 Search.log
 Rotation log (apache)
 Piped log (apache)
 ....

Log analysis 5
Najčešće korišćeni web serveri:
 ProductVendor Web Sites HostedPercent

 ApacheApache 179,720,332 60.31%


 IISMicrosoft 57,644,692 19.34%
 nginxIgor Sysoev 22,806,060 7.65%
 GWSGoogle 15,161,530 5.09%
 Lighttpdlighttpd 1,796,471 0.60%

 Sun Java System Web ServerOracle

most recent statistics of the market share of the top web servers on the internet

by:Netcraft survey in March 2011 .


Log analysis 6
Najzastupljeniji formati logova:
 NCSA (Common or Access, Combined, and Separate or 3-Log)

 W3C Extended (used by Microsoft IIS 4.0 and 5.0)


Microsoft IIS ODBC Log Format

 SunTM ONE Web Server (iPlanet)

 IBM Tivoli Access Manager WebSEAL

 WebSphere Application Server Logs

 Lighttpd Log Format

 GSW(google)

Log analysis 7
Struktura log fajlova
NCSA Common Log:
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif
HTTP/1.0" 200 2326
NSCA Combined Log
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif
HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08
[en] (Win98; I ;Nav)" ”

W3C extended log file:


#Software: Microsoft Internet Information Services 6.0 #Version: 1.0
#Date: 2002-05-02 17:42:15 #Fields: date time c-ip cs-username s-ip s-
port cs-method cs-uri-stem cs-uri-query sc-status cs(User-Agent) 2002-
05-02 17:42:15 172.22.255.255 - 172.30.255.255 80 GET
/images/picture.jpg - 200
Mozilla/4.0+(compatible;MSIE+5.5;+Windows+2000+Server)

Link: Struktura log fajlova

Log analysis 8
Web sintaksa
 Parametri koji se koriste iz log fajlova

 HIT – broj zahteva za nekim fajlom objektorm sa web servera. Dobijamo ga analizom
fajla, ali ovaj parametar gubi na važnosti (precizosti) za neke dinamičke i
kompleksne web stranice koje otvaranjem određenih stranica i povlače veliki broj
fajlova.
 UNIQUE VISITORS – Stvarni broj posetilaca koji koriste jedinstvenu ip adresu.
 NEW/RETURN VISITORS – Broj poesetilica koji prvi put dolaze na sajt u poređenju sa
posetiocima koji su već bili na sajtu.
 PAGE VIEWS – Broj pregleda stranica, parametar koji razdvaja sadržaj sajta koji se
češće pregleda ili se uopšte ne pregledava
 PAGE VIEWS PER VISITOR – Broj pregleda stranica podeljen sa brojem posetilaca u
nekom vremesnkom intevalu.
 IP ADDRESS – Tridesetdvobitni broj koji identifikuje kompjuter u okviru mreže.
Internet konekcija može biti dinamička ili statička.
 VISITOR LOCATION – Geografska lokacija posetioca sajta
 VISITOR LANGUAGE – Jezik na računaru posetioca
 REFERRING PAGES – Da li je došao sa neke druge web adrese, ili direktnim
ukucavanjem adrese sajta.
 BROWSER TYPE - verzija browsera koji koristi
 ERRORS - greške na strani klijenta ili servera
 VISIT DURATION - prosečno vreme posetioca na sajtu
 VISITOR NAVIGATION - putanja kojom se posetilac kretao kroz sajt
 ...

Log analysis 9
Prednosti analize log fajlova :
 Dostupnost podataka
 Mogućnost analize podataka
 Mogućnost korišćenja nezavisno od
programa za analizu logova
 Nezavisnost
 Dobijamo specifične pokazatelje web
saobraćaja za određeni sajt.

Log analysis 10
Nedostaci analize log fajlova:
 Ne vide se klijenti nego računari
 Greške pri analizi:
 Uvećanje broja pogodaka (hits) kada se traži zahtev za nekom
stranom na sajtu se otvaraju mnogi objekti koje sadrži ta strana,
dok posetilac nije zahtevao sve te objekte, u logovima će se
svakako zabeležiti kao korišćeni.
 Uvećanje broja poseta -Dužina posete se računa kao vreme u toku
koga je svaki interval između dva zahteva za stranicom bio manji
od 30minuta, nakon tog period smatra se da je posetilac otišao sa
sajta.

Log analysis 11
Sofwer za analizu log fajlova:
 Analog
 Piwik
 Web log analyser
 W3Perl
 WebLog Expert
 ...

Log analysis 12
Hvala na pažnji !

Pitanja?

Log analysis 13
Literatura
 http://en.wikipedia.org/

 http://technet.microsoft.com/en-
us/library/cc738725%28WS.10%29.aspx

 http://publib.boulder.ibm.com/tividd/td/ITWSA/ITWSA_info
45/en_US/HTML/guide/c-logs.html#iplanet

 Jansen web log analysis (chapter XXV) Pennsylvania State


University, USA

Log analysis 14

Potrebbero piacerti anche