Sei sulla pagina 1di 4

O uso de minerao de dados na descoberta do comportamento do usurio da Web

Marcos Jos Brusso Philippe Olivier Alexandre Navaux (orientador) Cludio Fernando Resin Geyer (co-orientador) brusso@inf.ufrgs.br

Resumo O processo de descoberta do conhecimento e minerao de dados tem sido utilizado em diversas reas com o objetivo de encontrar informaes teis que normalmente no esto visveis em grandes volumes de dados. Este trabalho apresenta questes relativas utilizao destas tcnicas na descoberta do comportamento do usurio da Web atravs da anlise de registros de acessos a pginas disponibilizadas na rede. Como resultado do trabalho est sendo apresentado o projeto de uma ferramenta capaz de extrair regras de associao entre conjuntos de pginas visitadas pelos usurios a fim de encontrar padres e regularidades que possam descrever o seu perfil.

1. INTRODUO A minerao de dados uma das etapas do processo de descoberta de conhecimento em bancos de dados e tm por objetivo extrair informaes implcitas e potencialmente teis de dados [1]. Normalmente todo este processo consiste em uma srie de etapas, que inicia com a seleo do conjunto ou amostra dos dados a serem processados. Estes dados podem ser submetidos a uma etapa de pr-processamento onde so transformados para um formato adequado para o algoritmo de minerao, que procura por regras ou padres ocultos nos dados. Finalmente as informaes descobertas so selecionadas e formatadas para a exibio, a fim de serem interpretadas e avaliadas, de forma que se selecione os conhecimentos teis resultantes de todo o processo. Dentre as diversas tcnicas de minerao de dados, uma que se destaca a procura por regras de associao, que tm por objetivo encontrar relacionamentos ou padres frequentes entre conjuntos de dados [2]. Regras de associao tm sido usadas com frequncia para descrever o comportamento do consumidor no comrcio varejista. Ao encontrar em seus bancos de dados informaes como 80% dos clientes que adquirem o produto A, tambm levam o produto B na mesma ocasio, os responsveis pelo marketing das empresas podem organizar melhor seus recursos de forma a atingir o seu pblico-alvo com mais eficincia. O presente trabalho parte da hiptese de que estas tcnicas podem ser utilizadas para auxiliar a compreenso do comportamento do usurio da Web, atravs da descoberta de padres ou regularidades que descrevam o seu perfil. Estas informaes poderiam auxiliar no projeto ou remodelagem dos sites, no gerenciamento dos recursos dos provedores de contedo na Web, no desenvolvimento de agentes que auxiliem a navegao ou o aprendizado do usurio, entre outras finalidades. Existem disponveis uma grande quantidade de ferramentas que atravs da anlise do arquivo de log dos servidores Web, fornecem informaes estatsticas sobre os acessos s pginas [3], como por exemplo, nmero de acessos por pginas, trfego total e origem das requisies. Porm, devido s caractersticas dos hiperdocumentos disponibilizados na rede, estas informaes no so suficientes para desvendar o comportamento do navegador.

2. A MINERAO DE DADOS E A WEB Conforme Cooley [4], o uso de minerao de dados no ambiente da Web pode ser classificado em duas categorias: a minerao de contedo da Web e a minerao de uso da Web. O primeiro caso pode ser

descrito como sendo a busca automtica dos recursos e recuperao de informaes disponveis na rede. Como exemplo desta abordagem, pode-se citar as ferramentas de busca, como Altavista e Yahoo, entre outros. A minerao de uso da Web consiste no uso de ferramentas que automaticamente descubram padres de acesso dos usurios. Zaane [5] aplicou tcnicas de OLAP (On-line Analytical Processing) sobre o log, onde atravs de classificaes e sumarizaes foram encontradas algumas correlaes entre eventos e analisadas sries temporais. Nasraoui [6] descreve um algoritmo para a aglomerao dos acessos em sees tpicas, enquanto que Spiliopoulou [7] construiu rvores agregadas que representam sequncias frequentes de acesso, sobre a qual foram aplicadas tcnicas de minerao.

3. A FERRAMENTA PROPOSTA Na presente proposta no ser utilizado o arquivo de log do servidor http para recuperar os dados relativos aos acessos dos usurios, ao contrrio dos outros trabalhos relacionados [5, 6, 7]. Entre os problemas detectados neste arquivo, pode-se destacar o fato de que nem todos os acessos so registrados. Devido ao uso de cache nos navegadores ou em servidores proxy, as pginas que j foram acessadas no so requisitadas novamente pelo usurio ou conjunto de usurios. Desta forma qualquer anlise do acesso fica muito distorcida. Outro problema encontrado est em identificar qual o conjunto de pginas que foram acessadas pelo usurio em uma seo de navegao. Como o algoritmo de pesquisa de regras de associao ir procurar relaes entre estes conjuntos de requisies, a correta obteno destes dados fundamental. Este problema deve-se ao fato de que o servidor registra apenas o endereo IP da mquina que fez a solicitao. Quando mltiplos usurios utilizam o mesmo endereo, como no caso de uso de proxys, a identificao, atravs deste atributo no possvel. Mesmo assim, outros trabalhos [6, 7] assumem que todos os acessos a partir do mesmo endereo so feitos por um usurio nico. A soluo proposta far uso de um script inserido nas pginas que se pretende registrar o acesso, o qual gerar um identificador exclusivo para a seo de navegao e solicitar, a cada pgina carregada, a execuo no servidor de outro script. Este programa ser responsvel por armazenar as informaes em um arquivo que registrar todos os acessos. Com esta abordagem ambos os problemas citados anteriormente estaro solucionados. Conforme apresentado na Figura 1, estes dados sero submetidos a uma etapa de pr-processamento que tem por objetivo agrupar acessos consecutivos do mesmo usurio, gerando como resultado um conjunto de sees. Semelhante a definio de transaes por Agrawal [2], como sendo um conjunto de itens, cada seo pode ser definida como sendo S={p1, p2, p3, ..., pn}, onde pi representa cada pgina acessada pelo mesmo usurio.
Registro dos Acessos Sees dos Usurio Minerao de Regras de Associao

Acessos

Pr-processamento

Regras

Usurio

Estrutura do Site

Visualizao

Resultados Obtidos

Figura 1. Diagrama de blocos da ferramenta

O conjunto de sees encontradas na etapa anterior ser submetido ao processo de minerao. Para isto ser utilizado o algoritmo Apriori [2], que um dos mais conhecidos e eficientes algoritmo para a pesquisa de regras de associao. O usurio poder informar uma srie de parmetros para este processo, como o suporte mnimo desejado para as regras descobertas, isto , o percentual mnimo de sees dos usurios em que um conjunto de pginas acessadas devem aparecer juntas, para que a sua associao seja considerada interessante. Outro parmetro ser o grau de confiana mnimo desejado para as regras. O grau de confiana de uma regra X Y, representa a probabilidade de que a pgina Y aparea em uma seo, dado que a pgina X est presente na mesma. Podero ainda ser selecionadas apenas regras que contenham uma pgina ou um conjunto de pginas em sua composio. Conforme Silberschatz [8], as medidas de interesse dos padres descobertos no processo de descoberta de conhecimento podem ser tanto objetivos como subjetivos. As medidas objetivas levam em conta a estrutura do padro encontrado alm dos dados utilizados, enquanto as medidas subjetivas levam em conta tambm o usurio que analisa os dados, isto , o que pode ser interessante para uma pessoa pode no ser para outra. Na ferramenta proposta, busca-se aprimorar a etapa de visualizao dos resultados de forma que seja facilitado ao usurio a interpretao e consolidao das informaes obtidas. Na aplicao em questo detectou-se que muitas regras, apesar de possurem um grau de confiana alto, no descreviam novo conhecimento, por representarem apenas caminhos naturais dentro da estrutura do site. Por exemplo, o fato de 90% dos usurios que visitam a pgina Bibliografia tambm visitam ndice, pode refletir apenas a prpria organizao do site, demonstrando no o comportamento ou preferncias do usurio, mas o fato de que esta pode ser a nica alternativa para o mesmo chegar at pgina desejada. A etapa de visualizao dos resultados dever considerar a estrutura do site para selecionar as regras que efetivamente possam representar novo conhecimento.

4. A IMPLEMENTAO DA FERRAMENTA A ferramenta proposta encontra-se em fase de implementao, sendo que alguns resultados experimentais j puderam ser obtidos, conforme exibido na Figura 2. O prottipo, em seu estgio atual de desenvolvimento, est disponvel em http://vitoria.upf.tche.br/~brusso/log/miner.html.

Figura 2. Exemplo dos resultados obtidos Para a implementao do script, a ser executado no cliente, foi utilizada a linguagem JavaScript, onde, atravs do uso de cookies, feita a identificao do usurio que est acessando cada pgina no servidor. Os demais componentes da ferramenta esto sendo implementados em linguagem C, padro ANSI. A entrada dos parmetros que orientaro o processo de busca poder ser feita em formulrios eletrnicos e os

resultados obtidos sero apresentados na forma de documentos html, de forma que a ferramenta ser ativada atravs de um navegador.

5. CONCLUSES Este trabalho apresenta o estgio atual de projeto e desenvolvimento de uma ferramenta capaz de encontrar associaes entre conjuntos de pginas acessadas por usurios da Web. Como resultado parcial do trabalho est sendo detectado que o arquivo de log do servidor http no consiste em uma boa fonte de dados para o processo e para tal est sendo apresentada uma nova alternativa. Tambm observou-se que um algoritmo genrico para a minerao de regras de associao pode ser utilizado para a finalidade proposta, contudo algumas adaptaes na seleo de parmetros de entrada e de sada mostraram-se necessrias devido as caractersticas dos dados sob anlise. Por fim, observou-se que nem todas as informaes obtidas, no domnio das regras de associao, podem ser interessantes para a descoberta do comportamento do usurio. As prximas etapas a serem desenvolvidas neste trabalho so: a) desenvolvimento de tcnicas que avaliem o grau de interesse das regras obtidas, auxiliando o trabalho de obteno do conhecimento para o usurio; b) concluso do desenvolvimento da ferramenta proposta; c) elaborao e aplicao de testes para a validao da proposta apresentada.

AGRADECIMENTOS Agradeo a Universidade de Passo Fundo pelo apoio concedido na forma de bolsa de estudo para licena de ps-graduao que tornou possvel a participao neste curso de mestrado. Agradeo tambm aos professores Philippe Olivier Alexandre Navaux e Cludio Fernando Resin Geyer pela importante colaborao nesta etapa da caminhada.

REFERNCIAS [1] U.M.Fayyad, G.Piatetsky-Shapiro e P.Smyth. From Data Mining to Knowledge Discovery: An Overview. In: Advances in Knowledge Discovery and Data Mining. Menlo Park, AAAI Press, 1996, pp 11-34. R. Agrawal et al. Fast Discovery of Association Rules. In: Advances in Knowledge Discovery and Data Mining. Menlo Park, AAAI Press, 1996, pp 307-328. Uppsala University. Access Log Analyzers. 1999. Disponvel http://www.uu.se/Software/Analyzers/Access-analyzers.html (12 Maro 1999). por WWW em

[2] [3] [4]

R.Cooley, B.Mobasher e J.Srivastava. Web Mining: Information and Pattern Discovery on the World Wide Web. In: 9th IEEE International Conference on Tool with Artificial Inteligence. Newport Beach, 1997. Anais. IEEE, 1997, pp 558-567. O.R.Zaane, M.Xin e J.Han. Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs. In: Advances in Digital Libraries. Santa Barbara, 1998. pp 19-29. O.Nasraoui, H.Frigoui e A.Joshi. Mining Web Access Logs Using Relational Competitive Fuzzy Clustering. 1999. Disponvel por WWW em http://csdeca.cs.missouri.edu/~joshi/web-mine/kdd.ps (5 Julho 1999). M.Spiliopoulou e L.C.Faulstich. WUM: A Tool for Web Utilization Analysis. In: EDBT Workshop WEBDB98. Valencia, Maro 1998. Anais, 1998. A.Silberschatz e A.Tuzhilin. What makes patterns interesting in knowledge discovery systems. In: IEEE Transactions on Knowledge and Data Engineering. Vol. 8, No. 6, Dezembro 1996. pp 970-974.

[5]

[6]

[7] [8]

Potrebbero piacerti anche