Ana Carolina S. S. Jaskulski, Gian Francesco Jaskulski
Cincia da Computao Centro Universitrio La Salle (Unilasalle) Av. Victor Barreto,2288 92.010-000 Canoas RS Brazil {anaschneider,gianfj}@gmail.com Abstract. Data mining is a method communly used to extract information based on standards or changes, statistical analysis, associations of a data set. Being data the most valuable patrimony of an business, the analysis of these data are awesome tools for managers, granting new visions about your business. These discoverigs are very important to decision support, business management and your customers and products. Artificial intelligence through learning algorithms or neural networked and statistical based, makes possible the quick mining of a large set of data, extracting knowledge in form of hipothesis and rules. Resumo. A minerao de dados (Data Mining) um mtodo cada vez mais utilizado para extrair informaes baseadas em padres ou mudanas, anlises estatsticas, associaes - de um conjunto de dados. Sendo os dados armazenados o maior patrimnio de uma empresa, a anlise destes dados so excelentes ferramentas ao empreendedor, possibilitando novas vises sobre o negcio. Essas descobertas so muito importantes no apoio deciso, administrao da empresa, seus clientes e seus produtos. A Inteligncia Artificial atravs de algoritmos de aprendizado ou baseados em redes neurais e estatsticas, possibilita a rpida minerao de um grande conjunto de dados, extraindo conhecimento na forma de hipteses e de regras. 1. Introduo Atravs de vrias tcnicas, a Inteligncia Artificial tenta simular a inteligncia humana, realizando processos comuns aos seres humados: raciocnio lgico, aprendizado, percepo, evoluom adaptao. Esses aspectos do comportamento humano podem ser substitudos pelos recursos da computao com seus algoritmos inteligentes. As solues dos problemas pela IA(constituda por tcnicas prprias) so heursticas e respostas satisfatrias so aceitas. Na figura 1, temos um diagrama, proposto pelo Ncleo de Inteligncia Computacional Aplicada da PUC/Rio simbolizando a Computao Natural que incorpora, entre outras, a linha de pesquisa de Inteligncia Artificial e o Data Mining. Figura 1. Computao Natural A inteligncia artificial est muito presente na rea de engenharia, descobertas cientficas, planejamento financeiro, minerao e anlise de dados para a gerao de informaes empresariais, - em Sistemas Especialistas ou Sistemas de Informao Executivos. Paralelamente a tcnicas de minerao de dados est a KDD (Knowledge Discovery Databases) que so rotinas para descobrir a utilidade do conhecimento nos dados de uma base. 2. Redes Neurais Uma rede neural como um esquema de processamento que, baseado em aprendizagem/experincia, pode armazenar conhecimento e disponibiliz-lo para uma aplicao. Como o crebro humano capaz de aprender e tomar decises baseadas na aprendizagem, as redes neurais artificiais devem fazer o mesmo, como se fosse a organizao dos neurnios. O conhecimento obtido atravs de etapas de aprendizagem o armazenamento do conhecimento dado atravs dos pesos sinpticos - sinapse o nome dado conexo existente entre neurnios, e nessas conexes so atribudos valores: os pesos sinpticos. Assim, as redes neurais possuem neurnios artificiais que sero conectados formando uma rede de elementos de processamento. Tendo uma rede neural montada, uma srie de valores podem ser aplicados sobre um neurnio que se conecta a outros pela rede. Estes valores de entrada so multiplicados no neurnio pelo valor do peso de sua sinapse, e esses valores so somados. Se esta soma ultrapassar um valor limite estabelecido, um sinal propagado pela sada deste neurnio o axnio. Sucessivamente, essa rotina executada por todos os neurnios da rede, e esses sofrem algum tipo de ativao, dependendo das entradas e dos pesos sinpticos. A figura 2 representa um neurnio: Figura 2. Neurnio artificial O nmero de camadas formadas pelos neurnios e a quantidade desses depende do problema. Na figura 3 temos uma representao de uma rede neural: Figura 3. Rede neural Quando ocorrem vrias modificaes nas sinapses se d a aprendizagem, e com a ativao dos neurnios que temos essas modificaes. Quanto mais uma conexo usada, mas ela fortificada e as outras so enfraquecidas. Pode-se classificar 3 tipos de aprendizado para as redes: Supervisionado: a rede neural recebe um conjunto de entradas e padres de sada padronizados, onde ocorrem ajustes nos pesos sinpticos at que o erro entre os padres de sada gerados pela rede tenham um valor desejado; No-supervisionado: a rede neural trabalha os dados de forma a determinar algumas propriedades dos conjunto de dados. A partir destas propriedades que o aprendizado constitudo; Hbrido: neste tipo ocorre uma "mistura" dos tipos supervisionado e no- supervisionado. Assim, uma camada pode trabalhar com um tipo enquanto outra camada trabalha com o outro. 3. Uso do Data Mining A Inteligncia Artificial trabalha com o conhecimento, que um conceito que vai alm da informao - um conjunto de ferramentas e tecnologias (materiais e humanas) capazes de criar, buscar, guardar e compartilhar informaes especficas, como cresce o volume de dados, atualmente temos ferramentas permitem a "minerao" destes dados a fim de gerar um real valor do dado a tranformao dele em conhecimento, informao util. Data Mining agrega diversas reas, como o aprendizado de mquina, a estatstica e a teoria da informao. Um dos mtodos a associaes entre objetos, como o agrupamento de elementos similares que se representam por um conjunto de caractersticas (em espaos de elevada dimenso). A aplicao dessas tcnicas transforma (rapidamente de forma inteligente e automatizada) os dados disponveis em informaes teis que representem conhecimento e gerando informaes teis para os empreendedores - anlise de riscos, determinao de perfis de clientes, predio, deteco de fraudes, tolerncia a falhas, por exemplo. O projeto Data Mining envolve todas as trs principais tarefas em minerao de dados: associao, agrupamento (clusterizao) e classificao de dados. A partir de fontes de dados efetua-se uma limpeza (consistncia, preenchimento de informaes, remoo de rudo e redundncias, etc) e dessa seleo surgem os repositrios organizados (Data Marts e Data Warehouses), que j so teis de diversas maneiras. A figura 4 representa esse processo: Figura 4. Processo de obteno de dados A partir dos repositrios seleciona-se informaes para serem mineradas. De forma interativa e (frequentemente) usando visualizao grfica, um analista refina e conduz o processo at que valiosos padres apaream. Encontrar padres requer a simplificao dos dados brutos tentando encontrar generalizaes, j que no parece haver muito conhecimento a extrair de eventos isolados. Um exemplo seria a venda exagerada de um determinado produto em uma loja em uma data isso pode significar que um cliente procurava naquele momento pela grande quantidade daquele produto, mas isso provavelmente no indica nenhuma tendncia de mercado. Como um ser vivo, as empresas recebem informao do meio ambiente e tambm atuam sobre esse. Durante essas atividades, necessrio distinguir vrios nveis de informao. Na figura 5 representa-se a pirmide da informao, com o natural aumento de abstrao conforme aumenta o nvel. Figura 5. Pirmide da informao Para uma empresa, a pirmide fica como a figura 6. sensvel a reduo do volume que ocorre cada vez que aumenta o nvel - natural consequncia do processo de abstrao, e abstrair representar a informao atravs de correspondentes simblicos e genricos. Para generalizar preciso se desfazer de dadis e s conservar a essncia da informao. O processo de Data Mining localiza padres atravs de repetitivos processos de generalizao - induo. Figura 6. Importncia dos dados para a empresa Padres so unidades de informao que se repetem, ou ento so sequncias de informaes que dispe de uma estrutura que se repete. Nosso crebro utiliza-se de processos similares ao Data Mining pois muito do conhecimento que temos em nossas mentes , de certa forma, um processo que depende da localizao de padres. Um exemplo de induo: tentar obter alguma expresso genrica para a seguinte sequncia: Sequncia original: ABCXYABCZKABDKCABCTUABE!ABC" Podemos perceber que as sequncias "AB" e "ABC" ocorrem com frequncia superior das outras sequncias. Aps determinarmos as sequncias "ABC" e "AB", verificamos que elas segmentam o padro original em diversas unidades independentes: #ABCXY# #ABCZK# #ABDKC# #ABCTU# #ABE!# #ABC"# Depois disso podemos induzir gerando representaes genricas dessas unidades: #ABC%%# #ABD%%# #ABE%%# e #AB%%%#,onde '?' representa qualquer letra. No final dessa leitura substituiu-se toda a sequncia original por regras que reduziu a informao original a algumas expresses simples. Um dos pontos essenciais do Data Mining como se pode fazer para extrair certos padres de dados brutos, ainda que mais importante do que obter essa reduo de informao que esse processo nos permite gerar formas de predizer futuras ocorrncias de padres. Pode-se observar que quando ocorre a sequncia "AB" iremos encontrar mais trs caracteres e isto completaria um "padro". Analogicamente, a letra 'A' poderia significar "aquisio de po" em uma transao de supermercado. 'B' , "aquisio de leite". 'C' um indicador de que o leite que foi adquirido do tipo desnatado. A obteno de "AB" quer dizer, na prtica, que toda vez que algum comprou po, tambm comprou leite - uma associao e isto foi revelado pelo processo de descoberta de padres. Isso poderia encadear o arranjo em gndolas de "leite" e "po" mais prximos um do outro, facilitando a aquisio conjunta. Considerando que 'X' "manteiga sem sal", 'Z' "manteiga com sal", 'T' "margarina". Pode-se unificar os conceitos (resumo de uma caracterstica dos tens) introduzindo 'V', que significaria "manteiga/margarina", ou "coisas que passamos no po". Isso uma induo orientada a atributos a substituio de valores distintos (mas similares) por um nome nico. Ainda que perca as caractersticas originais, isso fundamental na induo e um dos fatores que permite o aparecimento de padres mais gerais. Seguindo o exemplo, basta codificar a sequncia original substituindo a letra V em todos os lugares: ABCVYABCVKABDKCABCVUABE!ABCV". Dessa pode-se extrair, por exemplo, a expresso "ABCV": a maioria dos usurios que adquiriram po e leite desnatado tambm adquiriram manteiga ou margarina. Pode gerar uma regra de negcio, uma facilidade ao empreendedor. O po e o leite esto associados (implicam) na aquisio de manteiga: &'o, !ei(e )an(eiga O lado da esquerda desta expresso (Po, Leite) chamado de Antecedente, e o lado direito de Conseqente. Referncias Motta, Custdio Gouva Lopes. (2007) Introduo a Tcnicas de Data Mining, http://arquivosevt.lncc.br/pdfs/MiniCursoDMLNCC070115.pdf, Outubro. Navega, Sergio. (2007) Seminrios Cientficos Sobre Inteligncia, em homens e mquinas. http://www.intelliwise.com/seminars/tranim.htm, Setembro. Ncleo de Inteligncia Computacional-PUC/Rio. (2007) Inteligncia Computacional, http://www.ica.ele.puc-rio.br/inteligencia_computacional/index.html, Setembro. Vessoni, Fbio. (2007) Introduo a Minerao de Dados, http://mv2.com.br/Data Mining.doc, Setembro.