Sei sulla pagina 1di 7

Inteligncia Artificial e Data Mining

Ana Carolina S. S. Jaskulski, Gian Francesco Jaskulski


Cincia da Computao Centro Universitrio La Salle (Unilasalle)
Av. Victor Barreto,2288 92.010-000 Canoas RS Brazil
{anaschneider,gianfj}@gmail.com
Abstract. Data mining is a method communly used to extract information
based on standards or changes, statistical analysis, associations of a data
set. Being data the most valuable patrimony of an business, the analysis of
these data are awesome tools for managers, granting new visions about your
business. These discoverigs are very important to decision support, business
management and your customers and products. Artificial intelligence through
learning algorithms or neural networked and statistical based, makes possible
the quick mining of a large set of data, extracting knowledge in form of
hipothesis and rules.
Resumo. A minerao de dados (Data Mining) um mtodo cada vez mais
utilizado para extrair informaes baseadas em padres ou mudanas,
anlises estatsticas, associaes - de um conjunto de dados. Sendo os dados
armazenados o maior patrimnio de uma empresa, a anlise destes dados
so excelentes ferramentas ao empreendedor, possibilitando novas vises
sobre o negcio. Essas descobertas so muito importantes no apoio deciso,
administrao da empresa, seus clientes e seus produtos. A Inteligncia
Artificial atravs de algoritmos de aprendizado ou baseados em redes neurais
e estatsticas, possibilita a rpida minerao de um grande conjunto de
dados, extraindo conhecimento na forma de hipteses e de regras.
1. Introduo
Atravs de vrias tcnicas, a Inteligncia Artificial tenta simular a inteligncia humana,
realizando processos comuns aos seres humados: raciocnio lgico, aprendizado,
percepo, evoluom adaptao. Esses aspectos do comportamento humano podem
ser substitudos pelos recursos da computao com seus algoritmos inteligentes. As
solues dos problemas pela IA(constituda por tcnicas prprias) so heursticas e
respostas satisfatrias so aceitas.
Na figura 1, temos um diagrama, proposto pelo Ncleo de Inteligncia
Computacional Aplicada da PUC/Rio simbolizando a Computao Natural que
incorpora, entre outras, a linha de pesquisa de Inteligncia Artificial e o Data Mining.
Figura 1. Computao Natural
A inteligncia artificial est muito presente na rea de engenharia, descobertas
cientficas, planejamento financeiro, minerao e anlise de dados para a gerao de
informaes empresariais, - em Sistemas Especialistas ou Sistemas de Informao
Executivos. Paralelamente a tcnicas de minerao de dados est a KDD (Knowledge
Discovery Databases) que so rotinas para descobrir a utilidade do conhecimento nos
dados de uma base.
2. Redes Neurais
Uma rede neural como um esquema de processamento que, baseado em
aprendizagem/experincia, pode armazenar conhecimento e disponibiliz-lo para uma
aplicao. Como o crebro humano capaz de aprender e tomar decises baseadas na
aprendizagem, as redes neurais artificiais devem fazer o mesmo, como se fosse a
organizao dos neurnios.
O conhecimento obtido atravs de etapas de aprendizagem o armazenamento
do conhecimento dado atravs dos pesos sinpticos - sinapse o nome dado conexo
existente entre neurnios, e nessas conexes so atribudos valores: os pesos sinpticos.
Assim, as redes neurais possuem neurnios artificiais que sero conectados
formando uma rede de elementos de processamento. Tendo uma rede neural montada,
uma srie de valores podem ser aplicados sobre um neurnio que se conecta a outros
pela rede. Estes valores de entrada so multiplicados no neurnio pelo valor do peso de
sua sinapse, e esses valores so somados. Se esta soma ultrapassar um valor limite
estabelecido, um sinal propagado pela sada deste neurnio o axnio.
Sucessivamente, essa rotina executada por todos os neurnios da rede, e esses sofrem
algum tipo de ativao, dependendo das entradas e dos pesos sinpticos.
A figura 2 representa um neurnio:
Figura 2. Neurnio artificial
O nmero de camadas formadas pelos neurnios e a quantidade desses depende
do problema. Na figura 3 temos uma representao de uma rede neural:
Figura 3. Rede neural
Quando ocorrem vrias modificaes nas sinapses se d a aprendizagem, e
com a ativao dos neurnios que temos essas modificaes. Quanto mais uma
conexo usada, mas ela fortificada e as outras so enfraquecidas.
Pode-se classificar 3 tipos de aprendizado para as redes:
Supervisionado: a rede neural recebe um conjunto de entradas e padres de
sada padronizados, onde ocorrem ajustes nos pesos sinpticos at que o erro entre os
padres de sada gerados pela rede tenham um valor desejado;
No-supervisionado: a rede neural trabalha os dados de forma a determinar
algumas propriedades dos conjunto de dados. A partir destas propriedades que o
aprendizado constitudo;
Hbrido: neste tipo ocorre uma "mistura" dos tipos supervisionado e no-
supervisionado. Assim, uma camada pode trabalhar com um tipo enquanto outra
camada trabalha com o outro.
3. Uso do Data Mining
A Inteligncia Artificial trabalha com o conhecimento, que um conceito que vai alm
da informao - um conjunto de ferramentas e tecnologias (materiais e humanas)
capazes de criar, buscar, guardar e compartilhar informaes especficas, como cresce o
volume de dados, atualmente temos ferramentas permitem a "minerao" destes dados a
fim de gerar um real valor do dado a tranformao dele em conhecimento,
informao util.
Data Mining agrega diversas reas, como o aprendizado de mquina, a
estatstica e a teoria da informao. Um dos mtodos a associaes entre objetos,
como o agrupamento de elementos similares que se representam por um conjunto de
caractersticas (em espaos de elevada dimenso). A aplicao dessas tcnicas
transforma (rapidamente de forma inteligente e automatizada) os dados disponveis em
informaes teis que representem conhecimento e gerando informaes teis para os
empreendedores - anlise de riscos, determinao de perfis de clientes, predio,
deteco de fraudes, tolerncia a falhas, por exemplo.
O projeto Data Mining envolve todas as trs principais tarefas em minerao de
dados: associao, agrupamento (clusterizao) e classificao de dados.
A partir de fontes de dados efetua-se uma limpeza (consistncia, preenchimento
de informaes, remoo de rudo e redundncias, etc) e dessa seleo surgem os
repositrios organizados (Data Marts e Data Warehouses), que j so teis de diversas
maneiras. A figura 4 representa esse processo:
Figura 4. Processo de obteno de dados
A partir dos repositrios seleciona-se informaes para serem mineradas. De
forma interativa e (frequentemente) usando visualizao grfica, um analista refina e
conduz o processo at que valiosos padres apaream. Encontrar padres requer a
simplificao dos dados brutos tentando encontrar generalizaes, j que no parece
haver muito conhecimento a extrair de eventos isolados. Um exemplo seria a venda
exagerada de um determinado produto em uma loja em uma data isso pode significar
que um cliente procurava naquele momento pela grande quantidade daquele produto,
mas isso provavelmente no indica nenhuma tendncia de mercado.
Como um ser vivo, as empresas recebem informao do meio ambiente e
tambm atuam sobre esse. Durante essas atividades, necessrio distinguir vrios nveis
de informao. Na figura 5 representa-se a pirmide da informao, com o natural
aumento de abstrao conforme aumenta o nvel.
Figura 5. Pirmide da informao
Para uma empresa, a pirmide fica como a figura 6. sensvel a reduo do
volume que ocorre cada vez que aumenta o nvel - natural consequncia do processo de
abstrao, e abstrair representar a informao atravs de correspondentes simblicos e
genricos. Para generalizar preciso se desfazer de dadis e s conservar a essncia da
informao. O processo de Data Mining localiza padres atravs de repetitivos
processos de generalizao - induo.
Figura 6. Importncia dos dados para a empresa
Padres so unidades de informao que se repetem, ou ento so sequncias de
informaes que dispe de uma estrutura que se repete. Nosso crebro utiliza-se de
processos similares ao Data Mining pois muito do conhecimento que temos em nossas
mentes , de certa forma, um processo que depende da localizao de padres. Um
exemplo de induo: tentar obter alguma expresso genrica para a seguinte sequncia:
Sequncia original: ABCXYABCZKABDKCABCTUABE!ABC"
Podemos perceber que as sequncias "AB" e "ABC" ocorrem com frequncia
superior das outras sequncias. Aps determinarmos as sequncias "ABC" e "AB",
verificamos que elas segmentam o padro original em diversas unidades independentes:
#ABCXY# #ABCZK# #ABDKC# #ABCTU# #ABE!# #ABC"#
Depois disso podemos induzir gerando representaes genricas dessas
unidades: #ABC%%# #ABD%%# #ABE%%# e #AB%%%#,onde '?' representa
qualquer letra.
No final dessa leitura substituiu-se toda a sequncia original por regras que
reduziu a informao original a algumas expresses simples.
Um dos pontos essenciais do Data Mining como se pode fazer para extrair
certos padres de dados brutos, ainda que mais importante do que obter essa reduo de
informao que esse processo nos permite gerar formas de predizer futuras
ocorrncias de padres.
Pode-se observar que quando ocorre a sequncia "AB" iremos encontrar mais
trs caracteres e isto completaria um "padro".
Analogicamente, a letra 'A' poderia significar "aquisio de po" em uma
transao de supermercado. 'B' , "aquisio de leite". 'C' um indicador de que o leite
que foi adquirido do tipo desnatado. A obteno de "AB" quer dizer, na prtica, que
toda vez que algum comprou po, tambm comprou leite - uma associao e isto foi
revelado pelo processo de descoberta de padres. Isso poderia encadear o arranjo em
gndolas de "leite" e "po" mais prximos um do outro, facilitando a aquisio
conjunta.
Considerando que 'X' "manteiga sem sal", 'Z' "manteiga com sal", 'T'
"margarina". Pode-se unificar os conceitos (resumo de uma caracterstica dos tens)
introduzindo 'V', que significaria "manteiga/margarina", ou "coisas que passamos no
po". Isso uma induo orientada a atributos a substituio de valores distintos
(mas similares) por um nome nico. Ainda que perca as caractersticas originais, isso
fundamental na induo e um dos fatores que permite o aparecimento de padres
mais gerais.
Seguindo o exemplo, basta codificar a sequncia original substituindo a letra V
em todos os lugares: ABCVYABCVKABDKCABCVUABE!ABCV".
Dessa pode-se extrair, por exemplo, a expresso "ABCV": a maioria dos
usurios que adquiriram po e leite desnatado tambm adquiriram manteiga ou
margarina. Pode gerar uma regra de negcio, uma facilidade ao empreendedor. O po e
o leite esto associados (implicam) na aquisio de manteiga:
&'o, !ei(e )an(eiga
O lado da esquerda desta expresso (Po, Leite) chamado de Antecedente, e o
lado direito de Conseqente.
Referncias
Motta, Custdio Gouva Lopes. (2007) Introduo a Tcnicas de Data Mining,
http://arquivosevt.lncc.br/pdfs/MiniCursoDMLNCC070115.pdf, Outubro.
Navega, Sergio. (2007) Seminrios Cientficos Sobre Inteligncia, em homens e
mquinas. http://www.intelliwise.com/seminars/tranim.htm, Setembro.
Ncleo de Inteligncia Computacional-PUC/Rio. (2007) Inteligncia Computacional,
http://www.ica.ele.puc-rio.br/inteligencia_computacional/index.html, Setembro.
Vessoni, Fbio. (2007) Introduo a Minerao de Dados, http://mv2.com.br/Data
Mining.doc, Setembro.

Potrebbero piacerti anche