Sei sulla pagina 1di 3

Conceitos e Tcnicas sobre Data Mining

Facebook Twitter

(4) (0)

Este artigo tem como objetivo introduzir os conceitos bsicos sobre a tecnologia Data
Mining - Minerao de Dados.
RESUMO: Desde que a informtica tomou conta de nossas vidas, imensos volumes de informao tm sido sistematicamente coletados e
armazenados. A simples armazenagem e recuperao dessa informao j traz um grande benefcio, pois agora j no mais necessrio
procurar informao em volumosos e ineficazes arquivos de papel. Contudo, apenas recuperar informao no propicia todas as vantagens
possveis. O processo de Data Mining permite que se investigue esses dados procura de padres que tenham valor para a empresa. Neste
pequeno artigo pretendemos expor alguns dos principais conceitos que esto por trs dessa importante tecnologia.

Introduo ao Data Mining

Data Mining uma das novidades da Cincia da Computao que veio para ficar. Com a gerao de um volume cada vez maior de
informao, essencial tentar aproveitar o mximo possvel desse investimento. Talvez a forma mais nobre de se utilizar esses vastos
repositrios seja tentar descobrir se h algum conhecimento escondido neles. Um banco de dados de transaes comerciais pode, por
exemplo, conter diversos registros indicando produtos que so comprados em conjunto. Quando se descobre isso pode-se estabelecer
estratgias para otimizar os resultados financeiros da empresa. Essa j uma vantagem suficientemente importante para justificar todo o
processo.

Definio e Objetos no Data Mining

Data Mining consiste em um processo analtico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negcios,
mercado ou pesquisas cientficas), na busca de padres consistentes e/ou relacionamentos sistemticos entre variveis e, ento, valid-los
aplicando os padres detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: explorao, construo de
modelo ou definio do padro e validao/verificao.

A premissa do Data Mining uma argumentao ativa, isto , em vez do usurio definir o problema, selecionar os dados e as ferramentas
para analisar tais dados, as ferramentas do Data Mining pesquisam automaticamente os mesmos a procura de anomalias e possveis
relacionamentos, identificando assim problemas que no tinham sido identificados pelo usurio.

Figura 1. Passos do Data Mining


Em outras palavras, as ferramentas de Data Mining analisam os dados, descobrem problemas ou oportunidades escondidas nos
relacionamentos dos dados, e ento diagnosticam o comportamento dos negcios, requerendo a mnima interveno do usurio. Assim, ele se
dedicar somente a ir em busca do conhecimento e produzir mais vantagens competitivas.

Como podemos ver, as ferramentas de Data Mining, baseadas em algoritmos que forma a construo de blocos de inteligncia artificial,
redes neurais, regras de induo, e lgica de predicados, somente facilitam e auxiliam o trabalho dos analistas de negcio das empresas,
ajudando as mesmas a conseguirem serem mais competitivas e maximizarem seus lucros.

Principais tcnicas no Data Mining

O Data Mining (DM) descende fundamentalmente de 3 linhagens. A mais antiga delas a estatstica clssica. Sem a estatstica no seria
possvel termos o DM, visto que a mesma a base da maioria das tecnologias a partir das quais o DM construdo.

A segunda linhagem do DM a Inteligncia Artificial (IA). Essa disciplina, que construda a partir dos fundamentos da heurstica, em
oposto estatstica, tenta imitar a maneira como o homem pensa na resoluo dos problemas estatsticos.

E a terceira e ltima linhagem do DM a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatstica e a
Inteligncia Artificial. Enquanto a Inteligncia Artificial no se transformava em sucesso comercial, suas tcnicas foram sendo largamente
cooptadas pela machine learning, que foi capaz de se valer das sempre crescentes taxas de preo/performance oferecidas pelos computadores
nos anos 80 e 90, conseguindo mais e mais aplicaes devido s suas combinaes entre heurstica e anlise estatstica. Machine learning
uma disciplina cientfica que se preocupa com o design e desenvolvimento de algoritmos que permitem que os computadores aprendam com
base em dados, como a partir de dados do sensor ou bancos de dados. Um dos principais focos da Machine Learnig automatizar o
aprendizado para reconhecer padres complexos e tomar decises inteligentes baseadas em dados.

O Data Mining um campo que compreende atualmente muitas ramificaes importantes. Cada tipo de tecnologia tem suas prprias
vantagens e desvantagens, do mesmo modo que nenhuma ferramenta consegue atender todas as necessidades em todas as aplicaes.

Existem inmeras ramificaes de Data Mining, sendo algumas delas:

Redes neurais: so sistemas computacionais baseados numa aproximao computao baseada em ligaes. Ns simples (ou "neures",
"neurnios", "processadores" ou "unidades") so interligados para formar uma rede de ns - da o termo "rede neural". A inspirao original
para esta tcnica advm do exame das estruturas do crebro, em particular do exame de neurnios. Exemplos de ferramentas: SPSS Neural
Connection, IBM Neural Network Utility, NeuralWare NeuralWork Predict.
Induo de regras: a Induo de Regras, ou Rule Induction, refere-se deteco de tendncias dentro de grupos de dados, ou de regras sobre
o dado. As regras so, ento, apresentadas aos usurios como uma lista no encomendada. Exemplos de ferramentas: IDIS da Information
Discovey e Knowledge Seeker da Angoss Software.
rvores de deciso: baseiam-se numa anlise que trabalha testando automaticamente todos os valores do dado para identificar aqueles que
so fortemente associados com os itens de sada selecionados para exame. Os valores que so encontrados com forte associao so os
prognsticos chaves ou fatores explicativos, usualmente chamados de regras sobre o dado. Exemplos de ferramentas: Alice dIsoft, Business
Objects BusinessMiner, DataMind.
Analise de sries temporais: a estatstica a mais antiga tecnologia em DM, e parte da fundao bsica de todas as outras tecnologias. Ela
incorpora um envolvimento muito forte do usurio, exigindo engenheiros experientes, para construir modelos que descrevem o
comportamento do dado atravs dos mtodos clssicos de matemtica. Interpretar os resultados dos modelos requer expertise
especializada. O uso de tcnicas de estatstica tambm requer um trabalho muito forte de mquinas/engenheiros. A anlise de sries temporais
um exemplo disso, apesar de freqentemente ser confundida como um gnero mais simples de DM chamado forecasting (previso).
Exemplos de ferramentas: S+, SAS, SPSS.
Visualizao: mapeia o dado sendo minerado de acordo com dimenses especificadas. Nenhuma anlise executada pelo programa de DM
alm de manipulao estatstica bsica. O usurio, ento, interpreta o dado enquanto olha para o monitor. O analista pode pesquisar a
ferramenta depois para obter diferentes vises ou outras dimenses. Exemplos de ferramentas: IBM Parallel Visual Explorer, SAS System,
Advenced Visual Systems (AVS) Express - Visualization Edition.

Concluso sobre Data Mining

No breve espao deste artigo, nossa principal misso foi introduzir um pouco do pensamento que est por trs do Data Mining. Obviamente,
ainda h muito a se falar sobre o assunto (clustering, mtodos genticos, minerao em textos, roll up/drill down, etc), mas importante notar
que em praticamente todos esses casos o que se deseja descobrir padres em volumes de dados. importante ressaltar tambm que o Data
Mining no o final da atividade de descoberta de conhecimentos, mas to somente o incio. imprescindvel (ao menos com a tecnologia
atual) dispor de analistas capacitados que saibam interagir com os sistemas de forma a conduzi-los para uma extrao de padres teis e
relevantes.

Links teis

Java Streams API - Trabalhando com colees:

Descubra neste exemplo de Java sobre Streams API como trabalhar com Collections de forma simplificada, reduzindo a quantidade de cdigo escrito para tarefas comuns como

sort, filter e map.

$_POST e $_GET: Acessando informaes de formulrios em PHP:

Neste contedo voc aprender a acessar informaes passadas por formulrios no PHP com as variveis globais $_GET e $_POST.

PHP Exceptions: Trabalhando com excees em PHP:

Neste curso voc aprender a lidar com excees em suas aplicaes PHP Veremos como o programa se comporta ao ser lanada uma exceo.

Saiba mais sobre Engenharia de Software ;)

Gesto de Projeto:

Neste guia voc encontrar o contedo que precisa para saber como gerenciar projetos de software. Confira abaixo a sequncia de posts que te guiaro do bsico ao avanado

em Gesto de Projetos.

Modelagem de Processos de Negcio:

Neste guia de consulta voc encontrar diversos contedos que podem ser usados ao longo dos seus estudos sobre a Modelagem de Processos de Negcios, explorando

tcnicas e ferramentas relacionadas a essa atividade.

Requisitos, Modelagem e UML:

Neste guia voc encontrar o contedo que precisa para saber como elicitar requisitos, gerenci-los e modelar o software com as principais tcnicas do mercado. Abaixo,

confira os posts que te auxiliaro ao longo desse aprendizado.

Referncias
Wikipdia:

http://en.wikipedia.org/wiki/Machine_learning - acessado no dia 23/11/2010 s 09:20

Wikipdia:

http://pt.wikipedia.org/wiki/Data_mining - acessado em 19/08/2010 s 20:00

Livros

Waltz, David; Hong, Se June (1999) Data Mining: A Long-Term Dream. IEEE Intelligent Systems Vol 14, No. 6.

Han, Jiawei; Chen, Ming-Syan; Yu, Philip S. (1996) Data Mining: An Overview from Database Perspective

Artigo relacionado: Novos Recursos nos Sistemas de Banco de Dados para Data mining

Receba nossas novidades