Sei sulla pagina 1di 3

Data Mining

Saudaes Amigos! Hoje iremos falar sobre Data Mining, abordando alguns conceitos e estruturas, espero que se interessem e estarei disposio para esclarecimento de dvidas. Data Mining Minerao de dados, ou data mining, o processo de anlise de conjuntos de dados que tem por objetivo a descoberta de padres interessantes e que possam representar informaes teis. Um padro pode ser definido como sendo uma afirmao sobre uma distribuio probabilstica. Estes padres podem ser expressos principalmente na forma de regras, frmulas e funes, entre outras. O interesse por este tipo de informao se deve principalmente ao fato de que as empresas e organizaes esto coletando e armazenando grandes quantidades de dados como consequncia da queda dos preos de meios de armazenamento e computadores e do aumento da capacidade de ambos. A popularizao na utilizao de armazm de dados, ou data warehousing, que so grandes bancos de dados criados para anlise e suporte deciso, tende a aumentar ainda mais a quantidade de informaes disponvel. Os mtodos tradicionais de anlise de dados, como planilhas e consultas, no so apropriados para tais volumes de dados, pois podem criar relatrios informativos sobre os dados, mas no conseguem analisar o contedo destes relatrios a fim de obter conhecimentos importantes. Tipos de Padres Os dois objetivos de mais alto nvel da minerao de dados tendem ser a predio ou a descrio. Os padres preditivos so encontrados para resolver o problema de predizer o valor futuro ou desconhecido de um ou mais atributos do banco de dados a partir do valor conhecido dos demais atributos. Os padres descritivos, ou informativos, tm por objetivo encontrar padres interessantes, de forma interpretvel pelo homem, que descrevam os dados. A importncia relativa de ambos os tipos para uma aplicao particular de minerao pode variar consideravelmente, porm, no contexto da descoberta de conhecimento em bancos de dados, os padres descritivos tendem a ser mais importantes do que os preditivos. Por outro lado afirmam que este tipo de padro mais difcil de avaliar, pois seu valor verdadeiro no deixa claro se ele sugere alguma ao para o especialista do domnio e quanto efetiva esta ao seria. Isto deve-se ao fato de que a predio normalmente utilizada quando se tem um problema claro e bem especificado a ser resolvido, sendo que busca-se, atravs da minerao, uma resposta para este problema. No caso da descrio, tem-se apenas um volume de dados como ponto de partida. Cabe ao analista perceber se algo pode ser feito com as informaes extradas. A seguir sero apresentados alguns tipos de padres comuns, sendo trs deles descritivos (agrupamento, regras de associao e padres sequenciais) e dois preditivos (regresso e classificao).

Minerao de Regras de Associao A descoberta de regras de associao, introduzida uma bem sucedida e importante tarefa de minerao de dados e que tem por objetivo encontrar relacionamentos ou padres frequentes entre conjuntos de dados. Uma regra de associao um padro descritivo que representa uma decalrao na forma X Y. O interesse nesta busca de informaes ocorre devido, principalmente, aos progressos feitos na tecnologia de cdigos de barra, que tornou possvel para organizaes de varejo coletar e armazenar grandes quantidades de dados referentes s vendas efetuadas, conhecidos como dados da cesta. Um registro destes dados tipicamente consiste da data da transao e dos itens comprados. Organizaes de sucesso vem tais bancos de dados como importantes peas da sua infra-estrutura de marketing pois permitem que o processo de marketing seja dirigido, alm de auxiliar em programas e estratgias customizadas como reorganizao do layout das lojas e projeto de catlogos . Como exemplo de uma regra que poderia ser encontrada em um banco de dados de um supermercado seria o fato de que 90% dos clientes que compram o produto A, tambm adquirem, na mesma ocasio, o produto B Alm da anlise do comportamento do consumidor no comrcio varejista, outras reas onde a minerao de regras de associao poderia ser aplicada incluem servios bancrios e de telecomunicao, histrico de pacientes e anlise de admisso em cursos universitrios. Medidas de Interesse em Minerao de Dados Todos os algoritmos de minerao incorporam alguma medida para representar quanto bom ou interessante um padro. Estas medidas so utilizadas na pesquisa por padres para decidir o que deve ser mantido, o que deve ser descartado ou o que deve ser explorado melhor. Um dos problemas centrais no campo da descoberta do conhecimento s o desenvolvimento de boas medidas de interese, uma vez que deveria ser apresentado ao usurio, no uma enorme quantidade de padres, mas apenas aqueles que so de fato originais, inslitos, interessantes; Padres preditivos podem ser avaliados na maneira bvia: julgando quanto bem eles fizeram o seu trabalho. Uma vez que eles predizem o valor de um atributo e que atributos existem no banco de dados de treinamento, o mtodo comum para avaliao de padres preditivos a comparao da predio com o valor real no conjunto de treinamento. Calculando com que frequncia e em quanto os padres esto errados, o algoritmo de minerao de dados pode avaliar os resultados. A mesma lgica no pode ser utilizada na minerao de padres descritivos, uma vez que o objetivo fornecer algo de novo para o especialista humano, assim o padro no pode ser avaliado em quanto bem ele fez o seu trabalho. Desta forma, critrios matemticos so utilizados para reter os padres potencialmente mais interessantes, enquanto os de menor interesse so descartados. Acredite com entusiasmo na possibilidade de conseguir novos objetivos e ao mesmo tempo pratique a ao na mesma intensidade e voc ver os resultados maravilhosos que ir alcanar

Potrebbero piacerti anche