Sei sulla pagina 1di 5

Exemplo de Aplica c ao do DataMinig

Felipe E. Barletta Mendes 19 de fevereiro de 2008

AO DATA MINING INTRODUC AO

A minera c ao de dados (Data Mining) est a inserida em um processo maior denominado Descoberta de Conhecimento em Bancos de Dados, o KDD. Rigorosamente o Data Mining se restringe a obten c ao de modelos, cando as etapas anteriores como coleta e sele c ao dos dados, pr e-processamentos dos dados, transforma c ao dos dados e o pr oprio DM como inst ancias do KDD. Sem a estat stica n ao seria poss vel termos o Data Mining, visto que a mesma ea base a partir da qual o Data Mining e constru do. Existe muito conhecimento escondido na imensa quantidade de dados dispon veis nos bancos de dados das empresas. Com o Data Mining , pode-se transformar esses dados brutos em informa c ao valiosa para auxiliar o processo decis orio. Data Mining n ao substitui t ecnicas estat sticas tradicionais. Ao inv es disto, Data Mining e uma extens ao dos m etodos estat sticos. O poder cada vez maior dos computadores com custos mais baixos, aliado ` a necessidade de an alise de enormes conjuntos de dados com milh oes de linhas, permitiu o desenvolvimento de t ecnicas baseadas na explora c ao de solu c oes poss veis. t ecnicas de DM podem ser aplicadas em diversas areas: 1 As

Vendas e Marketing Finan cas Seguros e Planos de Sa ude Transporte Medicina Telecomunica c oes Mercado Financeiro

Vantagens do Data Mining

O uso de Data Mining pode trazer as seguintes vantagens:

Modelos s ao de f acil compreens ao: pessoas sem conhecimento estat stico (por exemplo, analistas nanceiros ou pessoas que trabalham com data base marketing) podem interpretar o modelo e compar a-lo com suas pr oprias id eias. O usu ario ganha mais conhecimento sobre o comportamento do cliente e pode usar esta informa c ao para otimizar os processos dos neg ocios. Grandes bases de dados podem ser analisadas: grandes conjunto de dados, de at e v arios gigabytes de informa c ao podem ser analisados com Data Mining. Data Mining descobre informa c oes n ao esperadas: como muitos modelos diferentes s ao validados, alguns resultados inesperados podem surgir. Em diversos estudos, descobriu-se que combina c oes de fatores particulares apresentaram resultados inesperados. 2

Vari aveis n ao necessitam de recodica c ao: Data Mining lida tanto com vari aveis num ericas (quantitativas) quanto categ oricas (qualitativas). Estas vari aveis aparecem no modelo exatamente da mesma forma em que aparecem na base de dados. Modelos s ao precisos: os modelos obtidos por Data Mining s ao validados por t ecnicas de estat stica. Desta forma, as predi c oes feitas por modelos s ao precisas.

DE CREDITO CLASSIFICAC AO EM UM BANCO

Mil clientes de um banco solicitaram o uso de cr edito ao banco, e de acordo com a delidade de pagamento dos clientes, eles receberam um r otulo de inadimplentes ou n ao, ou seja, criou-se uma vari avel dicot omica, com as categorias cr edito bom e cr edito ruim. Iniciamos o trabalho com o objetivo de ajustar um modelo que fosse capaz de predizer a categoria dos clientes, para o banco poder decidir se ia conceder ou n ao cr edito ao ou n ao. Para tal, foram consideradas cerca de vinte vari aveis acerca dos clientes do banco tais como: Saldo da conta do cliente Hist orico do Cr edito Prop osito do cr edito Quantidade de cr edito dispon vel Dinheiro em poupan ca 3

Tempo no presente emprego Sexo, idade e estado civil Tempo na atual resid encia N umero de cr editos no banco Pross ao Idade da conta Outros planos de parcelamento Taxa de parcelamento em rela c ao ` a renda l quida Vale ressaltar que da amostra total, 70% dos clientes tinham cr edito bom e 30% tinham cr edito ruim. Portanto ap os sele c ao dos dados aplicamos o m etodo da Regress ao Log stica, pois a vari avel de interesse e categ orica, neste caso dicot omica. Em minera c ao de dados e comum ajustar diversos tipos de modelos, aqui poderia ajustar tamb em modelos baseados em m etodos de Arvores de Classica c ao, mas aqui vamos analisar apenas o primeiro. Ap os denir alguns par ametros para se ajustar o modelo como m etodo de sele c ao de vari aveis, ponte de corte para classica c ao, etc e valida c ao do modelo obtemos uma matriz de confus ao que nos d a a an alise de qu ao bom o modelo cou para se classicar corretamente os clientes, ou seja, porcentagem de erro de classica c ao, assim constatamos se o poder de generaliza c ao ou predi c ao do modelo foi satisfat orio. Outra forma de vericar a qualidade do modelo e o ROI (Return Of Investiment). A matriz de confus ao apresentou um erro de 27% quando o ponto de corte foi o menor poss vel, pois pontos de cortes grandes resultavam em erros maiores. 4

O ROI, ap os deni c ao de alguns par ametros como, taxa de juros ao m es, custo xo, etc, apresentou um maior retorno de investimento quando o ponto de corte foi o maior aceit avel, cerca de 48, 42% de retorno do dinheiro investido. A partir desses dois resultados vemos que para errar menos o banco deve emprestar mais dinheiro (classicar clientes como bom pagador). No caso do ROI, e melhor emprestar menos para n ao desperdi car dinheiro, e assim, maximizar o lucro com rela c ao ` as despesas.

Refer encias
[1] BRAGA, L. P. V. Introdu c ao ` a Minera c ao de Dados. Rio de Janeiro, Epapers Servi cos Editoriais, 2005

Potrebbero piacerti anche