Sei sulla pagina 1di 31

Introduccin a la minera de datos

Por qu minera de datos? Punto de vista comercial

Muchos datos son recolectados y almacenados Datos de la Web, comercio electrnico Compras en multitiendas/ supermercados Transacciones bancarias /Tarjetas de credito Computadores ms baratos y poderosos Fuerte presin de la competencia Pro eer mejor ser icio a los clientes Customer !elationship Mana"ement #C!M$

Por qu minera de datos? Punto de vista Cientfico Datos recolectados y almacenados a "ran elocidad #%&/hora$ 'ensores remotos #satelites$ Telescopio escaneando los cielos Microarre"los "enerando datos de e(presin "en)tica 'imulacin cienti*ica "enerando terabytes de datos

T)cnicas tradicionales no son aplicables a los datos +crudos, Miner-a de datos apoya a los cienti*icos Clasi*icar y se"mentar datos Formacin de hipotesis

Minera de datos en grandes conjuntos de datos - Motivacin


Muchas veces existe informacin oculta en los datos que no es evidente. Analistas humanos pueden tomar aos en descubrir informacin til. Mucha informacin nunca es anali ada

Qu es Minera de Datos?

Muchas !efiniciones
"on#trivial extraction of implicit$ previousl% un&no'n and potentiall% useful information from data (xploration ) anal%sis$ b% automatic or semi#automatic means$ of lar*e quantities of data in order to discover meanin*ful patterns

Que (no) es minera de datos?

"o es !M &uscar un numero en el directorio tele*onico 7acer una consulta en un buscador 4ebacerca de +/ma6on

+i es !M Ciertos apellidos son ms comunes en ciertos lu"ares de .'/ #01&rien, 01!ur2e, 01!eilly3 en &oston$ /"rupar documentos similares retornados por un buscador 4eb de acuerdo a un conte(to #e5"5 +Data minin", en /ma6on5com$

rgenes de la minera de datos


+aca ideas de machine learnin*,AI$ estadstica reconocimiento de patrones % bases de datos -.cnicas tradicionales no son aplicables 9stad-stica/ Machine 8earnin"/ /olumen de datos /: reconocimiento de patrones Alta dimensionalidad !ata Minin* "aturale a de los datos es hetereo*enea o distribuida &ases de
datos

!areas en la minera de datos

M)todos de prediccin .sar al"unas ariables para predecir alores de ariables desconocidas o *uturas5 M)todos descripti os 9ncontrar patrones ;ue pueda interpretar el ser humano para describir datos5

From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

!areas en la minera de datos"""


Clasi*icacin <Predicti o= /"rupacin <Descripti o= Descubrir !e"las de asociacin <Descripti o= Descubrir patrones secuenciales <Descripti o= !e"resin <Predicti o= Deteccin de Des iaciones <Predicti o=

Clasificacin# Definicin

Dado un conjunto de instancias #conjunto de entrenamiento$ Cada instancia tiene un conjunto de atributos uno de los atributos es la clase5 9ncontrar un modelo para el atributo de clase como una *uncin de los alores de los otros atributos5 0bjeti o> instancias pre iamente no istas deben ser asi"nadas a una clase de la manera ms precisa posible5 .n conjunto de prueba es usado para determinar la certe6a del modelo5 .sualmente, el conjunto de datos dado es di idido en conjuntos de entrenamiento y prueba el conjunto de entrenamiento se usa para construir el modelo y el de prueba para alidarlo5

$jem%lo de Clasificacin
0efund

l l a a us c c i i o or or nu * i * t ss e e t a n t l c ca ca co
Tid ? A F H B J G K I ?E 0efund @es Do Do @es Do Do @es Do Do Do Marital +tatus 'in"le Married 'in"le Married Di orced Married Di orced 'in"le Married 'in"le -axable Income ?ABC ?EEC GEC ?AEC IBC JEC AAEC KBC GBC IEC 1heat "o "o "o "o 2es "o "o 2es 2es

Marital +tatus 'in"le Married Married Di orced 'in"le Married

-axable Income GBC BEC ?BEC IEC HEC KEC

1heat 4 4 4 4 4 4

Do @es Do @es Do Do

-est +et

-rainin* "o +et

3earn 1lassifier

Model

Clasificacin# &%licacin '

Mar2etin" directo 0bjeti o> !educir costo de en -o mediante la indenti*icacin de un conjunto de clientes ;ue puedan estar interesados en comprar un nue o celular5 /pro(imacin>
.sar

datos para un producto similar endido en el pasado5

'abemos

;uien decidi comprar y ;uien no5 9sta decision {comprar, no comprar} con*orma el atributo de clase5 in*ormacin demo"ra*ica, estilo de ida, e interaccin con la compaL-a de estos clientes5
i!o de negocio, donde viven, c"anto ganan, etc.

!ecolectar

.sar

esta in*ormacin como los atributos de entrada para aprender un modelo de clasi*icacin5

From [#erry $ %ino&&] Data Mining ec'ni("es, 199)

Clasificacin# &%licacin (

Deteccin de Fraude 0bjeti o> Predecir casos *raudulentos en transacciones de tarjetas de cr)dito5 /pro(imacin> .sar transacciones de tarjetas de cr)dito e in*ormarcin del mantenedor de tarjeta como atributos5
*+"ando com!ra,, *("e com!ra,,*!aga a tiem!o, -tc.

-ti("etar transacciones !asadas como transacciones &ra"d"lentas &ra"de o legitimas .atri/"to de clase0 /prender un modelo para la clase de transaccin5 .sar este modeo para detectar *raude mediante la obser acion de las transacciones de la tarjeta de credito de una cuenta

ClasificaCi)n# &%licaCi)n *

Desercin de clientes 0bjeti o> predecir si un cliente mi"ra hacia la competencia5 /pro(imacin>
.sar

los detalles de las transacciones con todos los clientes del pasado y presente para encontrar atributos ;ue sean Mtiles5
1"e tan seg"ido llama/a el cliente,, a donde llama/a,, A ("e 'ora llama/a,, +"al era s" estat"s &inanciero,, estado marital,, etc.

9ti;uetar

un cliente como leal o desleal5 9ncontrar un modelo para la lealtad5


From [#erry $ %ino&&] Data Mining ec'ni("es, 199)

Clasificacin# &%licacin +

Catlo"o de resumen de los cielos 0bjeti o> predecir clase #estrella o "ala(ia$ de objetos en el cielo, especialmente los borrosos, basado en ima"enes telescopicas #desde 0bser atorio Palomar$5
2333 imagenes con 42,353 6 42,353 !i6eles !or imagen.

/pro(imacin>
'e"mentar Medir

la ima"en5

los atributos de ima"en #caracteristicas$ N HE de ellas por objeto5 las clases de acuerdo a estas caracteristicas5 e(itosa> se pudo encontrar ?J nue os ;uasares, entre los mas anti"uos objetos del uni erso ;ue son muy di*iciles de encontrarO
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

Modelar 7istoria

Classificacin de ,ala-ias

Temprana

Clase#

$ta%as de formacin

&tri2utos#

Intermedia

Caracteristicas de la imagen Caracteristicas de las longitudes de onda reci2idas7 etc"

Tarda

!ama.o de los datos#

/( millones de estrellas (0 millones de gala-ias Cat1logo de 2jetos# 3 ,4 4ase de datos de 5magenes# '60 ,4

fuente: http://aps.umn.edu

Clustering Definition

%i en a set o* data points, each ha in" a set o* attributes, and a similarity measure amon" them, *ind clusters such that Data points in one cluster are more similar to one another5 Data points in separate clusters are less similar to one another5 'imilarity Measures> 9uclidean Distance i* attributes are continuous5 0ther ProblemNspeci*ic Measures5

5llustrating Clustering
Euclidean Distance Based Clustering in 3-D space.

7ntracl"ster 7ntracl"sterdistances distances are areminimi8ed minimi8ed

7ntercl"ster 7ntercl"sterdistances distances are arema6imi8ed ma6imi8ed

Clustering# &%%lication '

Mar2et 'e"mentation> %oal> subdi ide a mar2et into distinct subsets o* customers 4here any subset may concei ably be selected as a mar2et tar"et to be reached 4ith a distinct mar2etin" mi(5 /pproach>
Collect

di**erent attributes o* customers based on their "eo"raphical and li*estyle related in*ormation5 Find clusters o* similar customers5 Measure the clusterin" ;uality by obser in" buyin" patterns o* customers in same cluster s5 those *rom di**erent clusters5

Clustering# &%%lication (

Document Clusterin"> %oal> To *ind "roups o* documents that are similar to each other based on the important terms appearin" in them5 /pproach> To identi*y *re;uently occurrin" terms in each document5 Form a similarity measure based on the *re;uencies o* di**erent terms5 .se it to cluster5 %ain> :n*ormation !etrie al can utili6e the clusters to relate a ne4 document or search term to clustered documents5

5llustrating Document Clustering


Clusterin" Points> FAEH /rticles o* 8os /n"eles Times5 'imilarity Measure> 7o4 many 4ords are common in these documents #a*ter some 4ord *ilterin"$5 Category Financial Foreign National Metro Sports Entertainment Total Articles 555 341 273 943 73 354 Correctly Placed 364 260 36 746 573 27

Clustering - 89P 600 8toc: Data


!"ser#e $t%c& '%#e(ents e#er) da). Clustering p%ints* $t%c&-+,-.D!/01 $i(ilarit) 'easure* 23% p%ints are (%re si(ilar i4 t5e e#ents descri"ed ") t5e( 4re6uentl) 5appen t%get5er %n t5e sa(e da).
/e used ass%ciati%n rules t% 6uanti4) a si(ilarit) (easure.
Disco ered Clusters
5 /ppliedNMatlND0WD,&ayNDet4or2NDo4n,FNC0MN D0WD, CabletronN'ysND0WD,C:'C0ND0WD,7PND0WD, D'CNCommND0WD,:DT98ND0WD,8':N8o"icND0WD, MicronNTechND0WD,Te(asN:nstNDo4n,TellabsN:ncN Do4n, DatlN'emiconductND0WD,0raclND0WD,'%:ND0WD, 'unND0WD /ppleNCompND0WD,/utodes2ND0WD,D9CND0WD, /DPNMicroNDe iceND0WD,/ndre4NCorpND0WD, ComputerN/ssocND0WD,CircuitNCityND0WD, Compa;ND0WD, 9MCNCorpND0WD, %enN:nstN D0WD, MotorolaND0WD,Microso*tND0WD,'cienti*icN /tlND0WD FannieNMaeND0WD,FedN7omeN8oanND0WD, M&D/NCorpND0WD,Mor"anN'tanleyND0WD &a2erN7u"hesN.P,DresserN:ndsN.P,7alliburtonN78DN .P, 8ouisianaN8andN.P,PhillipsNPetroN.P,.nocalN.P,

Industry Group
Technolo"y?ND0WD

Technolo"yAND0WD

7 8

FinancialND0WD 0ilN.P

&ssociation ;ule Discover<# Definition

%i en a set o* records each o* 4hich contain some number o* items *rom a "i en collectionQ Produce dependency rules 4hich 4ill predict occurrence o* an item based on occurrences o* other items5
9"les 9"lesDiscovered: Discovered:
TID Items

1 2 3

Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk

=Mil:> =Mil:>--? --?=Co:e> =Co:e> =Dia%er7 =Dia%er7Mil:> Mil:>--? --?=4eer> =4eer>

&ssociation ;ule Discover<# &%%lication '

Mar2etin" and 'ales Promotion> 8et the rule disco ered be {Bagels, } --> {Potato Chips} Potato Chips as conse;uent RS Can be used to determine 4hat should be done to boost its sales5 &a"els in the antecedent RS Can be used to see 4hich products 4ould be a**ected i* the store discontinues sellin" ba"els5 &a"els in antecedent and Potato chips in conse;uent RS Can be used to see 4hat products should be sold 4ith &a"els to promote sale o* Potato chipsO

&ssociation ;ule Discover<# &%%lication (

'upermar2et shel* mana"ement5 %oal> To identi*y items that are bou"ht to"ether by su**iciently many customers5 /pproach> Process the pointNo*Nsale data collected 4ith barcode scanners to *ind dependencies amon" items5 / classic rule NN
:*

a customer buys diaper and mil2, then he is ery li2ely to buy beer5 'o, don1t be surprised i* you *ind si(Npac2s stac2ed ne(t to diapersO

&ssociation ;ule Discover<# &%%lication *

:n entory Mana"ement> %oal> / consumer appliance repair company 4ants to anticipate the nature o* repairs on its consumer products and 2eep the ser ice ehicles e;uipped 4ith ri"ht parts to reduce on number o* isits to consumer households5 /pproach> Process the data on tools and parts re;uired in pre ious repairs at di**erent consumer locations and disco er the coNoccurrence patterns5

8equential Pattern Discover<# Definition

%i en is a set o* objects, 4ith each object associated 4ith its o4n timeline of events, *ind rules that predict stron" se;uential dependencies amon" di**erent e ents5

(A B)

(C)

(D

!ules are *ormed by *irst diso erin" patterns5 9 ent occurrences in the patterns are "o erned by timin" constraints5

(A B)
9: x*

(C) (D
;n* 9: ms 9: 's

8equential Pattern Discover<# $-am%les

:n telecommunications alarm lo"s, #:n erterTProblem 9(cessi eT8ineTCurrent$ #!ecti*ierT/larm$ NNS #FireT/larm$ :n pointNo*Nsale transaction se;uences, Computer &oo2store> #:ntroTToTPisualTC$ #CUUTPrimer$ NNS #PerlT*orTdummies,TclTT2$ /thletic /pparel 'tore> #'hoes$ #!ac2et, !ac2etball$ NNS #'portsTVac2et$

;egression

Predict a alue o* a "i en continuous alued ariable based on the alues o* other ariables, assumin" a linear or nonlinear model o* dependency5 %reatly studied in statistics, neural net4or2 *ields5 9(amples> Predictin" sales amounts o* ne4 product based on ad etisin" e(penditure5 Predictin" 4ind elocities as a *unction o* temperature, humidity, air pressure, etc5 Time series prediction o* stoc2 mar2et indices5

Deviation@&nomal< Detection

Detect si"ni*icant de iations *rom normal beha ior /pplications> Credit Card Fraud Detection

Det4or2 :ntrusion Detection

T pical net!or" traffic at #niversit level ma reach over $%% million connections per da

CAallenges of Data Mining


'calability Dimensionality Comple( and 7etero"eneous Data Data Wuality Data 04nership and Distribution Pri acy Preser ation 'treamin" Data

Potrebbero piacerti anche