Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Muchos datos son recolectados y almacenados Datos de la Web, comercio electrnico Compras en multitiendas/ supermercados Transacciones bancarias /Tarjetas de credito Computadores ms baratos y poderosos Fuerte presin de la competencia Pro eer mejor ser icio a los clientes Customer !elationship Mana"ement #C!M$
Por qu minera de datos? Punto de vista Cientfico Datos recolectados y almacenados a "ran elocidad #%&/hora$ 'ensores remotos #satelites$ Telescopio escaneando los cielos Microarre"los "enerando datos de e(presin "en)tica 'imulacin cienti*ica "enerando terabytes de datos
T)cnicas tradicionales no son aplicables a los datos +crudos, Miner-a de datos apoya a los cienti*icos Clasi*icar y se"mentar datos Formacin de hipotesis
Muchas veces existe informacin oculta en los datos que no es evidente. Analistas humanos pueden tomar aos en descubrir informacin til. Mucha informacin nunca es anali ada
Qu es Minera de Datos?
Muchas !efiniciones
"on#trivial extraction of implicit$ previousl% un&no'n and potentiall% useful information from data (xploration ) anal%sis$ b% automatic or semi#automatic means$ of lar*e quantities of data in order to discover meanin*ful patterns
"o es !M &uscar un numero en el directorio tele*onico 7acer una consulta en un buscador 4ebacerca de +/ma6on
+i es !M Ciertos apellidos son ms comunes en ciertos lu"ares de .'/ #01&rien, 01!ur2e, 01!eilly3 en &oston$ /"rupar documentos similares retornados por un buscador 4eb de acuerdo a un conte(to #e5"5 +Data minin", en /ma6on5com$
M)todos de prediccin .sar al"unas ariables para predecir alores de ariables desconocidas o *uturas5 M)todos descripti os 9ncontrar patrones ;ue pueda interpretar el ser humano para describir datos5
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Clasi*icacin <Predicti o= /"rupacin <Descripti o= Descubrir !e"las de asociacin <Descripti o= Descubrir patrones secuenciales <Descripti o= !e"resin <Predicti o= Deteccin de Des iaciones <Predicti o=
Clasificacin# Definicin
Dado un conjunto de instancias #conjunto de entrenamiento$ Cada instancia tiene un conjunto de atributos uno de los atributos es la clase5 9ncontrar un modelo para el atributo de clase como una *uncin de los alores de los otros atributos5 0bjeti o> instancias pre iamente no istas deben ser asi"nadas a una clase de la manera ms precisa posible5 .n conjunto de prueba es usado para determinar la certe6a del modelo5 .sualmente, el conjunto de datos dado es di idido en conjuntos de entrenamiento y prueba el conjunto de entrenamiento se usa para construir el modelo y el de prueba para alidarlo5
$jem%lo de Clasificacin
0efund
l l a a us c c i i o or or nu * i * t ss e e t a n t l c ca ca co
Tid ? A F H B J G K I ?E 0efund @es Do Do @es Do Do @es Do Do Do Marital +tatus 'in"le Married 'in"le Married Di orced Married Di orced 'in"le Married 'in"le -axable Income ?ABC ?EEC GEC ?AEC IBC JEC AAEC KBC GBC IEC 1heat "o "o "o "o 2es "o "o 2es 2es
1heat 4 4 4 4 4 4
Do @es Do @es Do Do
-est +et
3earn 1lassifier
Model
Mar2etin" directo 0bjeti o> !educir costo de en -o mediante la indenti*icacin de un conjunto de clientes ;ue puedan estar interesados en comprar un nue o celular5 /pro(imacin>
.sar
'abemos
;uien decidi comprar y ;uien no5 9sta decision {comprar, no comprar} con*orma el atributo de clase5 in*ormacin demo"ra*ica, estilo de ida, e interaccin con la compaL-a de estos clientes5
i!o de negocio, donde viven, c"anto ganan, etc.
!ecolectar
.sar
esta in*ormacin como los atributos de entrada para aprender un modelo de clasi*icacin5
Clasificacin# &%licacin (
Deteccin de Fraude 0bjeti o> Predecir casos *raudulentos en transacciones de tarjetas de cr)dito5 /pro(imacin> .sar transacciones de tarjetas de cr)dito e in*ormarcin del mantenedor de tarjeta como atributos5
*+"ando com!ra,, *("e com!ra,,*!aga a tiem!o, -tc.
-ti("etar transacciones !asadas como transacciones &ra"d"lentas &ra"de o legitimas .atri/"to de clase0 /prender un modelo para la clase de transaccin5 .sar este modeo para detectar *raude mediante la obser acion de las transacciones de la tarjeta de credito de una cuenta
ClasificaCi)n# &%licaCi)n *
Desercin de clientes 0bjeti o> predecir si un cliente mi"ra hacia la competencia5 /pro(imacin>
.sar
los detalles de las transacciones con todos los clientes del pasado y presente para encontrar atributos ;ue sean Mtiles5
1"e tan seg"ido llama/a el cliente,, a donde llama/a,, A ("e 'ora llama/a,, +"al era s" estat"s &inanciero,, estado marital,, etc.
9ti;uetar
Clasificacin# &%licacin +
Catlo"o de resumen de los cielos 0bjeti o> predecir clase #estrella o "ala(ia$ de objetos en el cielo, especialmente los borrosos, basado en ima"enes telescopicas #desde 0bser atorio Palomar$5
2333 imagenes con 42,353 6 42,353 !i6eles !or imagen.
/pro(imacin>
'e"mentar Medir
la ima"en5
los atributos de ima"en #caracteristicas$ N HE de ellas por objeto5 las clases de acuerdo a estas caracteristicas5 e(itosa> se pudo encontrar ?J nue os ;uasares, entre los mas anti"uos objetos del uni erso ;ue son muy di*iciles de encontrarO
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Modelar 7istoria
Classificacin de ,ala-ias
Temprana
Clase#
$ta%as de formacin
&tri2utos#
Intermedia
Tarda
/( millones de estrellas (0 millones de gala-ias Cat1logo de 2jetos# 3 ,4 4ase de datos de 5magenes# '60 ,4
fuente: http://aps.umn.edu
Clustering Definition
%i en a set o* data points, each ha in" a set o* attributes, and a similarity measure amon" them, *ind clusters such that Data points in one cluster are more similar to one another5 Data points in separate clusters are less similar to one another5 'imilarity Measures> 9uclidean Distance i* attributes are continuous5 0ther ProblemNspeci*ic Measures5
5llustrating Clustering
Euclidean Distance Based Clustering in 3-D space.
Mar2et 'e"mentation> %oal> subdi ide a mar2et into distinct subsets o* customers 4here any subset may concei ably be selected as a mar2et tar"et to be reached 4ith a distinct mar2etin" mi(5 /pproach>
Collect
di**erent attributes o* customers based on their "eo"raphical and li*estyle related in*ormation5 Find clusters o* similar customers5 Measure the clusterin" ;uality by obser in" buyin" patterns o* customers in same cluster s5 those *rom di**erent clusters5
Clustering# &%%lication (
Document Clusterin"> %oal> To *ind "roups o* documents that are similar to each other based on the important terms appearin" in them5 /pproach> To identi*y *re;uently occurrin" terms in each document5 Form a similarity measure based on the *re;uencies o* di**erent terms5 .se it to cluster5 %ain> :n*ormation !etrie al can utili6e the clusters to relate a ne4 document or search term to clustered documents5
Clusterin" Points> FAEH /rticles o* 8os /n"eles Times5 'imilarity Measure> 7o4 many 4ords are common in these documents #a*ter some 4ord *ilterin"$5 Category Financial Foreign National Metro Sports Entertainment Total Articles 555 341 273 943 73 354 Correctly Placed 364 260 36 746 573 27
Industry Group
Technolo"y?ND0WD
Technolo"yAND0WD
7 8
FinancialND0WD 0ilN.P
%i en a set o* records each o* 4hich contain some number o* items *rom a "i en collectionQ Produce dependency rules 4hich 4ill predict occurrence o* an item based on occurrences o* other items5
9"les 9"lesDiscovered: Discovered:
TID Items
1 2 3
Mar2etin" and 'ales Promotion> 8et the rule disco ered be {Bagels, } --> {Potato Chips} Potato Chips as conse;uent RS Can be used to determine 4hat should be done to boost its sales5 &a"els in the antecedent RS Can be used to see 4hich products 4ould be a**ected i* the store discontinues sellin" ba"els5 &a"els in antecedent and Potato chips in conse;uent RS Can be used to see 4hat products should be sold 4ith &a"els to promote sale o* Potato chipsO
'upermar2et shel* mana"ement5 %oal> To identi*y items that are bou"ht to"ether by su**iciently many customers5 /pproach> Process the pointNo*Nsale data collected 4ith barcode scanners to *ind dependencies amon" items5 / classic rule NN
:*
a customer buys diaper and mil2, then he is ery li2ely to buy beer5 'o, don1t be surprised i* you *ind si(Npac2s stac2ed ne(t to diapersO
:n entory Mana"ement> %oal> / consumer appliance repair company 4ants to anticipate the nature o* repairs on its consumer products and 2eep the ser ice ehicles e;uipped 4ith ri"ht parts to reduce on number o* isits to consumer households5 /pproach> Process the data on tools and parts re;uired in pre ious repairs at di**erent consumer locations and disco er the coNoccurrence patterns5
%i en is a set o* objects, 4ith each object associated 4ith its o4n timeline of events, *ind rules that predict stron" se;uential dependencies amon" di**erent e ents5
(A B)
(C)
(D
!ules are *ormed by *irst diso erin" patterns5 9 ent occurrences in the patterns are "o erned by timin" constraints5
(A B)
9: x*
(C) (D
;n* 9: ms 9: 's
:n telecommunications alarm lo"s, #:n erterTProblem 9(cessi eT8ineTCurrent$ #!ecti*ierT/larm$ NNS #FireT/larm$ :n pointNo*Nsale transaction se;uences, Computer &oo2store> #:ntroTToTPisualTC$ #CUUTPrimer$ NNS #PerlT*orTdummies,TclTT2$ /thletic /pparel 'tore> #'hoes$ #!ac2et, !ac2etball$ NNS #'portsTVac2et$
;egression
Predict a alue o* a "i en continuous alued ariable based on the alues o* other ariables, assumin" a linear or nonlinear model o* dependency5 %reatly studied in statistics, neural net4or2 *ields5 9(amples> Predictin" sales amounts o* ne4 product based on ad etisin" e(penditure5 Predictin" 4ind elocities as a *unction o* temperature, humidity, air pressure, etc5 Time series prediction o* stoc2 mar2et indices5
Deviation@&nomal< Detection
Detect si"ni*icant de iations *rom normal beha ior /pplications> Credit Card Fraud Detection
T pical net!or" traffic at #niversit level ma reach over $%% million connections per da
'calability Dimensionality Comple( and 7etero"eneous Data Data Wuality Data 04nership and Distribution Pri acy Preser ation 'treamin" Data