Sei sulla pagina 1di 125

Dr. Carlos A.

Gonzlez
sisifo@racsa.co.cr
Sistemas de
Conocimiento
2
Agenda
1. Preliminar
2. Definicin del concepto
3. Tcnicas de Minera de Datos
4. Minera de Datos en la Inteligencia de Negocios
5. Minera de Datos en el CRM
6. Minera de Datos en el e-commerce
7. Requisitos en la Minera de Datos
8. Tendencias
3
Heigh-Ho, ..., Its off to mine
we go
Minera de Datos?
Descubrimiento de conocimiento en BD (KDD)
4
Alicia en el pas
Oh, puedes
estar segura de
conseguirlo, si
caminas lo
suficiente
con la
condicin que
pueda ir a
alguna parte
No me
interesa
mucho dnde
Podra decirme, por
favor, qu camino
debo tomar para salir
de aqu?
Eso depende
de dnde
quieres ir
Entonces no
importa qu
camino tomes
5
Agenda
1. Preliminar
2. Definicin del concepto
3. Tcnicas de Minera de Datos
4. Minera de Datos en la Inteligencia de Negocios
5. Minera de Datos en el CRM
6. Minera de Datos en el e-commerce
7. Requisitos en la Minera de Datos
8. Tendencias
6
Definicin del concepto
Extraccin no trivial de conocimiento novedoso, implcito y
procesable a partir de volmenes de conjuntos de datos.
Conjuntos de datos extremadamente grandes
Descubrimiento de lo no obvio
Conocimiento til que puede mejorar los procesos
No se puede hacer manualmente
Tecnologa que permite la exploracin, el anlisis y la
visualizacin de datos de BDs muy grandes en un alto grado
de abstraccin, sin una hiptesis especfica en mente.
7
De dnde viene?
Aprendizaje
de mquinas
Visualizacin
Ciencias de la
Informacin
Estadstica
Computacin
alto rendimiento
Tecnologa de
bases de datos
8
De dnde salen tantos datos?
BDs transaccionales
Grandes DW que se estn construyendo
POS: Cdigos de barras
BDOO, BDD, BDH, BD de legados
GIS, EOS, BDs cientficas,
Datos temporales
BDs textuales y de multimedios
Internet (www, e-mails)
1970 1980 1990 2000
Volumen de datos
9
Datos, por todo lado
No puedo encontrar el dato que
requiero
Los datos estn diseminados
No puedo obtener el dato que requiero
Se requiere de un experto
No puedo entender el dato encontrado
Dato con pobre documentacin
No puedo usar el dato que requiero
Se requiere transformarlo
10
Ricos en datos,
pobres en informacin
Tumbas, rara vez visitadas
TD basada en la intuicin
Manejo manual
Por Dios!
Cmo analizar
estos datos?
11
La Minera de Datos se usa para
establecer patrones
Sirve para que una tumba de datos se convierta en piedras
preciosas de conocimiento
12
La Minera de Datos al rescate!
Canal ms
efectivo de
distribucin ?
Promociones
con el mayor
impacto en
ingresos?
Preferencias de
los clientes?
Clientes con
mayor
probabilidad de
pasarse a la
competencia?
Mayores y
menores
mrgenes de
ganancia?
I mpacto de
nuevos
servicios
sobre el
ingreso y los
mrgenes?
13
Agenda
1. Preliminar
2. Definicin del concepto
3. Tcnicas de Minera de Datos
4. Minera de Datos en la Inteligencia de Negocios
5. Minera de Datos en el CRM
6. Minera de Datos en el e-commerce
7. Requisitos en la Minera de Datos
8. Tendencias
14
Tipos de patrones por
determinar
Las tareas de Minera de Datos se pueden clasificar en
Descriptivas: Caracterizar las propiedades generales de los
datos en la BD.
Predictivas: Realizar inferencia de los datos vigentes para
hacer predicciones.
15
Tcnicas de
Minera de Datos
Estimacin
Clusters
Reglas de
Asociacin
Descripcin
y Perfiles
Clasificacin
rboles de decisin
Vecinos cercanos
Redes neuronales
Prediccin
Anlisis de enlaces
M. regresin
OLAP
Algoritmos genticos
Conjuntos difusos
Descriptivas Predictivas
Conjuntos aproximados
16
Clasificacin
Una de las tcnicas ms usadas.
Es imperativo humano comunicarse y
entender el mundo. Para ello clasifica,
categoriza y estructura.
Materia en elementos
Perros en razas
Estudiantes en especialidades,
Se examinan las caractersticas de un objeto recin
presentado y se asigna a uno de los conjuntos de datos
predefinidos tuplas en bases de datos-
La tarea consiste en construir un modelo que permita
clasificar datos no clasificados.
17
Ejemplos clasificacin
Clasificar solicitantes de tarjetas de crdito en bajo, mediano y
alto riesgo.
Escoger el contenido a ser desplegado en una pgina Web.
Ubicar reclamos de seguros fraudulentos.
Determinar qu nmeros telefnicos corresponden a faxes.

18
Clasificacin basada en rboles de
decisin
Primero se elige un subconjunto de ejemplos de
entrenamiento para formar un rbol de decisin.
Si ste no trae las preguntas correctas para todos los objetos,
se adiciona una seleccin de las excepciones.
El proceso contina hasta que se encuentre el conjunto
correcto de decisiones.
19
BD sobre tarjetas de crdito
Rango
ingreso
Promocin
seguro de vida
Seguro Tarjeta
Crdito
Sexo Edad
40-50,000 No No Masculino 45
30-40,000 Si No Femenino 40
40-50,000 No No Masculino 42
30-40,000 Si Si Masculino 43
50-60,000 Si No Femenino 38
20-30,000 No No Femenino 55
30-40,000 Si Si Masculino 35
20-30,000 No No Masculino 27
30-40,000 No No Masculino 43
30-40,000 Si No Femenino 41
40-50,000 Si No Femenino 43
20-30,000 Si No Masculino 29
50-60,000 Si No Femenino 39
40-50,000 No No Masculino 55
20-30,000 Si Si Femenino 19
20
edad?
sexo?
No (3/0)
s 43
> 43
masculino
rbol de decisin asociado
seguro?
Si (6/0)
No (4/1) Si (2/0)
femenino
No
Si
21
Arboles de decisin en MineSet 3.0
22
Estimacin
La clasificacin trata con resultados discretos.
La estimacin trata con resultados continuos.
En la prctica, la estimacin se usa a menudo
para realizar una tarea de clasificacin.
Una organizacin de tarjetas de crdito desea vender espacio
publicitarios en sus sobres de facturacin a un fabricante de
tacos de ftbol.
Puede construirse un modelo de clasificacin y dividir sus
clientes en futboleros y no futboleros.
Puede construir un modelo que asigne un valor [0, 1] a cada
cliente de si es propenso a ser futbolero
Esto lleva a establecer un umbral
23
Estimacin: Ejemplo
La estimacin tiene grandes ventajas pues se pueden ordenar a
los clientes segn el estimado mencionado.
Suponer que la empresa de zapatos de ftbol tiene presupuesto
solo para enviar 500,000.
Si se aplica la clasificacin y se tienen identificados 1,5
millones de futboleros, tendra que seleccionar en forma
aleatoria 500,000.
Pero, si se tiene un valor de cada cliente, se escogen los
primeros 500,000.
Ejemplos
Estimar el nmero de nios en una familia
Estimar el ingreso total por familia

24
Prediccin
Es como la clasificacin o la estimacin, excepto que los
registros se clasifican segn un comportamiento futuro
predicho o un valor futuro estimado.
Los datos histricos de usan para construir un modelo que
explique los comportamientos actuales observados.
Ejemplos:
Predecir cules clientes nos dejaran dentro de los prximos
6 meses.
Predecir qu suscriptores de cable solicitarn paquetes
adicionales.
25
Prediccin: Ejemplo
Astrid Erika Pablo
Persona
Honesta
Persona
Sinvergenza
Miguel Rafael ngel
Persona Honesta = Tiene ojos redondos y sonre
26
Reglas de Asociacin
27
Aplicacin: Compras en
supermercados
edad (x, [30-40]) . compra (x, pan integral)

compra (x, leche descremada)
28
Qu es el minado de Reglas de
Asociacin? (1993)
Determinar patrones frecuentes, asociaciones,
correlaciones o estructuras causales sobre conjuntos
productos en BD de transacciones.
Patrn frecuente : patrn que se da con frecuencia
en una BD.
Motivacin: Establecer regularidades en los datos
Subsecuentes compras despus comprar un PC?
Tipos de ADN sensibles a un nuevo medicamento?
Podemos clasificar en forma automtica
documentos Web?
29
Por qu el PF es importante en DM?
Fundamentos para muchas de las tares de DM
Asociacin, correlacin, causalidad
Patrones secuenciales, asociaciones temporales,
espaciales, periodicidad parcial y de multimedios,
etc.
Clasificacin asociativa, anlisis de clusters, cubos
iceberg, fascculos (comprensin semntica de
datos)
Aplicaciones amplias
Mercadotecnia, diseo de catlogos, anlisis de
campaas de ventas.
Anlisis Web, anlisis de secuencias de ADN, etc.
30
Cliente
compra
paales
Cliente compra
ambos
Cliente compra cerveza
Conceptos bsicos: FPs y RAs
{x
1
, , x
k
} es un CA
Establecer las reglas X Y con una
confianza y soporte mnimos
soporte, s, probabilidad que una tx
contenga a X Y
confianza, c, probabilidad condicional
que una tx teniendo X tambin
contiene Y
Si sop = 50%, conf = 50%
A C [50%, 66.6%]
C A [ 50%, 100%]
Id-T
Artculos
adquiridos
10 A, B, C
20 A, C
30 A, D
40 B, E, F
31
Minado de RA Ejemplo
A C
soporte: sop({A} {C}) = 50%
confianza: sop({A} {C})/ sop({A}) = 66.6%
sop 50%
conf 50%
Id-T
Artculos
adquiridos
10 A, B, C
20 A, C
30 A, D
40 B, E, F
FP Soporte
{A} 75%
{B} 50%
{C} 50%
{A, C} 50%
32
Soporte y confianza
I = { I
1
, ..., I
m
} temes
D = {T
1
,...,T
n
} _ P(I) datos relevantes a la tarea
T contiene a A A _ T
A B, A, B _ I y A B = C
A B soporte s es el % de T
i
, A B _ T
i

A B confianza c si es el % de T
i
que conteniendo A
tambin contienen B
soporte(A B ) = P(A B)
confianza(A B) = P(B | A)
33
Regla fuerte
Regla es fuerte si satisface umbrales mnimos (sop-
min) y (conf-min).
Un k-CI C es t.q. | C | = k.
{arroz, leche, caf} es un 3-CI.
frecuencia de C: | { T
i
} | t.q. T
i
_ C
C satisface un soporte mnimo frecuente- si su
frecuencia > sop-min
*
|D|.
L
k
es el conjunto de k-CI frecuentes.
34
Apriori: Generacin y prueba de
candidatos
Todo subconjunto de un CA frecuente es frecuente
Si {cerveza, paales, man} es frecuente {cerveza,
paales} es frecuente
Si tx que incluye a {cerveza, paales, man} tambin
incluye a {cerveza, paales}
Principio de poda Si se tiene un CA infrecuente, no
debe generarse o probarse cualquier super-conjunto!
35
Apriori: Generacin y prueba de
candidatos
Mtodo
Generar los CA candidatos de largo-(k+1) a partir
de CA frecuentes de largo-k, y
Probar los candidatos contra la BD
36
El algoritmo Apriori
Pseudo-cdigo: C
k
; L
k

L
1
= {artculos frecuentes};
for (k = 1; L
k
= C; k++) do begin
C
k+1
= candidatos generados por L
k
;
for each t en la BD do
incrementar el conteo de los candidatos en C
k+1

que estn contenidos en t
L
k+1
= candidatos en C
k+1
con sop-min
end
return
k
L
k
;
37
Detalles del Apriori
Cmo generar candidatos?
Paso 1: auto-join de L
k
Paso 2: poda
Ejemplo de generacin de candidatos
L
3
={abc, abd, acd, ace, bcd}
Auto join: L
3
* L
3

abcd de abc y abd y acde de acd y ace
Poda:
acde se remueve pues ade e L
3
C
4
= {abcd}
38
El algoritmo Apriori: Ejemplo
BDT
Primer barrido
C
1
L
1
L
2
C
2
C
2
C
3
L
3
Id-T Artculos
10 A, C, D
20 B, C, E
30 A, B, C, E
40 B, E
CA sop
{A} 2
{B} 3
{C} 3
{D} 1
{E} 3
CA sop
{A} 2
{B} 3
{C} 3
{E} 3
CA
{A, B}
{A, C}
{A, E}
{B, C}
{B, E}
{C, E}
CA sop
{A, B} 1
{A, C} 2
{A, E} 1
{B, C} 2
{B, E} 3
{C, E} 2
CA sop
{A, C} 2
{B, C} 2
{B, E} 3
{C, E} 2
CA
{B, C, E}
CA sop
{B, C, E} 2
Segundo barrido
Tercer barrido
sop-min = 2
39
Reglas de asociacin en
MineSet 3.0
40
Anlisis de
supermercados
(Plano de
asociaciones)
41
Anlisis de supermercados
(Grafo de asociaciones)
42
Ejemplo
#-Emp Edad Estado-civil Tar
100 23 soltero 1
200 25 casado 1
300 29 soltero 0
400 34 casado 2
500 38 casado 2
Conjuntos de temes Sop (%)
{Edad 20-29} 3
{Edad 30-39} 2
{Casados} 3
{Solteros} 2
{Una o cero tarjetas} 3
{{Edad 30-39},{casado}} 2
r: edad (x,[30,39]) y est-civil (x,[casado])
tarjeta (x, [1,2]) sop(r)=40%, conf(r)=100%
43
Ejemplo
Quizs difcil establecer soporte relevante en hojas, y no
a un nivel superior: 60% de clientes que compran leche
descremada tambin compran pan integral
comida
leche
pan
descremada ntegral
blanco
integral
Dos Pinos Camacho Tulipn

44
Clusters
45
Cluster
Anlisis de clusters
Agrupar un conjunto de datos en clusters
Es una clasificacin no supervisada: sin clases
predefinidas
similares
diferentes
46
Aplicaciones generales
Reconocimiento de patrones
Anlisis de datos espaciales
Crear mapas temticos en SIG agrupando espacios
por caractersticas
Procesamiento de imgenes
Ciencias econmicas (investigacin de mercados)
www
Clasificacin de documentos.
Datos cluster weblog para descubrir grupos
similares de patrones de acceso.
47
Ejemplos de aplicaciones
Mercadeo: Descubrir diferentes grupos de clientes y
usar este K para desarrollar programas de mercadeo
Uso tierra: Identificar reas de uso de tierras similares
en una BD de observacin de la tierra.
Planeamiento urbano: Identificar grupos de casas
segn el tipo, valor, y ubicacin geogrfica
Estudios ssmicos: Observar epicentros de sismos
agrupndolos segn fallas continentales
48
Qu es un buen cluster?
Un buen mtodo de agrupamiento genera clusters de
calidad con
gran similitud intra-clase.
poca similitud entre clases.
La calidad de un cluster
depende de la medida de similitud usada as como
de su implementacin.
se mide por su habilidad de descubrir patrones
ocultos.
49
Estructuras de datos (1/2)
Matriz de datos (tabla relacional): Representa n objetos
(personas) con p variables (medidas o atributos) (edad,
sexo,)
np nj n
ip ij i
p j
x x x
x x x
x x x
... ...
... ... ... ... ...
... ...
... ... ... ... ...
... ...
1
1
1 1 11
Atributo j
del objeto i
50
Matriz disimilitud Almacena un conjunto de
proximidades que estn disponibles para todos los pares
de n objetos.
0 ... ... ) 2 , ( ) 1 , (
... ... ... ... ...
0 ) 2 , 3 ( ) 1 , 3 (
0 ) 1 , 2 (
0
n d n d
d d
d
0 ) , (
) , ( ) , (
=
=
i i d
i j d j i d
Estructuras de datos (2/2)
51
Ejemplo (1/3)
Capacidad de
absorcin agua
(cm
3
de H
2
O/cm
3

de tierra)
Materia orgnica
(% de tierra por
peso)
Parcela 1 10 5
Parcela 2 20 20
Parcela 3 30 10
Parcela 4 30 15
Parcela 5 5 10
52
P1 P2 P3 P4 P5
P1 0
P2 18.0 0
P3 20.6 14.1 0
P4 22.4 11.2 5.00 0
P5 7.07 18.0 25.0 25.5 0
07 . 7 ) 10 5 ( ) 5 10 ( ) 5 , 1 (
2 2
= + = p p d
a
b
2 2
b a c + =
Ejemplo (2/3)
53
Espacio de atributos
5 10 15 20 25 30
20
15
10
5
0
Capacidad de
absorcin
Materia orgnica
p3
p4
p2
p1
p5
Ejemplo (3/3)
54
Mtrica disimilitud/similitud
Similitud se expresa en trminos de una funcin de
distancia -mtrica:


Las definiciones de las funciones de distancia son muy
diferentes al considerar variables de
proporcin
categricas
booleanas
intervalos
) , ( j i d
55
Tipos de datos en clusters
Variables de intervalos
Variables binarias
Variables de
proporcin
ordinales {general, coronel,}

nominales (sin orden) {azul, amarillo,}
Variables de tipos mixtos
} 50 20 { s s ij x
} 1 , 0 { e i x
Bt Bt
Ae Ae

o
56
Variables de intervalos
Son medidas continuas de escala casi lineal
Peso, altura; coordenadas de longitud, latitud
(aglomerados de casas); temperatura del tiempo,
La unidad de medida que se use puede afectar el anlisis
de clusters.
Pasar de metros a pies para altura puede dar
estructuras de clusters muy diferentes. Se pueden
estandarizar las unidades de medidas, lo que provoca
que todas las variables tengan igual peso, pero no
siempre es el caso.
57
Cmo estandarizar datos (1/2)?
Dadas medidas para una variable t, se puede hacer as:
1. Calcular la desviacin absoluta media:
) ...
1
2 1 nj j j
j x x (x
n
m + + + =
|) | ... | | | (|
1
2 1
j
nj j j
j
j t
m x m x m x
n
s + + + =
medidas de j
58
2. Calcular la medida estandarizada (z-score)



Es ms robusto usar la desviacin absoluta media
que usar la desviacin estndar.
j
j
ij
ij
s
m x
z

=
Cmo estandarizar datos (2/2)?
59
Disimilitud entre objetos
Las distancias d(i, j) se usan para medir similitud o
disimilitud entre dos objetos.
Las distancias satisfacen lo siguiente:
) , ( ) , ( ) , (
) , ( ) , (
0 ) , (
0 ) , (
j k d k i d j i d
i j d j i d
i i d
j i d
+ s
=
=
>
i
k
j
60
Distancia de Minkowski
q
q
jp ip
q
j i
x x x x j i d ) | | ... | (| ) , (
1 1
+ + =
0 ), ,... , (
) ,..., , (
2 1
2 1
> =
=
q x x x j
x x x i
jp j j
ip i i
61
Distancia de Manhattan
q = 1
| | ... | | ) , (
1 1 jp ip j i
x x x x j i d + + =
62
Distancia Euclideana
q = 2
) | | ... | (| ) , (
2 2
1 1 jp ip j i
x x x x j i d + + =
63
Pesos en las medidas
Si se asigna un peso a cada variable segn su importancia
percibida, la distancia Euclideana con peso sera:
2 2
1 1
1 | | ... | | ) , (
jp ip
p
j i
x x w x x w j i d + + =
64
Variables binarias: dos estados 0 y 1
Cmo calcular la disimilitud entre objetos descritos por
variables binarias simtricas o asimtricas?
Una tabla de contingencia para datos binarios
O
j
O
i
1 0 Suma
1 q r q + r
0 s t s + t
Suma q + s r + t p
q es # variables = 1
para los dos objetos,
r es # variables = 1
para el objeto i y 0
para el objeto j,..
El # total de variables
es p = q + r + s + t
65
Variables binaria simtricas
Cuando ambos estados son valuados igual y tienen el
mismo peso.
Atributo sexo: masculino, femenino
La similitud en variables binarias simtricas se llama
similitud invariante, en donde el resultado no cambia
cuando las variables binarias se codifican en forma
diferente.
El coeficiente ms conocido para similitudes invariantes
es el coeficiente de pareo simple.
t s r q
s r
j i d
+ + +
+
= ) , (
66
Variable binaria asimtrica
Si los resultados de los estados son de importancia
diferente
Los resultados positivos y negativos de un examen
de una enfermedad
Por convencin se considera el ms raro como el ms
importante como 1 (HIV positivo) y otro como 0 (HIV
negativo)
Dados dos variables binarias, el acuerdo de dos 1
(correspondencia positiva) se considera ms
significativa que dos 0.
El coeficiente ms conocido es el coeficiente de Jaccard
s r q
s r
j i d
+ +
+
= ) , (
67
Ej. Distancia entre variables binarias (1/2)
Nombre Sexo Fiebre Tos Ex-1 Ex-2 Ex-3 Ex-4
Juan M S N P N N N
Mara F S N P N P N
Jos M S S N N N N

Id del objeto
S = si = 1
P = positivo = 1
N = negativo = 0
68
75 . 0
2 1 1
2 1
) , (
67 . 0
1 1 1
1 1
) , (
33 . 0
1 0 2
1 0
) , (
=
+ +
+
=
=
+ +
+
=
=
+ +
+
=
mara carlos d
carlos juan d
mara juan d
Es improbable que Carlos y Mara
tengan la misma enfermedad ya que
tienen el mayor valor de disimilitud.
Lo ms probable es que Juan y
Mara tengan la misma
enfermedad.
Ej. Distancia entre variables binarias (2/2)
69
Variables nominales
Generalizacin de variables binarias con ms de 2
estados
La variable nominal color-mapa tiene 4 estados:
rojo, amarillo, azul, verde
Sea M # de estados de un variable nominal.
Los estados se pueden denotar por enteros 1, 2, , M.
Los enteros se usan para manipular los datos y no
representan ningn orden especfico.
70
Distancia entre variables nominales
Mtodo 1: Pareo simple


m : # de pareos (# de variables las cuales tienen el
mismo estado para i y j).
p : # total de variables
Se puede asignar peso para mejorar el efecto de m o
asignar mayor peso a los pareos en variables que tienen
el mayor nmero de estados.
p
m p
j i d

= ) , (
71
Mtodo 2: Usar un nmero grande de variables binarias
Codificarlas va variables binarias asimtricas creando
una nueva variable para c/u de los M estados nominales.
Un objeto con un valor de estado dado, la variable
binaria que representa tal estado se hace 1, y las
restantes 0.
P.e. para codificar color-mapa, se puede crear una
variable binaria para cada uno de los cuatro colores.
Para el objeto con color amarillo, la variable amarillo
se hace 1, y para el resto se hace 0.
Distancia entre variables nominales
72
Variables ordinales
Una variable ordinal discreta se asemeja a una nominal,
excepto que los M estados del valor ordinal estn
ordenados en una secuencia significativa.
Las variables ordinales se usan mucho para registrar
evaluaciones subjetivas de calidades que no se pueden
medir objetivamente.
Por ejemplo: profesor, adjunto, asociado, catedrtico.
Una variable ordinal continua es un conjunto de datos
continuos de un escala desconocida, es decir, es
esencial el orden relativo pero su magnitud actual no.
P.e. el ranking de un deporte: oro, plata, bronce es
quizs ms importante que los valores actuales de una
medida particular.
73
Cmo manejar variables ordinales?
Sea t una variable de un conjunto de variables
ordinales que describen n objetos.
Pasos para el clculo de la disimilitud con respecto a t
:
74
Cmo manejar variables ordinales?
1. El valor de t para el i-simo objeto es x
it
, y t tiene M
t

estados ordenados.
Reemplazar x
it
por su correspondiente rango, r
it
e{1,
, M
t
}.
75
Cmo manejar variables ordinales?
2. Cada variable ordinal puede tener = estados, as, es
necesario mapear el rango de cada variable en [0, 1]
para que toda variable tenga un mismo peso.
Esto se logra reemplazando r
it
por:
1
1

=
t
it
it
M
r
z
76
Cmo manejar variables ordinales?
3. La disimilitud se puede calcular usando algunas de las
medidas de distancia vistas, con z
it
para representar el
valor t del i-simo objeto
77
Variables de proporciones
Una variable de proporciones crea una medida positiva
sobre una escala no lineal, siguiendo la frmula
Ae
Bt
o Ae
-Bt

A y B son constantes positivas.
Crecimiento de una poblacin de bacterias.
Descomposicin de un elemento radioactivo.
78
Distancia entre objetos de este tipo
1. Tratar las variables de proporciones como de
intervalos. No es una buena escogencia porque es
probable que la escala se distorsione.
2. Aplicar transformacin logartmica a la variable de
proporcin t usando
y
it
= log(x
it
)
Tratar x
it
como datos ordinales continuos y sus
rangos como intervalos.
79
Principales enfoques de clusters
Algoritmos de particionamiento: crear varias
particiones y evaluarlas bajo algn criterio.
Algoritmos de jerarquas: crear descomposicin
jerrquica del CD bajo algn criterio.
Basado en densidad: basado en conectividad y
funciones de densidad.
Basado en cuadrcula: basado en una estructura de
varios niveles de granularidad
Basado en modelo: Se hace un modelo A se hace
hiptesis para cada uno de los clusters y la idea es
encontrar el mejor ajuste de tal modelo con cualquier
otro
80
Concepto bsico de algoritmos
Dada una BD de n objetos y k, # de clusters que la
forman.
Un algoritmo de particionamiento organiza los objetos
en k particiones (k s m), cada particin representa un
cluster.
Los clusters se forman para optimizar un criterio
objetivo de particionamiento, (funcin de similitud o
distancia) t.q. los objetos de un cluster son similares,
mientras que los objetos de clusters diferentes son
dismiles en trminos de los atributos de la BD.
81
El k-means
El k-means es el algoritmo ms usado.
En este caso k se refiere al hecho de que se trabajar
k clusters, los que se define en trminos de proximidad
de puntos de datos entre s.
Se ejemplifica con puntos en el plano (x
1
,x
2
), pero se
puede ampliar a cualquier cantidad de dimensiones
( x
1
, x
2
,, x
n
)
82
Los tres pasos del k-means
1. El algoritmo selecciona k puntos semillas.
Cada uno de las semillas es un cluster semilla embrionario
con un solo elemento.
El ejemplo se limita a k = 3.
2. Asignar cada registro a la semilla ms cercana.
Una forma de hacer esto es determinar los lmites entre los
clusters, (ver figura)
Los lmites entre dos clusters son los puntos que estn
igualmente cercanos a cada cluster
Dados dos puntos, A y B, todos los puntos que le son
equidistantes caen en una lnea (bisector perpendicular) que
es perpendicular a la que conecta A y B y est en medio de
los dos puntos.
83
Los tres pasos del k-means
84
El algoritmo puede manejar situaciones de n dimensiones.
En la prctica, el algoritmo al determinar los lmites actuales
entre los clusters es til para mostrar geomtricamente el
proceso.
En el caso, del registro dentro de la caja, el mismo se asigna a la
semilla 2, debido a que es la que est ms cerca.
A esta altura, cada punto se asigna a una sola semilla, generando
tres clusters.
3. Calcular los centroides de los clusters: stos mejor caracterizan
los clusters que la semillas iniciales.
Determinar los centroides es fcil: tomar el valor promedio de
cada dimensin para todos los registros en el cluster.
Los centroides se denotan con cruces en la figura. Las flechas
muestran el movimiento que se da de la semilla general al
nuevo centroide, en cada cluster.
Los tres pasos del k-means
85
Los tres pasos del k-means
86
What K means
Los clusters describen una estructura de datos
fundamental. Sin embargo, no se tiene una descripcin
correcta para tal estructura.
Por ejemplo, alguien que no sea de New York, podra
pensar que el centro es toda la ciudad. Alguien de
Brooklyn puede aplicar esta nomenclatura a Manhattan.
Dentro de Manhattan, se puede solo considerar los
alrededores a la 23rd Street. Y reservar como centro de
ciudad solo a los edificios altos de la parte sur de la
isla.
Existe un problema similar con los clusters; las
estructuras existen en diferentes niveles.
87
What K means
88
Observacin
Las descripciones de k-means estn sujetas a la escogencia
de k.
Despus de cada prueba, se puede evaluar el poder los
clusters resultantes, haciendo una comparacin de la
distancia promedio entre clusters.
Estas pruebas puede ser automticas, pero los clusters deben
tambin evaluarse en una base ms subjetiva para
determinar su utilidad para una aplicacin dada.
En la figura siguiente diferentes valores de k pueden
conducir a aglomerados muy diferentes que son igualmente
vlidos
La figura muestra aglomerados de una baraja de cartas para
k = 2 y k = 4. Es mejor uno que el otro? Depende en qu se
va a usar o aplicar.
89
90
Mtodo K-means: Algoritmo
1. escoger k objetos en forma arbitraria como centros de
los clusters iniciales
2. repetir
3. (re)asignar cada objeto al cluster cuyo objeto
es el ms similar basado en el valor medio
de los objetos en el cluster;
4. actualizar los trminos medios de los clusters,
i.e., calcular el valor medio de los objetos
para cada cluster;
5. hasta que no se den cambios
91
k = 2
Escoger 2 objetos
como centros
iniciales de
clusters
Asignar
cada
objeto al
centro
ms afn
Actualizar
el medio del
cluster
reasignar
Mtodo K-means: Ejemplo
reasignar
Actualizar
el medio
del cluster
Actualizar
el medio del
cluster
92
Aglomerado jerrquico
Se agrupan los objetos de datos en un rbol de clusters.
Los mtodos jerrquicos se pueden clasificar en
aglomerativos o divisivos, segn la descomposicin
jerrquica se hace de forma bottom up o top down.
Aglomerativo. Estrategia bottom up que inicia ubicando
cada objeto en su propio cluster y luego combinando
estos clusters atmicos, en cluster cada vez ms grandes,
hasta que todos los objetos estn en un simple cluster o
hasta que satisfagan ciertas condiciones de terminacin.
93
Divisivo. Estrategia top down es la reversa del
aglomerativo.
Se subdivide en clusters cada vez ms pequeos hasta
que cada objeto forma un cluster propio o hasta que
satisfaga ciertas condiciones de terminacin, como
obtener el nmero deseado de clusters o la distancia
entre dos clusters encerrados est por encima d eun
cierto umbral de distancia
Aglomerado jerrquico
94
Usar la matriz de distancia como criterio de cluster. Este mtodo
no requiere el nmero k de clusters como una entrada, pero
requieren una condicin de terminacin
aglomerativo
(AGNES)
divisivo
(DI ANA)
Paso 0 Paso 1 Paso 2 Paso 3 Paso 4
Paso 4 Paso 3 Paso 2 Paso 1 Paso 0
Aglomerado jerrquico
a b c d e
c d e
a b
d e
e
d
c
b
a
95
AGNES (Agglomerative Nesting) (1990)
Construido en paquetes de anlisis estadsticos, e.g., S+
Usa el mtodo Single-Link y la matriz de disimilitud.
Combina nodos que tienen la mnima disimilitud
Va de una forma no descendente
Eventualmente todos los nodos pertenecen al mismo cluster
96
Dendrograma muestra combinacin
de clusters en jerarqua
Descomponer objetos de
datos en varios niveles de
particionamiento anidado
(rbol de clusters), llamado
un dendrograma
Un cluster de objetos de datos
se obtiene recortando el
dendrograma en el nivel
deseado, entonces cada
componente conectado forma
un cluster
97
DIANA (Divisive Analysis) (1990)
Construido en paquetes de anlisis estadsticos, p.e., S+
Orden inverso de AGNES
Eventualmente cada nodo forma un cluster propio
98
Hallazgo solitarios: Enfoques
estadsticos
Asumir un modelo de distribucin
fundamental que genere CD (p.e.
distribucin normal)
Valores datos
Lmites
95% de Area
95% confianza
2.5%
Usar pruebas de discordancia dependiendo de
La distribucin de los datos
Parmetros de distribucin (p.e., media, varianza)
Nmero esperado de solitarios
Desventajas
Se hacen muchas pruebas para un simple atributo
En muchos casos, puede que no se conozca la distribucin de
los datos
99
Clusters en una ciudad

100
Ubicacin de un conjunto de cajeros
automticos
Montaa
Ro
Datos espaciales
con obstculos
C1
C2
C3
C4
Clusters sin
considerar los obstculos
101
Clusters
(Segmentacin de datos)
102
Anlisis de solitarios (outlier)
Objeto de una BD que no cumple con el comportamiento
general establecido.
Algunos mtodos lo consideran como ruido.
En algunas aplicaciones deteccin de fraudes- las
excepciones son fundamentales.
Un solitario puede detectarse va test estadsticos, o va
medidas de distancia es solitario si se encuentra a un
distancia importante de cualquier aglomerado-.
103
Agenda
1. Preliminar
2. Definicin del concepto
3. Tcnicas de Minera de Datos
4. Minera de Datos en la Inteligencia de Negocios
5. Minera de Datos en el CRM
6. Minera de Datos en el e-commerce
7. Requisitos en la Minera de Datos
8. Tendencias
104
Procesos, tecnologas y herramientas necesarias
para convertir los datos en informacin, la
informacin en conocimiento, y el conocimiento en
planes para orientar acciones empresariales
fructferas.
Definicin de
Inteligencia de negocios
105
Buscar el entendimiento
completo de la empresa
PASADO PRESENTE FUTURO
Confianza
106
Sino la empresa se va a
enfermar
Productos no
rentables
Insatisfacci
n de los
clientes
Cmo son
nuestro
clientes?
Por qu tan
bajas las
ventas en el
sector
norte?
107
Sntomas
Falta de asignacin de
responsabilidades
Falta de visin
Sin datos oportunos y exactos
para la toma de decisiones
109
Minera de Datos en el
Ambiente BI
BDO
Legados
Legados
Legados
BDO
BDO
ETL
KM
AD
OLAP
Minera de Datos
Diseo
110
La Minera de Datos trabaja
con Almacenes
El Almacn de Datos
brinda memoria a la
empresa
La Minera de
Datos brinda
inteligencia a la
empresa
111
Agenda
1. Preliminar
2. Definicin del concepto
3. Tcnicas de Minera de Datos
4. Minera de Datos en la Inteligencia de Negocios
5. Minera de Datos en el CRM
6. Minera de Datos en el e-commerce
7. Requisitos en la Minera de Datos
8. Tendencias
112
Definicin de CRM
Enfoque de servicio al cliente que se enfoca en la
construccin de una relacin con el cliente duradera
y sostenible que adicione valor tanto al cliente como
a la empresa
113
Ciclo de vida del cliente
Las etapas en la relacin entre un cliente y un negocio
Etapas clave en la vida de ciclo de un cliente
Prospectos: personas que aun no son clientes pero se
encuentran dentro del mercado meta
Contestadores: prospectos que muestran inters en un
producto o servicio
Clientes activos: personas que actualmente hacen uso de
un producto o servicios
Ex clientes: pueden ser malos clientes que no pagan
sus facturas o que hacen incurrir en altos costos
Es importante conocer los eventos del ciclo de vida (por
ejemplo retiro)
114
Los mercaderes desean
Incrementar las ventas y rentabilidad de sus clientes.
Up-sell.
Cross-sell.
Manteniendo los clientes por largo tiempo.
Solucin: Aplicar la Minera de Datos
La Minera de Datos ayuda a
Determinar el comportamiento circundante de un evento de
ciclo de vida particular.
Determinar otras personas en etapas de vida similares y
determinar cules clientes seguirn con patrones de
comportamiento similares.
Ciclo de vida del cliente
115
Minera en CRM
Administracin de
campaas
Perfil del cliente
Almacn
de Datos
Informacin
sobre el ciclo de
vida del cliente
116
Agenda
1. Preliminar
2. Definicin del concepto
3. Tcnicas de Minera de Datos
4. Minera de Datos en la Inteligencia de Negocios
5. Minera de Datos en el CRM
6. Minera de Datos en el e-commerce
7. Requisitos en la Minera de Datos
8. Tendencias
117
Definicin del e-commerce
Describe los procesos de comprar, vender, transferir o
intercambiar productos, servicios y/o informacin por medio
de redes computadoras, incluyendo la Internet
118
Agenda
1. Preliminar
2. Definicin del concepto
3. Tcnicas de Minera de Datos
4. Minera de Datos en la Inteligencia de Negocios
5. Minera de Datos en el CRM
6. Minera de Datos en el e-commerce
7. Requisitos en la Minera de Datos
8. Tendencias
119
Minera de datos: Extraccin
de conocimiento
120
Extraccin y
limpieza de datos
Extraer datos de datos operacionales y de legados
Asuntos:
Fuentes de datos para el warehouse
Calidad de los datos en las fuentes
Combinar diferentes fuentes de datos
Transformacin de datos
Cmo propagar actualizaciones (en las fuentes) al
Almacn de Datos
TB de datos que deben ser cargados
121
Lavado de datos
Herramientas sofisticadas de transformacin
Usadas para limpiar la calidad de los datos
La limpieza es vital para el xito del DW
Ejemplo
Gonzlez C.,
Carlos Alberto Gonzlez,
El papucho Gonzlez
C.A. Gonzlez A., es la misma persona
122
Los datos...
Deben integrarse dentro de la empresa
Resumen tienen un valor real para la organizacin
Histricos es la llave para entender los datos en el tiempo
123
Requisitos para la Minera de
Datos
Agregacin o resumen
Induccin orientada a los
atributos
Nombre Sexo Car Lug-nac Fec-nac Dir Tel PP
J. Helo
E. Salas
L. Lara

M
M
F

CC
CC
FI

Alajuela
Heredia
Limn

8-12-76
28-7-75
25-8-70

Cartago
Heredia
San Jos

123
456
678

80
85
90

124
Agenda
1. Preliminar
2. Definicin del concepto
3. Minera de Datos en la Inteligencia de Negocios
4. Minera de Datos en el CRM
5. Minera de Datos en el e-commerce
6. Requisitos en la Minera de Datos
7. Tcnicas de Minera de Datos
8. Tendencias
125
Tendencias
Minera de Datos en Web
Minera de Datos en multimedios
Seguridad y confidencialidad
Minera de Datos en ambientes distribuidos

Jams voy a desperdiciar la
memoria en cosas que pueden
almacenarse y recuperarse en
algn otro sitio
Albert Einstein