Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
17
fuentes, y fue concebida como una metodologa abierta, lo cual significa que no
esta basada en una herramienta especifica, contrario de lo que ocurre con
SEMMA, pues esta fue definida para la herramienta SAS Intelligent Miner [Gon04].
Por esta razn, en este primer capitulo se hace un hincapi en la metodologa
CRISP-DM, identificando y analizado cada una de sus etapas, las tareas que se
encuentran en cada una de estas y los resultados que se obtienen despus de
realizar las tareas [CCK+00]. Junto con la descripcin y el anlisis de esta
metodologa, se presentan a su vez un conjunto de mejores prcticas o tips que
servirn de gua o referencia a las organizaciones que deseen seguir esta
metodologa en sus proyectos de minera de datos.
18
19
Tcnicas
Ejemplos
Clasificacin:
La tarea o problema de clasificacin consiste
bsicamente en examinar cada uno de los
atributos o caractersticas que se tengan de una
elemento dado, basado en estas
caractersticas o atributos, realizar un estudio
para identificar la categora o clase a la cual
podr ser asignado. Cada una de estas clases
o categoras deben estar previamente
identificadas y definidas.
Despus de que se tengan las clases definidas,
se podr catalogar cada nuevo elemento que se
tenga dentro de alguna de las clases dadas.
1. rboles de decisin
Predictiva
1. rboles de decisin
2. rboles de decisin CART.
3. Redes neuronales.
4. Vecino ms cercano (K Nearest
Neighbor).
5. Anlisis de vnculos (Link Anlisis)
6. funciones de base radial (RBF)
20
7. Reglas de asociacin.
8. regresin logstica y polinomial
9. rboles de Regresin
10. Mtodo Box-Jenkins
11. Algoritmos Genticos
12. Modelos de regresin.
13. Series de Tiempo
Descriptiva
1. Reglas de asociacin.
2. Regresin logstica.
3. Pruebas de independencia
4. Pruebas de bondad de ajuste
5. Algoritmos genticos y evolutivos
6. Reglas CN2 (cobertura)
7. Anlisis de Correlacin
8. Redes Bayesianas
9. programacin lgica inductiva
21
Agrupamiento (Clustering):
Esta tarea consiste en segmentar una poblacin
heterognea en un nmero de subgrupos o
clusters homogneos. La diferencia entre
clustering y clasificacin es que el primero no
se apoya en clases predefinidas. El
agrupamiento divide la poblacin en clases,
donde cada uno de los miembros de cada clase
tiene similitudes con otro miembro de la misma
clase.
1. Redes neuronales.
2. Redes de kahonen.
3. Kmeans
4. Vecinos ms prximos.
5. Twosteb, cobweb
6. Algoritmos genticos y evolutivos
7. Maquinas de vectores soporte.
22
23
AG de Alemania, SPSS de
(Sample, Explore, Modify, Model, Assess), fue desarrollada por SAS institute y
la define como una herramienta que ayuda a los usuarios en los procesos de
seleccin, exploracin y modelacin de cantidades significativas de datos
almacenados, para as poder responder a preguntas o predecir eventos que
pueden pasar.
Segn SAS, mas que una metodologa de procesos de minera de datos,
SEMMA se puede identificar como un conjunto de herramientas funcionales,
enfocndose mas en los aspectos del desarrollo del modelo de minera de
datos [Sas05].
A continuacin se presentan las fases de esta metodologa con sus
caractersticas esenciales2.
http://www.sas.com/technologies/analytics/datamining/miner/semma.html
24
Sample
25
Assess
26
27
28
29
30
Es significativo saber cuales son los riesgos o eventos que pueden retardar
o atrasar el proyecto o aquellos que lo podran hacer fallar, y tener para
cada uno de estos riegos un plan de contingencia, para saber como actuar
en caso de que se presente estos riegos.
Se debe hacer un glosario con la terminologa relevante para el proyecto,
sea terminologa del negocio o terminologa de la parte de minera.
Por ultimo y no menos importante se debe construir un anlisis de costo
beneficio para el proyecto, la idea es saber si el negocio es exitoso en
cuanto a esta parte [BeL04].
C. Determinar los objetivos de minera de datos
Una meta del negocio indica los objetivos en trminos del negocio. Una
meta de minera de datos indica los objetivos del proyecto en trminos
tcnicos. [CCK00]
Se debe traducir el problema del negocio en un problema de minera de
datos, por lo cual debe ser reformulado en trminos de alguna de las tareas
de la minera. Como por ejemplo: clasificacin, pronstico, segmentacin o
asociacin [BeL04]. Estas tareas de minera de datos fueron presentados
en la tabla 1 de este capitulo, donde se enfatiza en las tareas de minera de
datos y las tcnicas mas utilizadas para resolverlas.
Los resultados de esta tarea son dos. Primero se debe describir las salidas
previstas del proyecto que permiten el logro de los objetivos de negocio y
segundo se deben definir los criterios para un resultado exitoso del proyecto
en trminos tcnicos [CCK00].
31
32
33
34
para
realizar
observaciones
identificar
posibles
casos
35
36
37
38
39
Las agregaciones se refieren a las operaciones en donde nuevos valores son calculados por la extraccin
de informacin de mltiples registros y/o tablas.
40
41
42
los
cuales
deben
ser
ajustados,
con
sus
valores
43
44
revisar los pasos ejecutados para la construccin del modelo y estar seguros
de que se lograran correctamente los objetivos del negocio [CCk00].
Una de las formas de evaluar los resultados obtenidos de un proyecto de
minera, es evaluando con respecto a costos y beneficios obtenidos con
determinado modelo [Luc06]. Este es uno de los mecanismos ms utilizados
por lo general para evaluar resultados obtenidos con varios modelos.
En el proceso de evaluacin se realizan las siguientes actividades:
A. Evaluar los resultados de negocios
Las evaluaciones hechas en tareas anteriores se realizaban en trminos de
la precisin y generalidad del modelo. En esta tarea se evala el grado en el
cual el modelo satisface los objetivos del negocio y busca determinar si hay
alguna razn del negocio del porque el modelo seria deficiente [CCk00].
El primer resultado de esta tarea es un resumen con los resultados de la
evaluacin en trminos de los criterios de xito del negocio [Luc06],
incluyendo una declaracin final diciendo si el proyecto satisface los
objetivos iniciales del negocio.
El segundo resultado son los modelos aprobados. Despus de la evaluacin
de los modelos respecto a los criterios de xito, los modelos generados que
cumplen con estos criterios se convierten en aprobados [Luc06].
B. Revisar los procesos
En este punto es apropiado hacer una revisin ms minuciosa del proceso
de minera de datos para determinar si una tarea o factor importante ha sido
pasado por alto [Lar06].
45
46
47
48
49
50
51
2.
52
del mundo, no se puede verificar que de esta forma como se presentan los casos
y como se construyeron, si fue la forma que la empresas emplearon para
levantarlos.
Lo que se muestra es un camino posible a seguir para construir proyectos de este
tipo, siguiendo una metodologa, la cual se considera un estndar para este tipo
de tareas y utilizando una de las herramientas especificas de minera de datos.
Los nombres utilizados en los distintos casos son ficticios. Pues como se
mencionaba anteriormente, la documentacin que se consigui de los datos reales
fue muy poca como para poder ilustrar el proceso de minera que estas empresas
siguieron, por lo cual se prefiri usar otros nombres, pero utilizando cierta
informacin de las fuentes reales.
2.1.
Este caso muestra el proceso que se sigui para sacar perfiles de pacientes que
tienen trombosis y que tienen pronsticos o comportamientos similares.
La tarea de minera de datos que se utilizo en este caso fue la de segmentacin y
se utilizo la herramienta DB2 Intelligent Miner for Data para el desarrollo del
proyecto de IBM.
53
Para ver la informacin real de la organizacin base, se puede dirigir al documento: Microsoft SQL Server
2005 data mining helps Clalit preserve health and save lives. [SQL05]
6
Ver referencia bibliografica [BAB+01]
54
55
Estos autores tambin mostraron que existen diversas pruebas cada una de las
cuales tiene ciertas ventajas y limitaciones, para diagnosticar la presencia de DVT.
La ms antigua de estas pruebas es la venografia. Esta prueba es hecha
inyectando un fluido opaco a la radiacin en una vena que por lo general esta
localizada en la parte superior de pie. El tinte fluye con la sangre y llena las venas
de la pierna as como las del muslo. Un coagulo obstructor en una de estas venas
puede ser visto mediante rayos X, como un rea libre de color dentro de la vena.
La venografia es el examen mas preciso para identificar DVT, pero es doloroso,
caro y ocasionalmente causa una inflamacin dolorosa en las venas. Adems
requiere de un alto grado de habilidad para ejecutar e interpretarlo correctamente.
El reto fue realizar un proyecto de minera de datos para entender como tratar de
mejorar el cuidado de los pacientes.
El primer desafi fue encontrar grupos de pacientes que fueron diagnosticados
con DVT tratando de encontrar similitudes en su comportamiento. Y tambin se
espera detectar indicadores nuevos y tiles que se puedan derivar del anlisis que
se va a realizar.
La pregunta7 que se formulo y que se quiso responder con este estudio fue: que
grupo de pacientes comparten una conducta similar durante un diagnostico de
DVT?
2.1.2. Comprensin y preparacin de los datos a utilizarse:
Los datos fundamentales fueron recolectados por la red de hospitales. Cada
paciente era enviado al centro medico como recomendacin por su doctor o por un
terapeuta del hospital. Luego la persona se examina para comprobar si tiene
56
Tipo de Variable
Categrica
Categrica
Categrica
Categrica
Date_of_del
Categrica
Admisin
Categrica
Dia_2
Categrica
Fuente: [BAB+01]
Descripcin
Identificacin del paciente
Genero del paciente
Cumpleaos del paciente
El primer da que el paciente fue
registrado
La fecha cuando el paciente fue al
hospital.
Indica si el paciente fue admitido en el
hospital o fue remitido desde otro.
Diagnostico
57
Datos de las pruebas medicas: los datos son exmenes de laboratorio que
fueron medidos por el hospital. Estos datos solo cubren un subgrupo de los
pacientes. A continuacin se muestra la lista de variables que fueron registradas
cuando una prueba de trombosis se realizaba en el hospital. [BAB+01]
Tabla 3. Lista de las variables de pruebas medicas.
Variable
Id
EXAMINATION_
DATE
ACL_IGL
Tipo de Variable
Categrica
Categrica
Descripcin
Identificacin del paciente.
Fecha cuando el examen fue hecho
Numrica
ACL_IGM
Numrica
ACL_IGA
Numrica
ANA_PATTERN
Diagnostico
KCT
RVVT
LAC
sntomas
trombosis
Categrica
Categrica
Binaria
Binaria
Binaria
Categrica
Categrica
Anti-cardiolipin concentracin de
inmunoglobina tipo G.
Anti-cardiolipin
concentracin
de
inmunoglobina tipo M.
Anti-cardiolipin
concentracin
de
inmunoglobina tipo A.
Concentracin de anticuerpos antinucleares.
Diagnostico.
Medida del grado de coagulacin para KCT
Medida del grado de coagulacin para RVVT.
Medida del grado de coagulacin para LAC
Otros sntomas observados
Trombosis
Fuente: [BAB+01]
Los siguientes, son algunos de los trminos que los autores definieron para tener
un mejor conocimiento de las variables de pruebas mdicas:
Inmunoglobina (lg): es una protena producida por los linfocitos B en su forma
unida a la membrana celular. Inmunoglobulina es una parte esencial del sistema
inmunolgico que ataca sustancias extraas o agentes como bacterias. Algunas
clases de inmunoglobulinas son por ejemplo la A, M y G.
ANA: es la abreviatura de anticuerpos antinucleares que estn dirigidos contra la
estructuras dentro del ncleo de las clulas. El ncleo es el centro interno dentro
de cada clula del cuerpo, este contiene el material gentico.
58
Los ANA son encontrados en pacientes que cuyo sistema inmunolgico puede
estar predispuesto para causar inflamacin contra su propio tejido. La
predisposicin para que el sistema inmune trabaje contra su propio cuerpo hace
referencia a la auto inmunidad.
KCT, RVVT y LAC: son variables binarias que indican cualquier valor de anlisis
sea alto o bajo.
Sntomas: se refiere a otros diagnsticos, contiene por ejemplo si el paciente
presento infarto cerebral, epilepsia, o CVA. CVA es la muerte sbita de algunas
clulas del cerebro, debido a la falta de oxigeno, cuando el flujo de sangre al
cerebro se ve deteriorado por un bloqueo o ruptura de una arteria al cerebro.
Pruebas medicas histricas: los datos histricos estn basados en resultados de
anlisis que fueron hechos en el pasado. A continuacin se muestran las variables
de estas pruebas. [BAB+01]
Tabla 4. Lista de las variables de pruebas medicas histricas.
Variable
ID
Fecha
GOT
GPT
LDH
ALP
TP
ALB
UA
UN
CRE
T-BIL
T-CHO
TG
CPK
C4
WBC
Tipo de Variable
categrica
categrica
continua
continua
continua
continua
continua
continua
continua
continua
continua
continua
continua
continua
continua
continua
continua
Descripcin
Identificacin del paciente
Fecha cuando el examen fue realizado
trans aminasa glutamin oxaloacetica
trans aminasa glutamin pylvic
lactato deshidrogenada
Fosfato alcalino
Numero total de protenas.
Albumina
Acido urico
Nitrogeno ureico
Creatinina
Bilirrubina
Colesterol
Triglicridos
Creatinina fosfoquinasa
Complemento 4
Numero de glbulos blancos en un volumen de
sangre
59
RBC
HGB
HCT
PLT
IGG
continua
continua
continua
continua
continua
Fuente: [BAB+01]
Los siguientes, son algunos de los trminos que los autores definieron para tener
un mejor conocimiento de las variables de pruebas mdicas histricas:
LDH (lactato deshidrogenasa): es una enzima que cataliza la conversin de lactato
a piruvato. Este es un importante paso en la produccin de energa en las clulas.
Muchos tipos diferentes de clulas en el cuerpo contienen esta enzima. Algunos
de los rganos relativamente ricos en LDH son el corazn, los riones, el hgado y
los msculos.
T-ALB (albmina): es la principal protena de la sangre humana y la llave para la
regulacin de la presin osmtica de la sangre.
Creatinina: es una molcula de desperdicio qumico que es generada por el
metabolismo del msculo. Es producida por la creatina, una molcula de mayor
importancia para la produccin de energa en los msculos. Creatinina es
transportada a travs del flujo de sangre a los riones. Los riones filtran la
creatinina y se deshace de esta en la orina.
T-BIL (bilirrubina): es un componente de color amarillo-naranja producido por la
falla de hemoglobina desde RBC.
RBC (glbulos rojos): son las clulas que cargan el oxigeno y el dixido de
carbono a travs de la sangre.
HGB (hemoglobina): es un pigmento en los glbulos rojos. Forman un lazo
irreversible
con
el
oxigeno.
En
este
60
estado
oxigenado
son
llamados
61
Existia un problema similar con las variables Examinacion_Date la cual tiene 454
valores diferentes y Diagnostico tiene 187 valores diferentes. Ambas son variables
categricas, y el uso de este tipo de variables con muchos valores es un factor
62
Dia2P:
contiene
trminos
mdicos
mas
generalizados,
como
es
especificado en el diagnostico.
La ventaja de contar con variables numricas, es que son ms fciles de
Interpretar.
En el caso de las variables histricas, era mejor tener una buena claridad en las
variables. Esto porque los valores normales y anormales eran conocidos, y era
mas fcil discretizar las variables correspondientes. Esas discretizaciones fueron
aplicadas con base a las fuentes mdicas convenientes, encontradas por los
autores.
Tabla 5.Rangos normales de las variables, mediante los cuales se hizo la
discretizacion de algunas variables.
Variable
GOT_D
GPT_D
LDH_D
ALP_D
TP_D
ALB_D
UA_D
UN_D
CRE_D
TBIL_D
TCHO_D
TG_D
GOT_D
CPK_D
C4_D
WBC_D
RBC_D
HGB_D
HCT_D
PLT_D
Rangos Normales
GOT < 60
GPT < 60
LDH < 500
ALP < 300
TP_D 6.0 < TP < 8.5
3.5 <= ALB < 6.5
UA > 6.5
UN < 30
CRE < 1.5
TBIL < 2.0
TCHO < 250
TG < 200
GOT < 60
CPK < 250
C4 > 10
3.5 <= WBC < 9.0
3.5 <= RBC < 6.0
10 <= HGB < 17
29 <= HCT < 52
100 <= PLT < 400
63
IGG_D
Fuente: [BAB+01]
64
10
Ver el libro Mining Your Own Business in Health Care Using DB2 Intelligent Miner for Data para tener
una mejor descripcin de esta tcnica.
65
66
11
12
67
variables
que
fueron
removidas,
fueron
puestas
como
variables
suplementarias. [BAB+01]
Para realizar la segmentacin y encontrar segmentos con pacientes que
comparten un comportamiento similar para la trombosis se utilizo la tcnica del
clustering demogrfico con el valor condorcet [BAB+01].
13
El nivel de calidad fue de aproximadamente 81%.Pero no tenemos la evidencia bibliogrfica para juzgar a
partir de que porcentaje el modelo se puede considerar como de buena calidad. Solo nos basamos en lo que
encontramos en la fuente [BAB+01].
14
Ver [BrM05].
68
15
69
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
No. clusters
9
9
9
9
9
9
7
20
30
50
100
200
500
9
Similitud
0.5
0.6
0.7
0.8
0.85
0.9
0.6
0.8
0.8
0.8
0.8
0.8
0.8
0.5
Condorcet
0.669
0.711
0.744
0.753
0.749
0.738
0.709
0.801
0.817
0.831
0.841
0.844
0.846
0.644
15
20
0.8
0.758
16
50
0.8
0.799
Fuente: [BAB+01]
Modificacin de variables.
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
SI. Las variables suplementarias
fueron utilizadas
SI. Las variables suplementarias
fueron utilizadas
SI. Las variables suplementarias
fueron utilizadas
Para los autores fue interesante observar que los modelos 14, 15 y 16 tienen un
peor condorcet que los dems modelos que no utilizaron las variables
suplementarias. Lo que indica que le pre-procesamiento con los rboles de
clasificacin tuvo un impacto positivo en la generacin de los modelos.
70
71
Fuente: [BAB+01]
Figura 10. Resumen de la ejecucin 8 (parte 2)
Fuente: [BAB+01]
72
73
74
75
se utilizo este mismo mtodo para hacerlo con otro tipo de enfermedades y
pacientes. [BAB+01]
Los siguientes fueron los casos donde la organizacin Calit healt services aplico
este mtodo para sacar perfiles de los pacientes
Caso 1: tuberculosis16
La tuberculosis es una enfermedad causada por una bacteria llamada
mycobacrium tuberculosis o tambin tubrculo bacilos. Es propagada de persona
a persona a travs del aire por la inhalacin de partculas que contienen la
bacteria. Estas partculas son producidas cuando una persona infectada con la
bacteria exhala, como cuando esta tosiendo, estornudando, rindose, hablando o
cantando.
Las partculas infecciosas pueden permanecer suspendidas en el aire y ser
inhaladas por alguien que comparte el mismo aire. La tuberculosis es transmitida
en reas de cerradas donde la ventilacin es poca. El riesgo de infeccin aumenta
cuando se comparte el mismo aire con una persona que no esta siendo tratada.
Si el sistema inmunolgico del cuerpo no puede contener la bacteria, esta
continuara en la produccin de ms y ms bacteria. La infeccin se da en la parte
superior de los pulmones y pueden pasar varios meses para que los sntomas se
empiecen a mostrar. Estos sntomas son principalmente cansancio, debilidad,
perdida de peso, fiebre y sudor. Si la infeccin en los pulmones empeora mas
sntomas se pueden presentar como tos, dolor en el pecho, y fallas de respiracin.
Al respecto, hubo ciertos aspectos que reflejaron la necesidad de hacer perfiles:
16
76
77
pueden usar esta informacin como una fuente adicional para asegurar la salud
del paciente.
Caso 3: sistema para el manejo de un hospital18
Para el manejo del hospital, es importante conocer cuantos pacientes son
admitidos. Si la capacidad del hospital esta completa, entonces solo el servicio
medico para casos de emergencia es factible, y en un caso extremo, el paciente
no puede permanecer en el hospital para cuidados mdicos, por lo cual lo tiene
que irse, ya que no existen camas o habitaciones disponibles para una posible
operacin.
Hacer perfiles de pacientes ayudo a sobreponer problemas de capacidad, por
ejemplo:
Se supone, que se tienen los registros de los pacientes que tiene una
enfermedad parecida o similar, pero que se quedan diferentes das en el
hospital. Las razones para esto es por algo tan simple como los diferentes
estados de salud de los pacientes, si fuman o no, etc. Estas razones son
conocidas y frecuentemente dan una indicacin de cmo pueden manejar
estos casos respecto a los servicios mdicos.
Sin embargo, puede haber otras razones para que la permanencia de los
pacientes del hospital sea diferente.
Por ejemplo, pueden haber pacientes que prefieren habitaciones con
ventanas con vistas hacia el sur o el oeste, y por consiguiente tener una
mejora en general. Mientras otros pacientes prefieren estar en ventanas
18
78
con vistas hacia el norte, o el este. Claro que esto a simple vista no parece
ser algo relevante.
Como se tienen registros sobre los pacientes, que fueron enviados al
hospital. Entonces sacar perfiles de los pacientes puede ayudar, como un
instrumento adicional, para estimar que personas probablemente necesitan
quedarse en el hospital y cuales no.
Mediante las reglas generadas por los perfiles de pacientes que se tienen,
el sistema puede ayudar a predecir que grupos de pacientes tienen que
permanecer en el hospital.
Esta aplicacin bsicamente, le permiti a los hospitales y clnicas de esta
institucin contar siempre con habitaciones y quirfanos disponibles, para cuando
fuera necesario, por lo cual no haba necesidad de enviar a los pacientes a otros
centros hospitalarios. [BAB+01]
2.2.
79
80
predice
que
estos
clientes
19
81
esperado por la vista menos el costo asociado con el envi del correo, o
sea $2, lo que dara $26.40. [Lar06]
Tabla 7. Estadsticas asociadas con el monto promedio de gasto por
visita para todos los clientes.
Poblacin
Media
Mnimo
Mximo
Desviacin estndar
Mediana
Fuente: [Lar06]
28799
113.588
0.490
11,919.880
86.981
92.000
3. Falso negativo (FN): un faso negativo indica que se fallo el contacto con
un cliente que respondera positivamente a la promocin. Este error es muy
caro, por lo tanto se debe tratar de minimizar al mximo cometerlo. El costo
en el que se incurre se da cuando no se enva la promocin a una persona
que respondera afirmativamente y que gastara el promedio establecido en
la tabla 1 de $113.59, por lo cual se perdera el beneficio de $28.40
asociado con ese cliente. [Lar06]
4. Falso positivo (FP): un falso positivo significa que se contacte un cliente
que no respondera a la promocin. Lo cual no es muy costoso. El costo
asociado de contactar un cliente que no respondera es de $2 por el envi
del correo. [Lar06]
Con estos valores se puede construir la tabla de costo/beneficio para esta
promocin para la cadena RK Clothes. Esta tabla puede ayudar a decidir cual
modelo ser seleccionado como el ms optimo.
82
Clasificacin
No respondi
Respuesta actual
No respondi
Costo
$0
Verdadero
positivo
Respondi
Respondi
-$26.4
Falso
negativo
Falso
positivo
No respondi
Respondi
$28.4
Respondi
No respondi
$2
Fuente: [Lar06]
Razn
No hubo contacto, no
hay perdida de
ganancia
Ganancia estimada
menos costos de envi
de correo
Perdida de beneficio.
Materiales asociados al
envi del correo.
83
84
educacin,
propietarios
de
casas,
administradores/
profesionales.
3. Cluster 4: xito en la mitad de la vida. Familias con una altos niveles de
educacin y altos ingresos administradores/profesionales, tcnicos/ventas.
4. Cluster 16: familias rurales. Familias grandes que viven en reas rurales,
tienen niveles de educacin media, ingresos medios.
5. Cluster 8: hombres de accin y agitadores. Solteros, parejas, estudiantes y
recin graduados, alta educacin e ingresos administradores/profesionales,
tcnicos/ventas.
6. Cluster 15: gran comienzo. Jvenes, solteros y parejas. Educacin mediaalta,
ingresos
medios,
algunos
son
arrendatarios
administradores/profesionales, tcnicos/ventas.
A simple vista se nota que la cadena de tiendas atrae a personas acaudaladas y
con altos niveles de educacin, se ve que el cluster 1 es el de las personas ms
ricas y es el segundo ms predominante entre los clientes de esta cadena. [Lar06]
El caso de la variable ID del clientes, es nico para cada cliente, pero no arroja
informacin importante para predecir que clientes respondan probablemente a la
campaa de mercadeo mediante correo directo, por lo cual es omitida para futuros
anlisis. [Lar06]
85
86
Fuente: [Lar06]
La siguiente figura muestra la distribucin de la variable uniformidad de producto
despus de la transformacin del logaritmo natural. Aunque no se logra obtener
una normalidad perfecta, si se logra tener una distribucin menos sesgada,
permitiendo la aplicacin de los modelos de minera de datos. [Lar06]
Figura 12. Distribucin de la variable uniformidad de producto despus de la
transformacin.
Fuente: [Lar06]
Para las variables que indican un porcentaje, tambin aplicaron transformaciones,
pero esta vez se aplico la transformacin de la raz cuadrada. [Lar06]
87
variabilidad
entre
las
variables,
pero
siguen
existiendo
diferencias
20
88
89
Variable Obtenida
Formula
Cantidad gastada en los meses previos Cantidad gastada en los ltimos 3 meses
2 y 3.
cantidad gastada en el ultimo mes
Cantidad gastada en los meses previos Cantidad gastada en los ltimos 6 meses
4, 5 y 6
cantidad gastada en los ltimos 3
meses.
Fuente: [Lar06]
Se omitieron las variables: cantidad gastada en los tres meses pasados y cantidad
gastada en los seis meses pasados y se trabajara con: gastada en el mes pasado,
Cantidad gastada en los meses previos 2 y 3, y Cantidad gastada en los meses
previos 4, 5 y 6. [Lar06]
Explorando las relaciones entre las variables predictoras y la respuesta
El siguiente paso fue averiguar variable por variable la asociacin entre las
variables predictoras y la variable objetivo (respuesta a la campaa de mercadeo).
Lo ideal era hacerlo con cada variable, pero como esta tarea es un poco tediosa,
porque el conjunto de datos era muy grande. Sin embargo si se utilizaron ciertos
caminos para examinar aquellas variables mas tiles para la prediccin. [Lar06]
La herramienta que muestra Larose para examinar cuales variables eran ms
tiles fue la de examinar los coeficientes de correlacin para cada predictor con la
variable respuesta y se seleccionaron para los futuros anlisis aquellas variables
que tienen la mayor correlacin absoluta, o sea, |r |
0.30.
90
Variable
Z LN Tiempo promedio entre visitas
Z LN visitas de compras
Z LN # productos individuales
comprados
Z LN total neto de ventas
Z LN promociones respondidas el
ao pasado
Z LN # de diferentes clases de
productos.
Z LN # de cupones usados
Z LN das entre compras
Fuente: [Lar06]
Coeficiente de correlacin
-0.431
0.399
0.368
Relacin
Negativa
Positiva
Positiva
0.336
0.333
Positiva
Positiva
0.329
Positiva
0.322
-0.321
Positivo
Negativa
91
21
92
Predictor
Z LN visitas de compras
Z LN visitas de compras
Z LN promociones archivadas
Predictor
Z LN # de diferentes clases de
productos
Z
LN
#
de
productos
individuales comprados
Z LN promociones enviadas el
93
Correlacin
0.804
0.860
0.890
aos pasado
Z LN total neto en ventas
Z LN # de diferentes clases de
productos
Z LN total neto en ventas
Z
LN
#
de
productos
individuales comprados
Z LN das entre compras
Z LN tiempo promedio entre
visitas.
Z LN # de diferentes clases de Z
LN
#
de
productos
productos.
individuales comprados
0.859
0.907
0.847
0.930
Fuente: [Lar06]
Para las variables categricas se utilizo otro mtodo para examinar la relacin
entre estas variables con la variable respuesta. Este mtodo es llamado tabulacin
cruzada. Como se tena inters por saber la relacin entre respuesta a la
promocin y dos tipos de clientes: aquellos que han comprado suteres y aquellos
que hicieron una compra el pasado mes. Se construyo una matriz de tabulacin
cruzada, donde las celdas representan el valor medio de la variable objetivo
(respuestas). Puesto que el objetivo representa una variable dicotomica, las
medias representan proporciones [Lar06]. Esta matriz se muestra a continuacin.
Figura 13. Tabulacin cruzada para el gasto del pasado mes vs compra de
suteres, donde el valor de las celdas representa los porcentajes de
respuesta a la promocin.
Fuente: [Lar06]
As en la tabulacin cruzada se puede ver que los clientes que ni han comprado
suteres, ni que hicieron una compra el semestre pasado, solamente tienen una
probabilidad de responder a la campaa de mercadeo mediante correo directo.
94
Por otro parte los clientes que cumplen con las condiciones de las dos variables
tienen una probabilidad de responder positivamente a la promocin. Por ultimo si
un cliente cumple una de las 2 condiciones de las variables, el gasto hecho el mes
pasado es un poco ms significativo a responder a la promocin que los que han
comprado una blusa. (0.194 versus 0.146 de probabilidad, respectivamente).
[Lar06]
Para mas informacin sobre las fases de entendimiento y preparacin de los datos
se puede dirigir al libro Data Mining Methods and Models que es donde se
encuentra este caso de estudio.
95
24
96
Fuente: [Lar06]
En estas entradas estn incluidas las variables derivadas, variables transformadas
y las variables que no necesitaron ser transformadas. Todas las variables
numricas han sido transformadas y estandarizadas, muchas de las variables
banderas fueron obtenidas o derivadas de otras, y solo las variables categricas:
marca y cluster de estilo de vida permanecen. Cuando el anlisis de componentes
y el de cluster sean desarrollados se indicaran para que modelos estos deben ser
utilizados para las entradas. [Lar06]
97
principales
por
una
coleccin
particular
de
predictores
correlacionados. [Lar06]
Si el objetivo primario de la investigacin o del problema de negocio
concierne solamente a la estimacin, prediccin o clasificacin de la
variable objetivo, sin ningn inters en cualquiera de las caractersticas
predictoras, la sustitucin de los componentes principales por la coleccin
de los predictores correlacionados no es estrictamente requerida.[Lar06]
Sin embargo si el objetivo principal del anlisis es evaluar o interpretar el
efecto de los predictores individuales en la respuesta o para desarrollar un
perfil de los que pueden responder probablemente, basados en las
caractersticas de los predictores, la sustitucin de los componentes
principales por la coleccin de los predictores correlacionados es
fuertemente recomendada. [Lar06]
Por consiguiente parte de la estrategia a seguir fue reportar dos tipos de los
mejores modelos; uno (que no contiene componentes principales) para usar
solamente en la prediccin del objetivo, y otro (que contiene componentes
principales) para todos los otros propsitos. [Lar06]
98
Fuente: [Lar06]
1
0.915
0.887
0.858
-0.858
0.833
0.944
0.932
99
Fuente: [Lar06]
Componente
1
2
0.908
0.878
0.858
-0.867
0.828
0.942
0.928
100
101
Comparado con el cluster 1, este cluster tiende a comprar ropa mas casual,
teniendo mas del doble de proporcin de compras de pantalones casuales,
y la mas alta cantidad de gasto en suteres.
Este cluster no esta interesado en trajes, solo el 0.1% ha comprado uno.
Este cluster es similar al cluster 1 en algunos aspectos, como el numero
bajo de visitas de compras, el bajo gasto en el mes pasado, una
uniformidad de producto alta, un tiempo grande entre visitas, y el bajo
porcentaje de respuestas a promociones pasadas.
Cluster 3: frecuente, altos gastos, compradores sensitivos [Lar06]
La media de visitas entre compras y la media del total de ventas netas
estn cada una a aproximadamente una desviacin estndar sobre el
promedio global, lo que significa que este cluster representa compradores
frecuentes que tienden a gastar grandes cantidades.
Estos compradores tienen una baja uniformidad de producto, lo que
significa que no se focalizan en algn tipo de ropa en particular.
Estos compradores son sensitivos, al menos cerca del 90% de ellos ha
respondido a una campaa de mercadeo en el ao anterior.
Una mayora de estos compradores, tienen una tarjeta de crdito la cual
figura en el expediente, a diferencia de los otros 2 clusters.
Este cluster compra en lnea, en un porcentaje 4 veces mayor que los otros
2.
Basado en estos resultados, los modelos de clasificacin a continuacin tendrn
las siguientes entradas:
Modelo de coleccin A: (incluye anlisis de principal componentes) modelos
apropiados para perfilar clientes, anlisis de variables y prediccin. [Lar06]
102
103
104
Modelo
No enviar
nadie
Enviar a todo 0
el mundo
Costo
TP
-$26.4
0
Costo
FN
$28.4
1151
Costo
FP
$2
0
1151
5908
84.7%
Fuente: [Lar06]
16.3%
$32,688.40 ($4.63
por cliente)
$18,570.40
($2.63 por
cliente)
Una comparacin de los errores globales podra indicar una preferencia por el
modelo de Enviar a todo el mundo. Sin embargo los proyectos de minera deben
ser evaluados en trmino de factores reales como lo son los costos y beneficios.
En este caso el modelo no enviar a nadie le esta costando a la empresa $4.63
por cliente, de perdida de beneficios. De los clientes en este conjunto de datos el
16.3% podra responder positivamente a la campaa. Por consiguiente este
modelo debe considerarse como un completo fracaso. Por otra parte el modelo
enviar a todo el mundo esta actualmente dejando ganancias a la compaa, un
estimado de $2.63 por cliente. Esta estadstica de por cliente contiene todos los
clientes en el conjunto de datos, incluido los que no responden. Por consiguiente
es el modelo enviar a todo el mundo el que se considera como la lnea base, y es
la ganancia de $2.63 por cliente la definida como estndar de comparacin de
beneficio que cualquier modelo candidato debe mejorar. [Lar06]
105
Costo
TP
-$26.4
672
4348
829
C5.0
4465
782
Regresin
logstica
4293
872
Modelo
Redes
neuronales
CART
Fuente: [Lar06]
Costo
FN
$28.4
479
9.3%
322
6.9%
369
7.6%
279
6.1%
Costo
FP
$2
1214
64.4%
1560
65.3%
1443
64.9%
1615
64.9%
-$0.24
26.7%
-$1.36
25.7%
-$1.03
26.8%
-$1.68
106
Fuente: [Lar06]
Cost
o TN
$0
754
Costo
TP
-$26.4
1147
958
1153
Costo
FN
$28.4
4
0.5%
8
0.9%
Costo
FP
$2
5154
81.8%
5050
81.5%
$2.81
71.7%
$2.81
107
Fuente: [Lar06]
Cost
o TN
$0
5865
Costo
TP
-$26.4
124
4694
672
1918
1092
1032
1129
592
1141
Costo
FN
$28.4
1027
14.9%
479
9.3%
59
3%
22
2.1%
10
1.7%
Costo
FP
$2
43
25.7%
1214
64.4%
3990
78.5%
4876
81.2%
5316
82.3%
108
$3.68
24%
-$0.24
57.4%
-$2.72
69.4%
-$2.75
75.4%
-$2.72
En la tabla se puede ver que los modelos que estn sobre balanceados cada uno
funciona mejor que el modelo de lnea base, aun as a ninguno de estos modelos
se les ha aplicado costos de error en la clasificacin directamente. [Lar06]
El rendimiento mas optimo fue obtenido con redes neuronales usando un ndice de
sobre balance de 80%-20%. Lo que se hizo despus fue comparar este
rendimiento con el de los otros 3 algoritmos usando el mismo radio. [Lar06]
Tabla 18. Resultados del rendimiento de los 4 algoritmos usando un ndice
de sobre balance de 80%-20%, omitiendo los cluster de estilos de vida.
Modelo
Red neuronal
Cost
o TN
$0
885
Costo
TP
-$26.4
1132
CART
1724
1111
C5.0
1467
116
Regresin
logstica
2389
1106
Fuente: [Lar06]
Costo
FN
$28.4
19
2.1%
40
2.3%
35
2.3%
45
1.8%
Costo
FP
$2
5023
81.6%
4184
79%
4441
79.9%
3519
76.1%
-$2.73
59.8%
-$2.81
63.4%
-$2.77
50.5%
-$2.96
109
110
Este modelo tiene una representacin alternativa, enviar una promocin, solo si la
mayora de los modelos predicen respuesta. [Lar06]
Tabla 19. Resultados de rendimiento para los 4 modelos de conteo de votos
usando un ndice de sobre balance de 80%-20% omitiendo la variable cluster
de estilo de vida.
Modelo
Enviar una
promocin,
solo si los 4
modelos
predicen
respuestas
Enviar una
promocin,
solo si 3 de los
4 modelos
predicen
respuestas
Enviar una
promocin, si
al menos 2
de los
modelos
predicen
respuestas
Enviar una
promocin,
solo si 3 de los
4 modelos
predicen
respuestas
Cost
o TN
$0
2772
Costo
TP
-$26.4
1067
Costo
FN
$28.4
84
2.9%
Costo
FP
$2
3136
74.6%
1936
1115
36
1.8%
1207
1135
550
1148
-$2.76
3972
78.1%
56.8%
-$2.9
16
1.3%
4701
806%
66.8%
-$2.85
3
0.5%
5358
82.4%
75.9%
-$2.76
Fuente: [Lar06]
Se ve que ninguno de los modelos supero, el resultado que se obtuvo con el
modelo de regresin logstica usando un ndice de sobre balance de 80%-20%, y
omitiendo los cluster de estilos de vida, por lo que se pueden descartar estos
resultados. [Lar06]
111
25
112
Cost
o TN
$0
1645
Costo
TP
-$26.4
1140
1562
1147
Fuente: [Lar06]
Costo
FN
$28.4
11
0.7%
4
0.3%
Costo
FP
$2
4263
78.9%
4346
79.1%
-$3.01
61.6%
-$3.04
Luego se aplico el sobre balance como un substituto para los costos de error en la
calificacin, justo como se hizo en los modelos con PCA. La tabla 21 muestra los
resultados del rendimiento para los 4 algoritmos, usando un ndice de sobre
balance del 80%. [Lar06]
Tabla 21. Resultados del rendimiento de los 4 algoritmos usando un ndice
de sobre balance de 80%-20%.
Modelo
Red neuronal
Cost
o TN
$0
1301
Costo
TP
-$26.4
1123
CART
2780
1100
C5.0
2640
1121
Regresin
logstica
2853
1110
Fuente: [Lar06]
Costo
FN
$28.4
28
2.1%
51
1.8%
30
1.1%
41
1.4%
Costo
FP
$2
4607
80.4%
3128
74%
3268
74.5%
3055
73.3%
-$2.78
45%
-$3.02
46.7%
-$3.15
43.9%
-$3.12
113
mtodos de conteo de votos, donde una vez mas se usa un ndice de sobre
balance del 80%. [Lar06]
Tabla 22. Resultados de rendimiento para los 4 modelos de conteo de votos,
usando un ndice de sobre balance de 80%-20% para modelos sin PCA.
Modelo
Enviar una
promocin,
solo si los 4
modelos
predicen
respuestas
Enviar una
promocin,
solo si 3 de los
4 modelos
predicen
respuestas
Enviar una
promocin, si
al menos 2
de los
modelos
predicen
respuestas
Enviar una
promocin,
solo si 3 de los
4 modelos
predicen
respuestas
Cost
o TN
$0
3307
Costo
TP
-$26.4
1065
Costo
FN
$28.4
86
2.5%
Costo
FP
$2
2601
70.9%
2835
1111
40
1.4%
2537
1133
1075
1145
-$2.9
3073
73.4%
44.1%
-$3.12
18
0.7%
3551
75.8%
50.6%
-$3.16
6
0.6%
4833
80.8%
68.6%
-$2.89
Fuente: [Lar06]
Los resultados de los modelos combinados pueden ser un poco sorprendente,
dado que el modelo de combinacin, enviar una promocin solo si al menos 2 de
los modelos predicen respuestas, ha funcionado mejor que todos los modelos de
clasificacin individuales con un beneficio promedio global por cliente de $3.16.
Esto representa la sinergia de la estrategia de combinacin de modelos, donde la
combinacin de los modelos es en cierto sentido mayor que la suma de sus
partes. Aqu, el beneficio mas grande es obtenido cuando al menos dos modelos
114
115
que el error falso positivo, por lo que se tendi a fijar estas particiones en un punto
bajo. [Lar06]
La particin de los registros se hizo de acuerdo al siguiente criterio: MRP < 0.85 y
MRP > 0.85. Puesto que es cerca de este valor que la proporcin de
respondedores positivos comienza a incrementar rpidamente. [Lar06]
Sin embargo como se muestra en la tabla 23. El modelo basado en tal particin es
sub-optimo, dado que permite muchos falsos positivos. Como resultado, la
particin optima esta cerca del 50% de probabilidad. [Lar06]
Tabla 23. Mtricas de rendimiento para los modelos definidos por particin
de varios valores de MRP.
Modelo
Particin:
MRP < 0.95
MRP 0.95
Particin:
MRP < 0.85
MRP 0.85
Particin:
MRP < 0.52
MRP 0.52
Particin:
MRP < 0.51
MRP 0.51
Particin:
MRP < 0.46
MRP 0.46
Cost
o TN
$0
5648
Costo
TP
-$26.4
353
Costo
FN
$28.4
798
12.4%
Costo
FP
$2
260
42.4%
3810
994
157
4%
2738
1121
2686
2493
+$1.96
2098
67.8%
31.9%
-$2.49
30
1.1%
3170
73.9%
45.3%
-$3.1736
1123
28
1%
3222
74.2%
46%
-$3.1744
1129
22
0.9%
3415
75.2%
48.7%
-3.1666
Fuente: [Lar06]
Se puede ver que el modelo de combinacin contina definida en la particin MRP
= 0.51 es el mejor modelo para predecir la respuesta a la campaa de mercadeo
mediante correo directo. Este modelo provee un beneficio estimado de $3.1744
por cada promocin enviada. Esto comparado con el modelo de base tiene una
diferencia de 20.7% o 54.44 centavos por usuario. Por ejemplo si se quieren
116
117
118
26
http://www.spss.com/la/soluciones/crm.htm
119
2.3.
Este caso trata de encontrar los diferentes grupos de clientes que tiene un banco.
Se trabajo la tarea de segmentacin y se utilizo la herramienta DB2 Intelligent
Miner for Data de IBM.
2.3.1. Comprensin del negocio o del tema a tratar:
El banco de Qubec27 es uno de los 10 bancos ms grandes de Norteamrica y
siempre se ha caracterizado por estar un paso por delante de sus ms cercanos
competidores. Para continuar con esta ventaja quieren mejorar su rea de
inteligencia de negocios.
Como se sabe que la cultura de un banco y la forma de pensar de sus empleados
esta muy influenciada por el esquema de segmentacin que el banco adopta para
su mercado, se hizo importante que este esquema estuviera alineado con las
necesidades de los clientes, y que fuera un factor determinante para dar ventaja
competitiva nica y duradera al banco. [SLB+01]
Esto se hace esencial en un mercado tan competido como el que se ha venido
dando en los ltimos aos. La necesidad de tratar a un cliente de una forma ms
individualizada, de maximizar su satisfaccin y su rentabilidad se hace cada vez
ms imperiosa para tratar de ganar en ese mercado. Darles a los clientes el
mismo servicio significa tratarlos de una forma diferente, pero este tipo de
interaccin no es viable econmicamente en mercados tan grandes. La solucin a
este problema es agrupar clientes con comportamientos similares y desarrollar
27
Para ver la informacin real de la organizacin base, se puede dirigir al documento: Bank of Montreal
becomes master of its destiny with IBM scoring tool. [BOM01]
120
121
Datos demogrficos del cliente: son los datos individuales del cliente.
Algunos ejemplos son edad, sexo, estudios, entre otras.
Datos de filiacin: describe la dimensin y calidad de relacin que se tiene
con un cliente en particular. Esto incluye datos sobre tenencias, propiedad
de producto, utilizacin de producto, canal de utilizacin, fecha de
establecimiento, quejas, advertencias, etc.
Adicionalmente, estos datos pueden incluir informacin sobre ventas
previas, y actividades de marketing, preferencias de los clientes
relacionadas con el banco, entre otras.
Datos de transacciones: describe el nmero y tamao de las
transacciones hechas por un cliente.
Datos adicionales: cubren otros datos que pueden ser tiles para el
entendimiento de la interaccin con el cliente. Estos datos son:
segmentacin actual, datos econmicos generales, relacin con otras
compaas o grupos, entre otras.
Datos sugeridos para la segmentacin
La siguiente lista contiene las variables que podran ser utilizadas para la
segmentacin. Esta lista no es muy exhaustiva, pero propone algunas variables
que podran ser apropiadas para dar un buenos resultados. Claro que estos datos
se fueron ajustando sobre el tiempo para refinar el modelo y recoger nuevos datos
sobre los clientes.
Tabla 24. Variables a usar
1
2
Descripcin de la variable
Identificacin del cliente
Identificacin del grupo familiar
Nombre de la variable
Customer_id
Household_id
122
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Edad
Sexo
Direccin
Ingreso anual
Dueo de automvil
Dueo de casa
Estado civil
Hijos
Tiempo como cliente
Total depsitos
Total deudas
Fondos disponibles totales
Tiene atrasos en pagos
Numero de pagos automticos
Salario depositado en el banco
Dueo de producto
Cuenta corriente
Tiene productos de ahorro
Tiene productos de prstamo
Tiene productos de inversin
Tiene productos de pensin
Tiene fondo mutualista
Tiene tarjeta de crdito
Tiene productos de la juventud
Numero de transacciones
Numero de transacciones usando:
Uso del cajero
Uso de la Terminal bancaria
Uso de la Web del banco
Uso del call center
Uso del kiosco
Numero de transacciones de la
cuenta actual
Valor promedio de las transacciones
Valor promedio de las transacciones
de crdito
Valor promedio de las transacciones
de debito
Segmentacin actual
Puntuacin del crdito
Medida de rentabilidad.
Fuente: [SLB+01]
Age
Sex
Location
Annual_income
Car_owner
Home_owner
Marital_status
Has_children
Time_as_customer
Total_deposits
Total_liabilities
Total_disposable_funds
Has_defaulted
No_automatic_payments
Salary_deposited_in_bank
Has_Current_account
Has_Saving_products
Has_Loan_products
Has_Investment_products
Has_Pension_products
Has_Mutual_funds
Has_Credit_card
Has_Youth_products
Number_of_transactions
Teller_usage
ATM_usage
Web_bank_usage
Uses_call_center
Uses_kiosk
Number_of_current_acc_trans
Avg_value_of_trans
Avg_value_of_credit_trans
Avg_value_of_debit_trans
Current_Segmentation
Credit_score
Profitability_measure
Entender la red de relaciones sobre el grupo familiar de un cliente, que si tiene una
cuenta con otro familiar, si tiene una hipoteca con su esposa, una cuenta
123
124
28
Reducir el nmero de valores de un atributo continuo dividiendo el rango del atributo en intervalos
125
126
127
tcnicas, lo que se trato de realizar fue un consenso entre las tcnicas que se
utilizaron, en donde se compararon los resultados obtenidos y se observo donde
estaban de acuerdo y en desacuerdo. [SLB+01]
Las dos tcnicas de clustering que se utilizaron fueron clutering demogrfico29 y
clustering neural.
29
Tambin conocido como clustering basado en el algoritmo de los vecinos ms cercanos utilizando un valor
condorcet. Para mas informacin ver la referencia [BAB+01]
128
129
30
31
No se sabe cual fue este valor; pues no esta especificado en las fuentes bibliograficas [SLB+01]
Un valor mnimo de 0.65 se considera como aceptable para este caso. Ver [SLB+01]
130
32
131
Fuente: [SLB+01]
Los clusters obtenidos se muestran separados por franjas horizontales y
ordenadas por tamao, el tamao del cluster esta indicado en la parte izquierda y
las variables en cada franja estn ordenadas de izquierda a derecha segn la
importancia que tengan en el cluster.
Despus de muchas iteraciones y de haber obtenido un nmero de clusters
apropiados para trabajar, se procedi a realizar la comparacin con el clustering
neural, el cual requiri que se especificaran el nmero de clusters esperados;
como se haba mencionado anteriormente. Como el nmero determinado de
clusters que se obtuvo con el clustering demogrfico fue de 9, este fue el valor que
se utilizo para ejecutar la tcnica de clustering neural y posteriormente hacer la
comparacin. Los resultados obtenidos fueron los siguientes. [SLB+01]
132
Fuente: [SLB+01]
Este resultado fue en muchas formas muy similar al obtenido con la tcnica del
clustering demogrfico, aunque no exactamente el mismo. Estos dos resultados
son validos y mas all de los anlisis esas diferencias radican en que hay clientes
que no encajan fcilmente en ninguno de los nueve clusters. [SLB+01]
133
fue examinar cada segmento y darles un nombre. Los nombres asignados a los
clusters en orden segn el tamao fueron los siguientes: pasivo/inactivo, modesto,
sper estrella, gris dorado, muy jvenes - activos, activos, solicitantes de
prestamos, inversionista puro y jvenes estrellas. [SLB+01]
Despus de hacer esta valuacin se procedi a sacar el verdadero significado que
tienen estos resultados para el negocio.
La forma en como se asignaron los nombres a los clusters fue observando la
distribucin de las variables para los clientes dentro de cada cluster y luego se
comparo con el total de la poblacin. El enfoque se dio principalmente en aquellas
variables que tenan la mayor discrepancia con la distribucin de esas mismas
variables, pero en toda la poblacin. [SLB+01]
A continuacin se mostrara la interpretacin realizada a algunos de los clusters.
Clientes pasivos/inactivos:
Por lo general este tipo de clientes son aquellos que solo tiene unos pocos
productos con el banco y que no hacen muchas interacciones con la compaa, o
que simplemente estn inactivos. [SLB+01]
Las caractersticas interesantes de este segmento son las siguientes:
Solo una pequea parte de los clientes tienen depositado su salario en el
banco.
Los clientes tienen pocos productos, por lo general uno solo.
Los productos de los que son propietarios son: pensin, inversiones y
productos jvenes.
Los clientes tienen muy poquitas transacciones.
134
Una parte relativamente grande de los clientes es que son clientes jvenes
o muy jvenes.
Una parte relativamente grande de los clientes son nuevos clientes.
Los clientes que no tienen depositado su salario en el banco es porque tienen una
relacin mas cercana con otro banco que le provee estos servicios financieros.
Combinado con el hecho de que son clientes que solo tienen un producto sea de
pensin, inversin, producto joven o un prstamo de construccin, esto indica que
este tipo de clientes: son muy jvenes, son compradores, son nuevos clientes o se
han ido del banco. Los clientes que abandonan el banco por lo general se quedan
con alguno de los productos que se mencionaban anteriormente ya que son
productos duros o indeseables de mover. Dirigir estrategias y productos hacia este
tipo de usuarios puede resultarle al banco ms barato que conseguir nuevos
clientes. [SLB+01]
Este segmento es tpicamente muy diverso y dinmico, porque contiene personas
con un comportamiento consistente con un nmero diferente de etapas en la
relacin con el banco. [SLB+01]
Clientes gris dorados:
Este cluster contiene personas de la tercera edad, que no tienen prstamos, pero
si grandes depsitos en fondos mutualistas, en productos de ahorro o inversin.
[SLB+01]
Las caractersticas importantes de este segmento son:
Los clientes tienen muy pocos productos de prstamo.
Los clientes tienen relativamente grandes cantidades depositadas.
135
Tamao relativo
Inversionista puro
4.55
Pasivo/inactivo
33.45
Estrellas jvenes
3.74
Activos
6.24
Modestos
20.68
6.78
Sper estrellas
12.97
31
Gris dorado
9.60
17
136
Solicitantes de prestamos
5.53
Fuente: [SLB+01]
Tambin se mostrara la penetracin de cada producto en cada cluster.
Tarjetas de
crdito
Productos para
Pasivo/inactivo
33
58
49
17
Estrellas jvenes
88
78
73
58
45
45
22
Activos
94
18
42
100
99
32
16
Modestos
90
52
20
66
95
61
Sper estrellas
94
78
44
94
92
67
93
Gris dorado
97
95
19
99
69
90
Solicitantes de prestamos
90
79
99
14
Global
62
40
32
54
44
24
18
16
mutualistas
Fondos
pensin
90
Productos de
8
inversin
99
Productos de
prstamo
Productos de
Productos de
12
ahorro
Cuenta corriente
Inversionista puro
jvenes
Fuente: [SLB+01]
Cada nmero del cuadro representa el porcentaje de personas que tienen
determinado producto en el cluster. El ltimo rengln representa el porcentaje de
personas que tienen el producto pero para toda la poblacin. Este tipo de
informacin sirvi de herramienta para analizar las distintas estrategias a seguir en
los distintos cluster. Por ejemplo mirar que oportunidades de Cross selling aplicar
en que sectores, o saber que la venta de tarjetas de crdito en el segmento gris
dorado probablemente no sea una buena estrategia. [SLB+01]
137
Tradicionalmente los jvenes han sido vistos como un grupo homogneo, pero en
realidad este es un grupo muy diverso. Segn las graficas mostradas
anteriormente, los clientes jvenes estn distribuidos en todos los segmentos, lo
que permitir disear estrategias especficas de negocio para este importante
grupo de clientes y asegurarse de que en el futuro se conviertan en buenos
clientes para el banco. [SLB+01]
Para el caso de los cluster 0, 2, 4 y 6, se desarrollaron estrategias de retencin de
los clientes, pues son los cluster que cuenta con una mayor parte de beneficio
segn se vio anteriormente. [SLB+01]
Para el cluster de clientes activos se aplicaron estrategias de Cross- y up- selling
de tarjetas de crdito. Ya que es un cluster que se caracteriza porque no usan
mucho este tipo de tarjetas. Para los segmentos de clientes que poseen muchos
productos tambin se aplicaron estrategias de Cross selling para los pocos
productos que no poseen. [SLB+01]
Para los cluster ms especializados, como los inversores puros o los solicitantes
de prstamos la estrategia a seguir fue comercializar productos que se adapten al
perfil de comportamiento de estos y a la promocin de productos que aumente el
grado de fidelidad de estos clientes. [SLB+01]
Estas fueron algunas de las estrategias de ventas y mercadeo que se realizaron a
partir de la segmentacin resultante, y de la informacin que arrojaron las
variables dentro de cada cluster.
Los resultados de este proyecto tambin provocaron diversas reacciones en los
ejecutivos del banco y permiti comprobar varias cosas: [SLB+01]
138
datos,
se
implementaron
aplicaciones
como
las
soluciones
139
2.4.
140
141
Categora
Pasta
Leche
Agua
Bizcochos
Caf
Galletas
Yogurts
Vegetales congelados
Atn
Cerveza
Frecuencia de ocurrencia
4541
4428
3452
3371
2703
2680
2493
2484
2464
1970
142
11
12
13
14
15
16
17
18
19
20
Salsa de tomate
Colas
Arroz
Jugos
Galletas saladas
Aceite
Pescado congelado
Helado
Mozarela
Carne enlatada
Fuente: [Giu03]
1958
1883
1822
1681
957
775
759
445
432
177
Estas categoras son utilizadas para generar una base de datos de transacciones.
Esta base de datos presenta para cada tarjeta y cada fecha de compra, una lista
de los productos que han sido puestos en la cesta. La base de datos de
transaccin puede ser adecuadamente, expresada como una matriz de datos,
donde cada fila representa una transaccin de la persona que posea una tarjeta,
las columnas son variables binarias que representan si o no cada producto
especifico ha sido comprado al menos una vez en esa transaccin. Esta matriz fue
llamada base de datos de los propietarios de las tarjetas. El nmero total de
transacciones fue de 46727, que corresponde al nmero de registros en esta base
de datos. [Giu03]
2.4.3. Anlisis exploratorio de los datos
Para entender las asociaciones entre los 20 productos o categoras escogidas, se
tuvo que considerar la construccin de 190 tablas de contingencia33 de dos
direcciones. La tabla 28 muestra una de esas tablas, la cual fue usada para
estudiar la asociacin entre los productos helado y colas. [Giu03]
33
Este tipo de tablas se emplean para registrar y analizar la relacin entre dos o ms variables, habitualmente
de naturaleza cualitativa -nominales u ordinales-.
143
TOTAL
COLAS
0
41179
88.13
89.60
98.57
599
1.28
77.89
1.43
41778
89.41
34
Fuente: [Giu03]
1
4779
10.23
10.40
96.56
170
0.36
22.11
3.44
4949
10.59
Valor
2.4455
TOTAL
45958
98.35
769
1.65
46727
100
Limites de confianza al 95%
2.0571
2.9071
34
Tambin conocidos en ingles como Odds Ratio. Es la razn entre la probabilidad de que un evento suceda y
la probabilidad de que no suceda
144
Producto 2
Carne enlatada
Carne enlatada
Vegetales
congelados
Colas
Galletas
Jugos
Colas
Salsa de tomate
Galletas saladas
Galletas
Carne enlatada
Arroz
Galletas
Galletas saladas
Pescado
congelado
Aceite
Fuente: [Giu03]
Atn
Mozarela
Pescado congelado
Cociente de
probabilidad
5.0681
4.8847
3.3610
Intervalo de confianza
3.9101
2.9682
2.9521
6.5689
8.0386
3.8265
Cerveza
Jugos
Helado
Helado
Pasta
Helado
Galletas saladas
Arroz
Pasta
Helado
Jugos
Mozarela
2.8121
2.8094
2.5333
2.4455
2.3773
2.2839
2.2833
2.1433
2.1129
2.0211
2.0486
2.0785
2.6109
2.6094
2.1018
2.0571
2.2446
1.7061
2.0276
1.4762
1.9618
1.7178
1.7633
1.4721
3.0289
3.0248
3.0534
2.9071
2.5179
3.0574
2.5713
3.1120
2.2756
2.3781
2.3800
2.9347
Salsa de tomate
2.0713
1.8318
2.3420
145
Es difcil visualizar un grafo con al menos 190 relaciones. Por lo tanto se mostrara
un grafo que solo presenta las asociaciones positivas con un cociente de
probabilidad de mayor que 2. Esto reduce el nmero de enlaces en el grafo.
[Giu03]. La siguiente figura es ejemplo de ello.
Figura 17. Grafo que muestra las asociaciones positivas ms fuertes entre
productos.
Fuente: [Giu03]
Ntese que los productos asilados (leche, biscochos, agua, caf y yogurt) de los
otros, no estn asociados positivamente con ninguno. Los otros productos estn
relacionados directa e indirectamente. Es posible individualizar al menos 3 grupos
mediante las conexiones de los enlaces, pero tambin por las relaciones lgicas
entre productos. Estos grupos son muy interesantes porque identifican
medianamente el comportamiento de compra de los clientes. Hay un grupo con 5
nodos: atn, carne enlatada, mozarela, vegetales congelados y pescado
congelado. Estos nodos relacionados altamente con otros, corresponden a los
146
147
35
148
Soporte (helado
Este valor indica un bajo soporte para la regla. Esto significa que estos dos
productos son compradas juntas ocasionalmente. El soporte corresponde a uno de
las 4 frecuencias que se muestran en la tabla de contingencia (tabla 28). Un
soporte de 0.036 indica que solo el 0.36% de las transacciones consideradas
tenan ambos productos en la cesta. [Giu03]
La confianza37 de una regla, aun cuando es calculada para una asociacin, donde
el orden no importa, depende del cuerpo y la cabeza de la regla (medida
asimtrica):
Confianza (helado
La confianza (confidence) de una regla (A B) expresa una frecuencia relativa, que indica la frecuencia (o
probabilidad) de ocurrencia de B, condicionado a que A sea verdadero. Es una medida asimtrica
149
Elevacin (helado
Elevacin (colas
Ya se analizaron los resultados que arroja una sola regla, pero no se pueden
sacar conclusiones certeras de estos, hay que conocer los resultados que ofrecen
las dems reglas, para poder hacer un anlisis mas completo y sacar verdaderas
conclusiones que permitan conocer mejor los hbitos de los consumidores. Para
descubrir esto y obtener una descripcin ms comprensiva de las reglas de
asociacin, la cadena hizo el modelo con todas las reglas de asociacin posibles.
[Giu03]
Los resultados de las reglas ms relevantes fueron organizados en distintas
tablas39 segn el criterio con el cual se estuviera midiendo la relevancia de las
reglas.
Una primera tabla presenta en segundo orden, reglas de asociacin con el valor
de soporte ms grande de las 190 reglas posibles. Para cada regla de esta tabla
se muestra le medida de elevacin, el soporte, y la confianza, as como tambin la
frecuencia de ocurrencia, que es la frecuencia absoluta de la regla. [Giu03]
Segn los resultados que se obtuvieron, se vio que la regla (helado, colas) no
aparece entre las ms frecuentes. Otras reglas tienen una medida de soporte ms
grande y la regla con el soporte mas grande es leche
biscochos, agua
pasta y leche
38
La medida de elevacin (lift) de una regla, es un radio entre la frecuencia relativa de ambos productos
ocurriendo conjuntamente, y la frecuencia relativa del mismo evento pero asumiendo que los dos productos
son independientes.
39
El resultado de estas tablas no se muestra totalmente, solo mostraremos un subconjunto de estos, donde se
muestran los ms significativos. Para ver la tabla completa se puede ir a la fuente [Giu03]
150
Elevacin
1.13
Soporte
(%)
49.84
Confianza
(%)
75.86
Frecuencia de
ocurrencia
3359
1.13
49.84
73.97
3359
1.18
39.9
79.77
2689
1.18
39.9
59.22
2689
1.21
39.86
60.66
2686
1.21
39.86
79.68
2686
1.15
39.72
77.55
2677
1.15
39.72
58.95
2677
Fuente: [Giu03]
Regla
Leche
pasta
Pasta
leche
Bizcochos
pasta
Pasta
biscochos
Leche
biscochos
Biscochos
Leche
Agua
pasta
Pasta
agua
Cabe anotar que como la tabla anterior muestra las reglas con la mayor medida de
soporte y esta es una medida simtrica, es obvio que la regla reciproca este
siempre adyacente a la otra. [Giu03]
La segunda tabla muestra en segundo orden, reglas de asociacin con el valor de
confianza ms grande de las 190 reglas posibles. Esta tabla muestra que por
ejemplo la regla arroz
que si una transaccin contiene arroz, esta tambin tendr pasta cerca del 90% de
las veces. Por otra parte la regla pasta
resultados mas significativos; esta regla tiene una confianza de 36.18%. Esto
puede ser interpretado diciendo que si una transaccin contiene pasta tambin
tendr arroz el 36.18% de las veces. [Giu03]
Tabla 31. Reglas con la mayor medida de confianza.
Relaciones
Elevacin
Soporte
Confianza
151
Frecuencia de
Regla
1.34
(%)
24.38
(%)
90.18
ocurrencia
1643
1.32
2.34
89.27
158
1.32
25.86
89.02
1743
1.30
9.88
87.75
666
1.27
9.85
85.68
664
1.26
5.46
85.19
368
1.29
5.61
84.94
378
1.29
9.56
84.85
644
Fuente: [Giu03]
Arroz
pasta
Carne
enlatada
pasta
Salsa de
tomate
pasta
Pescado
congelado
pasta
Aceite
pasta
Mozarela
pasta
Helado
leche
Pescado
congelado
leche
Una tercera tabla reporta las reglas con los valores ms altos de elevacin de las
190 posibles reglas. Ntese que las reglas pescado
mozarela y helado
Elevacin
2.36
Soporte
(%)
1.71
Confianza
(%)
15.15
Frecuencia de
ocurrencia
115
2.36
1.71
26.62
115
2.36
2.21
33.48
149
2.36
2.21
15.57
149
2.17
1.62
14.36
109
2.17
1.62
24.49
109
152
Regla
Pescado
congelado
mozarela
Mozarela
pescado
congelado
Helado
galletas
saladas
Galletas
saladas
helado
Pescado
congelado
helado
Helado
1.98
3.65
55.28
246
1.98
3.65
13.06
246
Fuente: [Giu03]
pescado
congelado
Helado
colas
Colas
helado
Esta tabla puede ser til para comparar con la tabla de cocientes de
probabilidades (tabla 29), que fue usada para construir el grafo exploratorio.
Comparando las dos tablas se vio que productos similares aparecen en ambas,
excepto por pasta que aparece solo en la tabla 29. Sin embargo las parejas son en
algunos casos diferentes. Los productos aislados que se muestran en la figura 1leche, biscochos, agua, caf y yogurt, tienen una alta medida de soporte pero una
baja medida de elevacin, por consiguiente no se encuentran en los resultados de
las reglas que tienen la mayor medida de elevacin. [Giu03]
Tambin se consideraron asociaciones con ms de 2 productos. Los resultados
que se obtuvieron considerando las reglas con un mayor soporte, revelaron que
aparecan algunas de las reglas de la tabla 30, en los primeros lugares segn este
criterio. En lugares secundarios se vean algunas reglas de orden 3, que tenia por
lo general productos que se consumen fuera de las comidas regulares y
combinaciones de productos aislados como pasta, leche y biscochos. [Giu03]
Para asociaciones de cuarto orden40 los valores de confianza fueron ms bien
altos. Por ejemplo una transaccin que contiene salsa de tomate, aceite y galletas
saladas, tambin tendr pasta; adicionalmente el valor de confianza para esta
regla es del 100%. Sin embargo el soporte de esta regla es de solo el 1.41%.
[Giu03]
40
En la fuente bibliografica [Bel04] aparece una tabla que muestra el resumen de los resultados para este tipo
de asociaciones.
153
pasta
pasta
pasta
154
Las medidas de inters para las reglas tambin pueden ser usadas para evaluar el
rendimiento. En este caso se consideraron las medidas: soporte, confianza y
elevacin para validar el conjunto de reglas. Pero las necesidades del usuario son
las que imperan al decidir cual de estas utilizar para escoger un conjunto de
reglas. El soporte se puede usar para evaluar la importancia de una regla en
trminos de su frecuencia en la base de datos; la confianza se puede usar para
investigar las posibles dependencias entre las variables; y la elevacin puede ser
usada para medir la distancia de la situacin de independencia. [Giu03]
Finalmente, un conjunto de reglas tienen que ser evaluadas sobre su capacidad
para responder a las necesidades u objetivos del anlisis. Aqu los objetivos
primarios son reorganizar el diseo de ventas de las terminales y planear
promociones para incrementar los ingresos. Una vez las asociaciones han sido
identificadas, es posible organizar promociones. Por ejemplo, poniendo un
producto en promocin, se incrementan las ventas de los productos asociados.
[Giu03]
Los cocientes de probabilidades y los modelos log-lineales tambin pueden ser
empleados para determinar una estructura de asociacin global entre las variables
de compra, para este caso hay ciertas medidas estadsticas para evaluar la
calidad del modelo. Sin embargo estas tienen un propsito diferente. Los rboles
de decisin tambin pueden ser vistos como un modelo global41 capaz de
reproducir una estructura de asociacin. Sin embargo las reglas de asociacin42
son mejores para este tipo de casos porque son ms fciles de detectar y de
interpretar. Los modelos log-lineales y los rboles pueden ser mejor utilizados
cuando se tiene el tiempo y el conocimiento necesario para
implementar un
Un modelo es una descripcin global de o explicacin de un conjunto de datos, tomando un alto nivel de
perspectiva. Para este caso de estudio los modelos globales son los modelos log-lineales y los rboles de
decisin.
42
Las reglas de asociacin son utilizadas para descubrir patrones locales en los datos.
155
156
sistema solo las hacia con las categoras de productos que se trabajaron.
[SBA+01]
La prueba fue conducida en 2 fases. Durante la primera fase de la prueba,
usando solo una de las tiendas y una versin primaria del sistema, un total
de 97 rdenes completas fueron procesadas de usuarios que usaban una
PDA. De esas, 6 ordenes (6.1%) contenan al menos un producto escogido
para la lista de recomendacin. Es importante anotar que la lista de
recomendada, contiene productos que no han sido comprados por el cliente
previamente). El objetivo de este recomendador de productos es
incrementar el ingreso comparable a las compras espontneas que un
comprador puede hacer mientras camina a travs de la tienda o despus de
recibir algn tipo de propaganda por correo. Por esta medida los resultados
del recomendador inicial fueron algo decepcionantes: el incremento del
ingreso fue 0.3% superior al ingreso generado por la compra de productos
que un cliente hace personalmente de acuerdo a su lista de compras.
[SBA+01]
Cuando el sistema fue evolucionando, el equipo de desarrollo noto que las
distribucin del gasto en las diferentes categoras de productos fue
diferente de los productos comprados de las lista de recomendada en
comparacin de la lista de compras que cada cliente mantiene. Estos
resultados se interpretaron y dan a entender, que hay un conjunto de
categoras en donde las recomendaciones son ms bienvenidas que otras,
y una serie de entrevistas con algunos clientes corroboro esta
interpretacin. Los clientes quieren recomendaciones ms interesantes. Por
lo cual este sistema se enfatiza en las categoras que han sido consideras
como las ms atrayentes para los clientes. La meta fue crear un conjunto
de productos que fueran los ms bienvenidos. Otra de las fuentes para
157
158
2.5.
159
160
Finalmente, como los datos estaban esparcidos en las tres bases de datos, se
procedi a construir una base de datos, donde se organizo toda la informacin que
se requera. Despus de un largo proceso de administracin de la base de datos
se obtuvieron las siguientes variables. [Giu03]
Tabla 33. Variables a utilizar.
Estado del mercadeo.
Si el cliente esta activo.
Si el cliente esta tiene deudas
Numero total de pedidos.
Fecha del primer pedido
Fecha del ultimo pedido
Monto total de los pedidos
Dimensin de la compra.
Edad.
rea de residencia
Sexo
Si el primer pago esta dentro del plazo
Primer cantidad gastada.
Numero de productos en el primer
pedido.
Fuente: [Giu03]
161
Fuente: [Giu03]
Frecuencia absoluta
1457
1013
Y=0
61.04%
57.88%
Y=1
38.96%
42.12%
Edad
15 35
36 50
51 89
Y=0
68.80%
53.44%
60.42
Y=1
31.20%
46.56%
39.58%
Fuente: [Giu03]
rea
Norte
Centro
Sur
Y=0
55.40%
58.22%
62.73%
Dimensin Y = 0
Pequea
60.39%
Mediana
56.95%
grande
62.11%
Y=1
44.60%
41.78%
37.27%
Y=1
39.61%
43.05%
37.89%
162
163
Intercepto
Edad 15-35
Plazos
Numero de
productos
0.3028
-0.5440
1.6107
0.3043
0.1248
0.1367
0.1371
0.0465
Wald
108.93
15.84
137.98
42.78
Pr>Chisquare
<0.0001
<0.0001
<0.0001
<0.0001
Cocientes de
probabilidad
0.580
5.006
1.356
Fuente: [Giu03]
164
165
gaussiana con igual ancho y con igual altura. La funcin de activacin para el nodo
escondido es la funcin identidad y la funcin de activacin para el nodo de salida
es la funcin softmax43, as que se obtienen los valores de salida normalizados
correspondiente a la probabilidad estimada de Y = 1. [Giu03]
Modelos de rboles de clasificacin
Se comenz comparando dos modelos de rboles CART, basados en la entropa y
en la impureza de Gini44. El mejor modelo es el basado en la impureza de Gini.
Los resultados del mejor rbol estn basados en un algoritmo de poda que dirige a
un ptimo nmero de nodos terminales. Esto se hace reduciendo el radio de error
en la clasificacin.
El rbol de clasificacin ms optimo que se obtuvo, se describe en trmino de 11
reglas de asociacin45, apuntando hacia las hojas, que toman a 1465 clientes en el
conjunto de datos de entrenamiento y los divide en 11 grupos objetivo, cada uno
con una probabilidad estimada diferente de hacer un pedido otra vez (Y = 1).
[Giu03]
Cada regla es enunciada segn la trayectoria que conduce del nodo de la raz al
nodo terminal. Pero la lista de condiciones que expresa una regla se escribe en
orden inverso, as que los nodos ms lejos de las hojas, estn ms cercanos a
estas en la regla. La siguiente regla tiene la medida de soporte ms grande, con
aproximadamente 48.3% de clientes que siguen esta regla: [Giu03]
IF (375000
La funcin softmax permite que las mltiples salidas de la red puedan ser interpretadas como
probabilidades a posteriori, de forma que la suma de todas ellas es igual a 1.
44
La entropa y la impureza de Gini, son criterios que se utilizan para medir la impureza del nodo de un rbol.
45
Las reglas se pueden encontrar en el capitulo 10 de la fuente de este caso. [Giu03]
166
Esta regla corresponde a una hoja obtenida de partir todas las observaciones por
plazos, y luego por la desigualdad 37500
2659000. Las personas que cumplen las condiciones de esta regla son estimados
como no rentables, pues la probabilidad estimada de Y = 1 es solo de 18.6%. Esto
explica porque la cabeza de la regla es Y = 0. En general, la cabeza de la regla
obedece la regla clsica discriminante: si la probabilidad cabida es menor al 50%
luego Y = 0; de otra forma Y =1. [Giu03]
Los rboles de clasificacin proporcionan as una regla discriminante inmediata,
basada en la divisin de las variables predictoras. Para asignar un nuevo cliente,
se comienza en la raz y se toma el camino correspondiente a las caractersticas
del cliente; luego se ve si la hoja termina da una probabilidad mayor que 50% a Y
= 1. La diferencia con la regresin logstica es que la regla discriminante es una
declaracin jerrquica lgica (basada en la divisin de los datos) mejor que un
puntaje aditivo (basado en todos los datos). Las variables que parecen relevantes
para la clasificacin son pagos, numero de productos y edad que corresponden a
las variables significativas en el modelo de regresin logstica. El rbol tambin
asigna relevancia a la primera cantidad gastada y al ara geogrfica. [Giu03]
Modelo de los vecinos ms cercanos
En un modelo de los vecinos ms cercanos, el principal parmetro a escoger es el
ancho o distancia K; esta establece el tamao del vecindario de las variables
predictoras que se usara para predecir Y. Se inicio con un valor muy grande, K =
732, que corresponde a la mitad del total de observaciones en el conjunto de
datos de entrenamiento. Luego se intento con un valor mas bajo, K = 10. Resulta
que K = 10, es una mejor opcin, en termino del ndice de error de clasificacin:
para K = 732 es 0.41, para K = 100 es 0.328 y para K = 10 es 0.316. [Giu03]
167
Observad
o
Predecido
0
48.02
1
10.91
22.92
18.14
Fuente: [Giu03]
168
Observad
o
Predecido
0
1
47.34
11.60
20.87
20.19
Fuente: [Giu03]
Ntese que el ndice de error de clasificacin para el modelo RBF es
aproximadamente del 32.47%, mas pequeo que el de la regresin logstica, pero
mas grande que el de los arboles CART. La probabilidad de los dos errores estn
desbalanceados, as como los de la regresin logstica, por lo cual se pueden
sacar las mismas conclusiones que con la regresin. Sin embargo la ligera mejora
que da este modelo no justifica el incremento de la complejidad del modelo y la
dificultad de interpretacin comprado con la regresin logstica. [Giu03]
La tabla 39 muestra la matriz de confusin para el modelo de rboles CART.
169
Observad
o
Predecido
0
1
43.52
15.42
14.32
26.74
Fuente: [Giu03]
El ndice de error de clasificacin para el rbol de clasificacin es ligeramente mas
bajo que para el modelo de regresin logstica, 29.74% contra 33.83%. Adems,
las probabilidades de los dos tipos de errores estn mejor balanceados. El modelo
del rbol deber por consiguiente ser escogido en la ausencia de informacin de
costos de los dos errores, o cuando los costos son mas o menos equivalentes.
[Giu03]
La tabla 40 muestra la matriz de confusin para el modelo de los vecinos ms
cercanos.
Observad
o
Predicho
0
1
41.34
17.60
12.14
28.92
Fuente: [Giu03]
Resulta que el modelo de los vecinos mas cercanos tiene el mismo ndice de error
de clasificacin del modelo del rbol, 29.74%, y por ello es bueno en general. Pero
las probabilidades para los errores tipo 1 y tipo 2 son ligeramente mas
desbalanceados, y el modelo de los vecinos mas cercanos tiene la probabilidad de
error tipo 1 mas bajo entre los modelos considerados. Por lo tanto, si los costos
170
del error tipo 1 son mayores que los costos del error tipo 2, el modelo de los
vecinos ms cercanos debera ser escogido. Si los costos del error relativo no
estn en consideracin, los modelos del vecino ms cercano y el modelo del rbol
CART pueden ser escogidos, pues reducen al mnimo el ndice de error de
clasificacin sobre el conjunto de datos de validacin. [Giu03]
Se ve que los rboles de clasificacin y el modelo de los vecinos ms cercanos
son las mejores herramientas para esta tarea predictiva. Sin embargo hay una
diferencia de interpretacin que debe ser tomada en cuenta. Los rboles de
clasificacin producen reglas que son fciles de interpretar en trminos lgicos,
pero el modelo de los vecinos mas cercanos no entregan reglan explicitas. Estos
modelos de los vecinos mas cercanos son herramientas no parametricas, por lo
tanto tienen las ventaja de no requerir fuertes asunciones para el modelado, pero
son mas duros de interpretar. Escoger entre las dos herramientas depende de
quien va a utilizar los resultados; si los resultados van para estadsticos o para
expertos de IT. Los rboles son probablemente mejores para expertos en el
negocio quienes les gustara una representacin mas amigable para el usuario de
lo que esta pasando realmente. [Giu03]
171
relacin con el usuario, lo que hizo que se incrementaron las ventas y por ende la
rentabilidad de la empresa.
El sistema CRM cuenta con la ayuda de la minera de datos para conocer cuales
son las necesidades ms probables de cada cliente; la idea es tratar de
personalizar al mximo el tratamiento que se le da al cliente. [CRM05]
El hecho de contar con la capacidad analtica que da la minera de datos, se
generaron modelos especficos que se ajustaban a los problemas de negocio y a
los datos que se tenan. Los beneficios de adoptar estos modelos de minera
fueron los siguientes: [CRM05]
Minimizaron los costos, captando a los clientes de una forma ms eficaz.
Ampliaron los beneficios, evitando que los clientes se fueran con la
competencia.
Se dirigieron campaas de marketing solamente sobre la gente con ms
probabilidades de responder y llegar a convertirse en clientes rentables. Se trato
de conocer el perfil de los clientes mas propensos a comprar los productos de la
empresa, de esta forma se enfocaron esas campaas de marketing para
conseguir el mayor retorno de inversin. [CRM05]
Se identificaron aquellos clientes con ms posibilidades de abandonar la empresa
y utilizar a la competencia y porque razn hara esto. Se tomaron las medidas
necesarias para tratar de evitar esta desercin. Algunas de estas medidas fueron
por ejemplo hacer promociones especiales que daban mejores beneficios entre
mas antiguo fuera el cliente, mayores facilidades de pago, regalos en ocasiones
especiales, etc.
172
Para las empresas es ms costoso tratar de adquirir nuevos clientes que tratar de
retener los que ya se tienen; esta es la razn de que se implementaran estas
estrategias de fidelizacin. [CRM05]
Este nuevo CRM permiti actuar sobre las oportunidades ms rentables del
mercado, y a la vez se tuvo el conocimiento necesario de los clientes para
responder a las cuestiones estratgicas que se plantearon para mejorar la
rentabilidad de las relaciones. [CRM05]
Un proyecto especfico que se sigui fue el recomendar productos que los clientes
compraran con mayor probabilidad y de esta forma incrementar las ventas. Para
esto generaron modelos de cestas de compras para observar que productos eran
comprados juntos. Con estas recomendaciones no solo se dieron cuenta de que
las ventas se incrementaron, sino que tambin se solidificaron las relaciones con
los clientes.
Se incluyeron nuevos productos en el portafolio de la empresa, basados en las
nuevas necesidades y deseos de los clientes, incrementando la satisfaccin de
estos y aumentando la vida de cada cliente.
En general, se puede ver que la mayora de los casos tratados en este capitulo
tratan problemas de negocios de empresas de comercio, donde el objetivo
principal era aumentar las ganancias de la organizacin. Aunque tambin se pudo
estudiar el caso del banco que pretenda hacer una mejor segmentacin de los
clientes, pero apuntando a enfilar y mejorar sus estrategias de mercadeo y ventas
hacia estos segmentos, lo que le representara mejores dividendos. Segn esto y
lo visto a travs de la investigacin se puede notar que aunque la minera de datos
es aplicable en muchos campos, las principales aplicaciones que se han hecho
son en el campo de las empresas de retail y en el sector financiero y de seguros.
173
174
3.1.
La siguiente tabla presenta las fases que se recomiendan seguir para un proceso
de bsqueda, seleccin y evaluacin de herramientas de minera de datos. En
general, esta estructura puede ser seguida en el proceso de seleccin de
cualquier tipo de
175
46
176
Caractersticas Tcnica-Funcionales:
Metodologa / Ciclo de vida soportado por la herramienta.
Adaptabilidad y flexibilidad para la toma de datos
o Desde una Base de Datos: cantidad de formatos soportados para la
toma de datos desde bases de datos diversas.
o Desde Fuentes Externas: Cantidad de formatos soportados para la
toma de datos.
Facilidad para integrar diferentes tcnicas de Minera de Datos
Multi-lenguaje: permite trabajar en diferentes lenguajes (i.e. ingles)
Cantidad de tcnicas que posee para el minado de los datos
Herramientas de visualizacin e informe
Multiplataforma: posibilidad de desempearse en varias plataformas
Instalacin remota: permite instalacin y trabajo tcnico de forma remota
Mltiples Usuarios: trabaja con una estructura que permite mltiples
usuarios
Seguridad: maneja perfiles de seguridad por tipos de usuarios
Metodologas para copias de resguardo y recuperacin de datos
Tipos de interfaz de la herramienta
Posee herramientas que administran las distintas versiones generadas
Posee Documentacin tcnica
Conectividad externa (i.e. Internet, EDI, etc.)
Compatibilidad con correo electrnico
Caractersticas de Proveedores:
Solidez del proveedor
Ganancias
Cantidad de empleados
Clientes
Perspectivas de evolucin del proveedor en el mercado
Ubicacin de las oficinas
177
178
3.2.
Fuente: [Met04]
179
180
181
esta
herramienta
tiene
la
opcin
de
generar
volcado de los
182
183
184
185
HP-UX
Digital Unix [Sas05]
Algunos campos de aplicacin:
Honda mejora la seguridad y la satisfaccin de sus clientes mientras se ahorra
millones de dlares en costos de garantas
Usando SAS Enterprise Miner, para un sistema de deteccin temprana, honda
utiliza la informacin que resulta de la retroalimentacin realizada por los
clientes y tcnicos, resultando en el mejoramiento de la ingeniera para la
construccin de mejores vehculos.
American Honda
Sector Automotriz
Mayores beneficios a travs de puntajes de crdito
Despus de la recuperacin de la economa americana, los emisores de
tarjetas de crdito se encuentran buscando reas a cultivar y as mejorar las
ganancias. Capital Card realiza estrategias de seleccin y de entendimiento de
los riesgos que implica incursionar en nuevos segmentos de la poblacin. Con
la ayuda de SAS Enterprise Miner, analiza las grandes almacenes de datos
para hacer mejores decisiones.
Capital Card Bank
Sector Financiero
Trabajando con SAS, Alfonso Pedraza, profesor de operaciones y tecnologa,
esta introduciendo a los futuros profesionales en la ciencia de la Minera de
Datos.
Universidad de los Andes
Bogota, Colombia
Sector de la Educacin
SAS Enterprise Miner, ayuda a Vermont Country Store a mantener una relacin
intima con sus clientes, encontrando mejores caminos para enviar por correo
sus catlogos a los diferentes clientes. Larry Shaw dice: Cuando uno enva
186
187
Metodologa de referencia:
Realiza una implementacin completa del modelo de proceso KDD, utilizando una
metodologa propietaria que tiene como referente la metodologa mundialmente
conocida CRISP-DM.
Metodologa Oracle:
1. Definicin del problema
2. Preparacin de los datos
a. Acceso a los datos
b. Muestreo de los datos
c. Transformacin de los datos
3. Construccin del modelo y evaluacin
a. Crear el modelo
b. Probar el modelo
c. Evaluar e interpretar el modelo
4. Ejecucin del conocimiento
a. Aplicar el modelo
b. Reportes personalizados
c. Aplicaciones externas [Ber05]
Proveedor
Oracle Corporation
Caractersticas
El acceso a datos en diversos formatos: Almacenes de datos, Bases de datos
relacionales (Oracle, SQL Server, Informix y Sybase), Archivos planos,
Conjuntos de datos SAS
Preprocesado de datos:
o Muestreo de datos
188
189
190
Prediccin
Anlisis de series temporales
IBM DB2 Intelligent Miner es el conjunto de los siguientes productos:
Intelligent Miner Scoring
Intelligent Miner Modeling
Intelligent Miner visualization
Intelligent Miner for data48
Metodologa:
IBM Intelligent Miner utiliza una metodologa propietaria que tiene como referente
la metodologa mundialmente conocida CRISP-DM.
1. Definir el problema del Negocio.
2. Definir el modelo de datos a utilizar
3. fuente y preprocesamiento de los datos
4. seleccionar la tcnica de Minera de Datos
5. Interpretar los resultados obtenidos
6. Presentar los resultados
Proveedor:
IBM Corporacin
Caractersticas tcnicas
[IBM04] Acceso a Datos: DB2, Archivos planos, Variedad de datos accesibles
mediante la herramienta Datajoine, como por ejemplo: Oracle y TeraData.
Tcnicas de aprendizaje:
o rboles de Decisin (versin modificada de CART)
o K-means
o Redes neuronales (MLP, propagacin hacia atrs, RBF)
o Regresin Lineal
48
Articulo: Manual de referencia de Administracin y Programacin de DB2 Intelligent Miner v8.2 (2005)
191
Intelligent
Miner
Visualization
proporciona
los
siguientes
192
o Venta cruzada
o Planes de comercializacin personalizados para diferentes tipos de
clientes
o Toma de dediciones sobre el medio a utilizar
o Anlisis de los objetivos de compra
o Muchos otros sectores
La funcin de minera de asociacin se utiliza para:
o Determinar que producto o productos es probable que se encuentre
en una transaccin si en esta se dan determinados productos.
La funcin de minera de regresin se utiliza para:
o Determinar a cuantos clientes debe dirigirse si desea lograr un
volumen de negocio determinado.
o Determinar de cuanto debe ser el volumen de negocio a dirigir, a
cierta cantidad de clientes49
Casos:
El Banco de Montreal buscaba una relacin ms estrecha y estable con sus
clientes, tener un servicio al cliente proactivo en lugar de reactivo y tener
una idea clara y amplia de cada una de las relaciones con los clientes del
negocio, para as entender mejor sus necesidades y deseos. Con Intelligent
Miner lograron todos estos desafos.
Murray Sutherland
VP Sales and Service
En un ambiente de alta competencia y un mercado constantemente en
cambio, SPARQ pas de tener a IBM como administrador de informacin a
tener a IBM como una herramienta de soporte de estrategias de mercadeo,
realzando la capacidad de leer el pulso del mercado y tomar decisiones
ms eficaces para mantenerse competitivos.
Ling Dongjie.
49
193
Departamento de Mercadeo
Con la misin de traducir todos los descubrimientos genticos en nuevos
tratamientos, TGEN requiere de poderosas capacidades de computacin
para manejar las enormes demandas de procesamiento de anlisis
genticos avanzados. Con la adquisicin del nuevo sistema que les permite
tener ms escalabilidad y un avanzado proceso de minera de datos,
consiguieron tener como beneficio: 2 trillones de calculaciones por
segundo, reduciendo el tiempo del ciclo en un 99%.
Dr. George Poste
TGEN institute
Representantes en Colombia:
IBM de Colombia
628-1000 en Bogot
01 8000 917555 a nivel nacional
Fax: (57) 1-635-7611
Carrera 53 No. 100-25
Bogot Colombia
194
perfil de los clientes con ms valor para la compaa o identificar factores con gran
influencia en las ventas.
Descripcin de la herramienta: Comnmente, las herramientas de minera
de datos, proveen una serie de algoritmos independientes, mientras que
cleverpath proporciona un solo algoritmo llamado Funcional Link Net. Este
algoritmo patentado se encuentra a un nivel muy bajo y no es expuesto a
los usuarios, pero puede ser ejecutado de diferentes maneras (e.g. la
clasificacin y clusttering son una instanciacion del algoritmo). Cada
instanciacion es conocida como un Neugent.
Arquitectura: El mayor componente de esta herramienta es el Neugent IDE
(integrated development inviroment).
Arquitecturas Nuegent:
o Clustering
o Decisin tree
o Prediccin de eventos
o Prediccin de valores, el cual incluye un mecanismo para soportar
anlisis de sensibilidad.
Plataformas:
Windows NT family
Sun Solaris
Casos de aplicacin:
CRMs
Cross-selling
Mercadeo directo
Calidad de productos
Recomendacin de productos
Manejo de riesgos
Deteccin de fraudes
195
Diseo de torpedos
Prediccin de lesiones de jugadores
Prediccin de funcionamiento de jugadores
Representantes en Colombia:
Computer Associates de Colombia
Edificio grupo Santander Central Hispano carrera 7
No. 99- 53 torre 2 oficina 401
Bogota- Colombia
Telfono: (571) 6326000
Fax: (571) 6326001
http://www.ca.com/offices/colombia/contact.htm
196
o Provee el descubrimiento de
patrones
en
los
datos:
Este
SI
No
197
Si
Si
198
Campos de Aplicacin:
Identificacin de comportamiento de los clientes, especialmente de aquellos
que tienen intencin de irse, para as tomar medidas correctivas.
Identificacin de nuevos nichos de mercado.
Cross-Selling
Clasificacin de clientes e identificacin de los clientes importantes
Segmentacin del mercado para realizar un mejor mercadeo segn las
necesidades del segmento.
Prediccin del comportamiento de los clientes y productos que ellos usaran.
Clasificacin de mercados, obtener la campana de mercadeo correcta y el
tiempo correcto.
Manejo de canales de distribucin50
No existe Representantes en Colombia
http://www.kxen.com/industries/finance.php
199
200
Campos de aplicacin:
Deteccin de fraudes
Anlisis de campaas de mercadeo.
Anlisis de comportamiento de los clientes
Gestin de calidad de datos
Reducir de fuga de clientes
Anlisis financieros
Anlisis en Biomedicina
No existe representante en Colombia
201
Rango de precios
Proveedores
Nivel empresarial
SAS
SPSS
Oracle
KXEN
Insightfull
IBM
Fair Isaac
Nivel Departamental
Angoss
Cart/Mars/TreeNet
Megaputer
Microsoft SQL Server
ThinkAnalytics
Equbits
GhostMiner
Mineset
202
Nivel Personal
Excel
See5
Fuente: http://www.kdnuggets.com
Estos precios son basados en datos entregados en las encuesta realizadas y
presentan una idea general de cmo se encuentran los precios de las
herramientas mas reconocidas en el mercado mundial que puede ser tomado solo
como punto referente en el caso de Colombia.
3.3.
203
Fuente: http://www.kdnuggets.com/
por usuarios
204
Figura 20
Herramientas de MD ms utilizadas en el 2005
Fuente: http://www.kdnuggets.com/
Por ultimo, en la ilustracin 21 que se tiene a continuacin, se muestra un grafico
con los resultados obtenido en una encuesta que muestra cuales son los campos
y sectores que ms utilizan la minera de datos como herramienta de soporte al
negocio.
205
Fuente: http://www.kdnuggets.com/
Estos resultados muestran que uno de los campos donde ms se ha explotado los
beneficios de la minera de datos a nivel mundial, es en la administracin de las
relaciones comerciales con los clientes. Es por esto que para completar este
anlisis, se presenta el siguiente cuadrante realizado por GARTNER [Her06] que
muestra las herramientas mas utilizadas a nivel mundial en el campo de CRM.
206
Fuente: [Her06]
Se puede observar como SAS con SAS Enterprise Miner y SPSS con Clementine
son los lderes en herramientas de minera de datos que se encuentran enfocadas
en la administracin de relaciones comerciales con clientes.
La ilustracin presenta a los proveedores en 4 cuadrantes diferentes, segn el
posicionamiento de sus herramientas, las funcionalidades que presentan y la
visin que ellos tienen del mercado.
207
del
minado de datos de clientes, es por esto que tienen sus objetivos centrados en
esto. Por ultimo los actores de nicho, los cuales se centran en un segmento
especfico del mercado, estn enfocados en una funcionalidad especfica de CRM.
3.4.
Ahora, despus de tener una visin clara de lo que esta ocurriendo a nivel mundial
con respecto a la minera de datos y sus proveedores, se pasara a analizar como
se encuentra este mercado en el mbito nacional.
Dentro de las herramientas analizadas anteriormente y que se presentaron como
las principales a nivel mundial, se tienen 5 de estos trece proveedores en
Colombia: SPSS, SAS, Oracle, IBM y Computer Associates. Pero no solo estos
proveedores con sus herramientas tienen presencia en Colombia en el campo de
Minera de Datos, en la siguiente tabla se presentara el conjunto de proveedores y
herramientas ms representativas a nivel nacional. La informacin que se muestra
fue basada en entrevistas realizadas a los diferentes proveedores y en el hecho de
que se tienen una representacin autorizada en Colombia.
Aunque algunos de los proveedores no presentan casos de xito en Colombia
hasta el momento, esto no significa que ellos no tengan la herramienta disponible
208
Herramienta de
Sector en el que se ha
Proyectos
Minera de Datos
aplicado en Colombia
Realizados
SPSS
SPSS Clementine
Oracle
ODMS
Sector de telecomunicaciones
SAS
SAS Enterprise
Miner
Computer
Cleverpath
No
existen
casos
de
xito
Predictive Anlisis
IBM
DB2 Intelligent
Sector Publico
Miner
Teradata
Warehouse Miner
Associates
Microsoft
de
2
0
209
210
Caractersticas tcnicas
Tcnicas de Modelado
o Regresin Lineal
o Regresin logstica
o Anlisis de factores
o Arboles de decisin
o Clustering
o reglas de asociacin y anlisis de secuencias
Visualizacin de Datos
o Estadsticas descriptivas
o Regresin Lineal y logstica
o Anlisis de clusters
Plataformas
Windows XP, 2000, NT
Campos de aplicacin
Segmentacin de clientes
Identificacin de clientes que puedan responder a una promocin especifica.
Deteccin de Fraudes.
Identificacin de clientes que posiblemente se retiraran.
Optimizacin de canales de comunicacin con los clientes.
Representantes en Colombia
Contacto: Gustavo Correa
Carrera 37 # 30 20
Bogota, Colombia
TEL: 369 2000 Ext. 201
Email: Gustavo.correa@ncr.com
211
52
http://www.microsoft.com/latam/technet/productos/servers/sql/2005/dwsqlsy.mspx
212
Plataformas
Windows
Campos de aplicacin
Anlisis de riesgos crediticios
Anlisis de rotacin de clientes
Retencin de clientes
Anlisis de perfil
Campanas de distribucin de correos
Anlisis de cesta familiar
Pronostico de ventas
Prediccin de cotizacin de acciones
Cotizacin de tazas del seguro
Deteccin de fraudes
Anlisis de infusin de red [SQL05]
Representantes en Colombia
Microsoft Colombia
Tel: 01 800 051 0595
http://support.microsoft.com/gp/contactenos/?ln=es-la
213
214
215
216