Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CASO PRACTICO
Universidad FUNIBER
29/7/2019
TI016 - Business Intelligence y Gestión Documental 2
1. ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para cumplir el
primer paso de la metodología CRIS-DM?
Según Fundación Telefónica 2013, los pasos que se llevan acabo dentro de la metodología CRISP-DM
son:
2. ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para comprender la
naturaleza de los datos involucrados en el negocio?
Este punto hace referencia al segundo paso mencionado en la pregunta anterior, en el que se evalúan
los datos obtenidos. Para el cumplimiento de este, el equipo de trabajo realizó lo siguiente:
o Luego de este análisis, se llegó a la conclusión de que los métodos actuales no son
eficaces ya que detecta el fraude cuando éste es ya muy obvio. Es imperativo una
mejora en el proceso de detección que ayude a prevenir dichos fraudes, o, en caso de
que se presenten, reducir el tiempo de descubrimiento de estos.
- Reuniones con personal especializado de la empresa, con el fin de obtener información
valiosa del modelo de base de datos relacional del sistema de información de esta.
“Preparación de los datos: Selección de los datos sobre los cuales se aplicarán técnicas
analíticas de extracción de información.”
A fin de diseñar la mejor solución, se seleccionaron los siguientes datos, de donde se extraerá la
información para la detección de fraudes. La investigación se enfocó en el estudio del Subsistema de
Facturación, perteneciente al área de Gerencia de Clientes.
4. Mencione que etapa le sigue a la preparación de los datos y de qué modo fue
realizada por el equipo de trabajo.
“Modelado: Se selecciona la técnica de modelado más adecuada para alcanzar los objetivos
del proyecto.”
Habiendo escogido los datos de las cuales se extraerá la información, se procede a la etapa de
modelado, como se menciona arriba. Los siguientes criterios fueron los utilizados para la escogencia de
esta.
-Analizar y entregar indicadores sobre los datos de consumo de servicios entregados, tiempo,
ubicacion donde se entrega el servicio y características del servicio.
Se determinó que la herramienta que cumpliera más fielmente los objetivos propuestos sería
Clementine 1. Esta a su vez utiliza la metodología CRISP-DM para el ciclo de MD.
Los siguientes fueron los algoritmos utilizados por Clementine para la creación de los grupos
homólogos.
K-Means
Según Pérez et al 2007, este algoritmo consiste en asignar etiquetas a los patrones que
identifiquen subgrupos naturales en el conjunto de datos. El objetivo es partir los datos en un cierto
numero de subconjuntos naturales y homogéneos, donde los elementos de cada conjunto son tan
similares como sea posible entre ellos y que, al mismo tiempo, sean lo mas distinto posible a los demás
subconjuntos.
COBWEB
Según Garre et al 2007, este algoritmo se caracteriza porque utiliza aprendizaje incremental, esto
es, realiza las agrupaciones instancia a instancia. Durante la ejecución del algoritmo se forma un árbol
(árbol de clasificación) donde las hojas representan los segmentos y el nodo raíz engloba por completo el
conjunto de datos de entrada. Al principio, el árbol consiste en un único nodo raíz. Las instancias se van
añadiendo una a una y el árbol se va actualizando en cada paso. La actualización consiste en encontrar el
mejor sitio donde incluir la nueva instancia, operación que puede necesitar de la reestructuración de todo
el árbol o simplemente la inclusión de la instancia en un nodo que ya existía.
EM
Según Garre et al 2007, EM es un método de clustering probabilístico. Se trata de obtener la FDP
(Función de Densidad de Probabilidad) desconocida a la que pertenecen el conjunto completo de datos.
Cada cluster se corresponde con las respectivas muestras de datos que pertenecen a cada una de las
densidades que se mezclan.
“Evaluación del modelo: Se interpreta si los resultados obtenidos, basándose en el modelo escogido, se
adaptan a los objetivos del proyecto. “
Repasemos los objetivos iniciales del proyecto en cuestión: A partir de la Minería de Datos,
localizar y estudiar comportamientos anómalos sobre conjuntos de datos, para poder así identificar
posibles fraudes en clientes que hacen uso indebido de los servicios que ofrece la empresa.
Este objetivo se logró mediante la creación de grupos homólogos, los cuales fueron utilizados para
dividir los datos con los que se cuenta en diversos grupos con características similares. Todos los datos
que presentaran un comportamiento anómalo, en cuanto parámetros ya establecidos, se consideran
como posible situación de fraude. La siguiente imagen muestra el resultado de uno de los algoritmos
TI016 - Business Intelligence y Gestión Documental 6
implementados, donde se visualiza ya una separación entre los datos que pueden considerarse como
normales y los anómalos.
Según lo expuesto en los párrafos anteriores, los objetivos del proyecto se cumplen utilizando los
métodos escogidos.
Al evaluar todos los datos obtenidos, la empresa llego a la conclusión de que el algoritmo EM es
el más adecuado para el cumplimiento del objetivo. Habiendo decidido esto, se procede a utilizarlo
periódicamente para poder encontrar posibles casos de fraude. Con estos resultados, técnicos pueden ir
al sitio donde se encuentran estos clientes y hacer la verificación de que efectivamente si se trata de un
caso de fraude.
TI016 - Business Intelligence y Gestión Documental 7
II. Referencias
Garre, M. & J.J, Cuadrado & M, Sicilia. & D, Rodriguez. & R, Rejas. 2007. Comparación
REICIS. Revista Española de Innovación, Calidad e Ingeniería del Software [en linea] 2007, 3.
Recuperado de https://www.redalyc.org/pdf/922/92230103.pdf
Pérez, I. & B, León. 2007. Lógica difusa para principiantes: teoría y práctica. Editorial