Sei sulla pagina 1di 7

TI016 - Business Intelligence y Gestión Documental 1

TI016 - Business Intelligence y Gestión Documental

CASO PRACTICO

Fabián Castillo Chaves

Universidad FUNIBER

29/7/2019
TI016 - Business Intelligence y Gestión Documental 2

I. Lea y analice el caso práctico que encontrará a continuación y


responda las siguientes interrogantes atendiendo al modelo
presentado anteriormente.

1. ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para cumplir el
primer paso de la metodología CRIS-DM?

Según Fundación Telefónica 2013, los pasos que se llevan acabo dentro de la metodología CRISP-DM
son:

- Comprensión de negocio: Agrupa las actividades conducentes al entendimiento de los


requisitos que la Administración Pública tiene respecto al tratamiento de su información.
- Comprensión de los datos: Abarca el análisis de la información generada, evaluando la calidad
de la información y estableciendo las primeras relaciones entre los datos.
- Preparación de los datos: Selección de los datos sobre los cuales se aplicarán técnicas
analíticas de extracción de información.
- Modelado: Se selecciona la técnica de modelado más adecuada para alcanzar los objetivos
del proyecto.
- Evaluación del modelo: Se interpreta si los resultados obtenidos, basándose en el modelo
escogido, se adaptan a los objetivos del proyecto.
- Implementación: Implantación para la explotación continua de la información.

Para el cumplimiento del primer punto, el equipo de trabajo realizó lo siguiente:

- Reuniones con Gerencia de clientes.


- Determinación de la cantidad de fraude cometido por consumidores.
- Evaluación de las técnicas actuales para detección de fraudes.

2. ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para comprender la
naturaleza de los datos involucrados en el negocio?

“Comprensión de los datos: Abarca el análisis de la información generada, evaluando la calidad de la


información y estableciendo las primeras relaciones entre los datos.”

Este punto hace referencia al segundo paso mencionado en la pregunta anterior, en el que se evalúan
los datos obtenidos. Para el cumplimiento de este, el equipo de trabajo realizó lo siguiente:

- Determinación de la cantidad de fraude cometido por consumidores.


o Se concluye que la cantidad de fraude es relativamente baja. Hay que tomar en
cuenta que gran cantidad de fraudes pueden no ser detectados, por lo que la cifra
que presenta el enunciado no presenta alto grado de fidelidad.
- Evaluación de las técnicas actuales para detección de fraudes.
TI016 - Business Intelligence y Gestión Documental 3

o Luego de este análisis, se llegó a la conclusión de que los métodos actuales no son
eficaces ya que detecta el fraude cuando éste es ya muy obvio. Es imperativo una
mejora en el proceso de detección que ayude a prevenir dichos fraudes, o, en caso de
que se presenten, reducir el tiempo de descubrimiento de estos.
- Reuniones con personal especializado de la empresa, con el fin de obtener información
valiosa del modelo de base de datos relacional del sistema de información de esta.

3. Explique el proceso utilizado para acometer la preparación de los datos en la


organización.

“Preparación de los datos: Selección de los datos sobre los cuales se aplicarán técnicas
analíticas de extracción de información.”

A fin de diseñar la mejor solución, se seleccionaron los siguientes datos, de donde se extraerá la
información para la detección de fraudes. La investigación se enfocó en el estudio del Subsistema de
Facturación, perteneciente al área de Gerencia de Clientes.

- Revisión física de los medidores, con el fin de encontrar anomalías.


- Revisión del consumo mensual de uso de agua potable y alcantarillado.

De estos últimos datos se pretende obtener la siguiente información.

- Lugar: Localidad – Sector – Ruta


- Servicio: Tipo – Servicio
- Tiempo: Dia – Semana – Año – Trimestre – Mes.

4. Mencione que etapa le sigue a la preparación de los datos y de qué modo fue
realizada por el equipo de trabajo.

“Modelado: Se selecciona la técnica de modelado más adecuada para alcanzar los objetivos
del proyecto.”

Habiendo escogido los datos de las cuales se extraerá la información, se procede a la etapa de
modelado, como se menciona arriba. Los siguientes criterios fueron los utilizados para la escogencia de
esta.

-Analizar y entregar indicadores sobre los datos de consumo de servicios entregados, tiempo,
ubicacion donde se entrega el servicio y características del servicio.

-Capacidad de análisis visual, matemático y entrega de reportes.


TI016 - Business Intelligence y Gestión Documental 4

Se determinó que la herramienta que cumpliera más fielmente los objetivos propuestos sería
Clementine 1. Esta a su vez utiliza la metodología CRISP-DM para el ciclo de MD.

Ya que el análisis se enfocó en un sector de la compañía solamente, se redujo a implementar un


Data Mart. El mismo se diseño de la siguiente manera.

Clementine basa su funcionamiento en la creación de grupos homólogos, dada la asignación de


ciertos parámetros. La siguiente imagen muestra la configuración de los parámetros para la generación
de estos grupos.
TI016 - Business Intelligence y Gestión Documental 5

5. ¿Cuáles fueron los algoritmos utilizados?

Los siguientes fueron los algoritmos utilizados por Clementine para la creación de los grupos
homólogos.

K-Means
Según Pérez et al 2007, este algoritmo consiste en asignar etiquetas a los patrones que
identifiquen subgrupos naturales en el conjunto de datos. El objetivo es partir los datos en un cierto
numero de subconjuntos naturales y homogéneos, donde los elementos de cada conjunto son tan
similares como sea posible entre ellos y que, al mismo tiempo, sean lo mas distinto posible a los demás
subconjuntos.

COBWEB
Según Garre et al 2007, este algoritmo se caracteriza porque utiliza aprendizaje incremental, esto
es, realiza las agrupaciones instancia a instancia. Durante la ejecución del algoritmo se forma un árbol
(árbol de clasificación) donde las hojas representan los segmentos y el nodo raíz engloba por completo el
conjunto de datos de entrada. Al principio, el árbol consiste en un único nodo raíz. Las instancias se van
añadiendo una a una y el árbol se va actualizando en cada paso. La actualización consiste en encontrar el
mejor sitio donde incluir la nueva instancia, operación que puede necesitar de la reestructuración de todo
el árbol o simplemente la inclusión de la instancia en un nodo que ya existía.

EM
Según Garre et al 2007, EM es un método de clustering probabilístico. Se trata de obtener la FDP
(Función de Densidad de Probabilidad) desconocida a la que pertenecen el conjunto completo de datos.
Cada cluster se corresponde con las respectivas muestras de datos que pertenecen a cada una de las
densidades que se mezclan.

6. ¿De qué forma se logró garantizar la fase de evaluación en el proyecto?

“Evaluación del modelo: Se interpreta si los resultados obtenidos, basándose en el modelo escogido, se
adaptan a los objetivos del proyecto. “

Repasemos los objetivos iniciales del proyecto en cuestión: A partir de la Minería de Datos,
localizar y estudiar comportamientos anómalos sobre conjuntos de datos, para poder así identificar
posibles fraudes en clientes que hacen uso indebido de los servicios que ofrece la empresa.

Este objetivo se logró mediante la creación de grupos homólogos, los cuales fueron utilizados para
dividir los datos con los que se cuenta en diversos grupos con características similares. Todos los datos
que presentaran un comportamiento anómalo, en cuanto parámetros ya establecidos, se consideran
como posible situación de fraude. La siguiente imagen muestra el resultado de uno de los algoritmos
TI016 - Business Intelligence y Gestión Documental 6

implementados, donde se visualiza ya una separación entre los datos que pueden considerarse como
normales y los anómalos.

Según lo expuesto en los párrafos anteriores, los objetivos del proyecto se cumplen utilizando los
métodos escogidos.

7. Explique brevemente la fase de implementación del proyecto.

“Implementación: Implantación para la explotación continua de la información.”

Al evaluar todos los datos obtenidos, la empresa llego a la conclusión de que el algoritmo EM es
el más adecuado para el cumplimiento del objetivo. Habiendo decidido esto, se procede a utilizarlo
periódicamente para poder encontrar posibles casos de fraude. Con estos resultados, técnicos pueden ir
al sitio donde se encuentran estos clientes y hacer la verificación de que efectivamente si se trata de un
caso de fraude.
TI016 - Business Intelligence y Gestión Documental 7

II. Referencias

Fundación Telefónica. 2013. Las TIC en el Gobierno abierto: Transparencia,

participación y colaboración. Ediciones Ariel, SA. Madrid, España.

Garre, M. & J.J, Cuadrado & M, Sicilia. & D, Rodriguez. & R, Rejas. 2007. Comparación

de diferentes algoritmos de clustering en la estimación de coste en el desarrollo de software.

REICIS. Revista Española de Innovación, Calidad e Ingeniería del Software [en linea] 2007, 3.

Recuperado de https://www.redalyc.org/pdf/922/92230103.pdf

Pérez, I. & B, León. 2007. Lógica difusa para principiantes: teoría y práctica. Editorial

Texto, C.A. Caracas, Venezuela.

Potrebbero piacerti anche