Sei sulla pagina 1di 65

GESPRO-MD 1.0

Guía de usuario paso a paso para su utilización y explotación

Guía de usuario paso a pa so para su utilización y explotación ©Rodrigo Muñoz Loyola® Todos

©Rodrigo Muñoz Loyola®

Todos los derechos reservados

Prefacio

Desde tiempos inmemoriales el desarrollo tecnológico de la humanidad ha sido una constante, pero en los últimos siglos este se ha vuelto cada vez más rápido al encontrar prontamente una aplicación práctica a los correspondientes avances científicos.

Si nos remontamos hace unos cuantos siglos atrás, a mediados del siglo XVIII, el hombre pudo apreciar como un conjunto de cambios tecnológicos iniciados en el Reino Unido comenzaban a cambiar profundamente los esquemas políticos, económicos y sociales que imperaban en el mundo hasta entonces, era la revolución industrial.

En las últimas décadas se ha podido apreciar con más claridad aún como las tecnologías avanzan cada vez de forma más vertiginosa, sorprendiéndonos constantemente con sus descubrimientos y posibilidades.

Es así como llegamos a la actualidad y nos encontramos inmersos en la Sociedad de la Información, donde todo fluye de forma dinámica y los escenarios en los cuales se desenvuelven las organizaciones cambian constantemente de forma drástica. Estos cambios suponen tener que estar siempre alerta para tomar le mejor decisión frente al mercado cada vez más competitivo y exigente. Estas decisiones no son sencillas, ya que por lo general involucran el análisis de ingentes volúmenes de datos que permitan reducir de forma razonable el riesgo e incertidumbre asociado a cada una de ellas, es en este contexto que cada vez es más frecuente el uso de tecnologías de información con resultados positivos.

Hace poco más de una década atrás era casi imposible pensar en contar con sistemas capaces de procesar los volúmenes de información de grandes empresas para la ayuda a la toma de decisiones, ya que los ordenadores en ese entonces no contaban con la capacidad suficiente o no resultaba rentable, y de existir centros de cómputos con tales características estos se utilizaban dentro de otro contexto (Investigación, Universidades, Seguridad Nacional, etc.). Sin embargo en la actualidad, y en gran

medida como consecuencia del cumplimiento de la Ley de Moore (“cada 18 meses la potencia de los ordenadores se duplica”) vigente hace más de tres décadas, el uso y explotación de recursos tecnológicos resulta cada vez más imprescindible al interior de las organizaciones. Es así como cada día la interacción entre las organizaciones y sus clientes es registrada y almacenada, además al interior de las organizaciones también se generan innumerables hechos que, al igual que los anteriores, son registrados.

De esta forma hace menos de una década las organizaciones comenzaron a darse cuenta que contar con la información que se generaba día a día de forma oportuna les podía reportar grandes beneficios, luego comenzaron a aparecer sistemas capaces de procesar esta información y entregar visualizaciones de la misma para la ayuda a la toma de decisiones, así nacieron varios sistemas bajo las siglas DSS, ERP, MRP, CRM, etc., entre otros. En un comienzo el desarrollo y modificación de estos sistemas resultaba complejo y por lo general su flexibilidad no respondía oportunamente a la dinámica que el negocio y el mercado exigían, esto se debía principalmente a que el soporte de datos no era el adecuado para el tipo de explotación que se estaba realizando sobre ellos. Es así como durante un par de años el paradigma de los sistemas de información de las organizaciones estaba basado en contar con la mayor cantidad de información en línea de sus clientes para satisfacer la demanda de estos.

En la actualidad y desde hace ya un buen par de años el soporte de datos no es un impedimento para explotar los mismos de forma dinámica y flexible ya que existen diversas formas de modelarlos según el uso que se les quiera dar. Es así como desde el momento en que han existido los medios tecnológicos para la utilización eficiente de tecnologías de la información la utilización de estas ha tenido un crecimiento sostenido al interior de las organizaciones con resultados exitosos. Esta masiva y cada vez más generalizada explotación de la información ha cambiado radicalmente el paradigma entorno a ella de forma bastante evidente, hoy ya no basta sólo con contar con información consistente de forma oportuna, hoy el paradigma consiste en la explotación de la información de forma adecuada para tomar las mejores decisiones dentro del mercado minimizando el riesgo y la incertidumbre.

Múltiples son las técnicas y herramientas que existen en la actualidad como solución para la explotación de la información y posterior utilización de los resultados

obtenidos para la toma de decisiones, la clave esta en saber cual es la que nuestra organización necesita y si es la más adecuada para satisfacer los objetivos o necesidades del negocio que estamos enfrentando.

Adentrándonos en el contexto del presente documento, si bien las tecnologías de la información poseen variadas soluciones para apoyar la toma de decisiones como fruto del análisis de la información que posee la organización, como estos temas aún son relativamente nuevos no existen metodologías que indiquen cuales son los pasos indicados a seguir para abordar un proyecto que involucre alguna de estas soluciones. Más específicamente, en Minería de Datos, podemos constatar que en la actualidad dos son las metodologías más utilizadas, SEMMA y CRSIP-DM. La Metodología SEMMA tiene una orientación científica, no tomando en cuenta los objetivos de negocio como objetivos de la Minería de Datos. En segundo lugar, la metodología CRISP-DM, creada en el año 1999, toma los objetivos de negocio y a partir de estos va estructurando el proyecto. Si bien esta metodología satisface varios de los requisitos necesarios para completar un proyecto de Minería de Datos de forma exitosa, se centra casi exclusivamente en el proceso de extracción de conocimiento de la Minería de Datos.

Aparte del proceso de extracción del conocimiento existen otros tópicos de gestión de proyectos, aseguramiento de la calidad y gestión del riesgo ente otros que es necesario incluir debido a que el mercado actual es cada día más competitivo y exigente. Producto de estas necesidades nace la idea de contar con una metodología que, aparte de contar con los pasos necesarios para realización exitosa del proceso de Minería de Datos o extracción de conocimiento, brinde las herramientas necesarias para gestionar de forma exitosa todo el ciclo de vida del proyecto, estructurándolo y separándolo de acuerdo al contexto que se esté abordando y asegurando que el producto obtenido sea de calidad.

De esta forma el siguiente documento constituye una guía de usuario para la utilización de la metodología GESPRO-MD creada para satisfacer las necesidades en la gestión de proyectos de Minería de Datos existentes en la actualidad.

Esta metodología fue concebida como trabajo de proyecto de título y el desarrollo para la obtención de la misma se encuentra disponible a partir del 1 de Enero de 2008 en http://gespro-md.cl

Índice

Introducción…………………………………………………………………………….7

1.- La Metodología GESPRO-MD…………… …………………………………… 1.1.- Estructura Jerárquica……………………………………………… 9

9

2.- Guía de Usuario de le Metodología GESPRO-MD… ………………………….14

A.- Comprender……………………………………………………………………….16

B.- Planificar………………………………………………………………………… 28

C.- PECA………………………………………………………………………………39

D.- Incorporar…………………………………………………………………………55

Introducción

La guía de usuario que a continuación se presenta describe el proceso de la metodología propuesta en el trabajo de proyecto de título titulado “Propuesta de Metodología para la gestión e implantación de proyectos basados en Minería de Datos”, GESPRO-MD, y contiene información acerca de ella para poder ser usada en la gestión de proyectos de Minería de Datos.

La metodología GESPRO-MD es concebida a fines del año 2005 como objetivo general de un proyecto de título para optar al título de Ingeniero Civil en Computación e Informática de la Universidad Central de Chile.

El desafío de generar una propuesta de metodología surge de la necesidad de contar con un modelo para la gestión de proyectos de Minería da Datos a lo largo de todo su ciclo de vida, según los requerimientos que existen hoy en día. Los modelos existentes en la actualidad para abordar proyectos de esta naturaleza no engloban todo el ciclo de vida de los mismos ni cumplen con las exigencias que plantean los mercados actuales. El modelo que mejor se adapta a satisfacer los requerimientos de los objetivos de negocio de las organizaciones al momento de generar esta metodología es el CRISP- DM, concebido en 1999, este no abarca todo el ciclo de vida del proyecto y además no aborda de forma directa y explícita temas como el aseguramiento de la calidad y gestión del riesgo a lo largo de todo el proyecto que, a seis años de su aparición, evolucionaron de manera trascendental, desde el punto de vista de la importancia que tienen al abordar proyectos que involucren productos o soluciones de ingeniería de software.

Hoy en día, como sabemos, la informatización y automatización de almacenamiento de datos del negocio no es algo novedoso, si no que habitual y fundamental al interior de las organizaciones. Es así como nos encontramos ante una nueva revolución, la revolución de la información. Así como hace siglos atrás lo fue la revolución agraria y luego la revolución industrial, hoy por hoy en este mundo cada vez más globalizado la información es el tesoro más preciado de las organizaciones, ya que de la eficiente utilización de esta depende en gran medida la toma de decisiones oportunas y exitosas para competir en los mercados actuales cada vez más dinámicos y

exigentes. Hay que tener cuidado en tener muy claro el paradigma de la revolución de la información, ya que si bien este en un comienzo fue contar con la mayor cantidad de información disponible de forma oportuna (en línea), hoy, debido a la exigencia del mercado y a las grandes potencialidades surgidas gracias a la facilitación de la tecnología, el paradigma es “utilizar y explotar de forma eficiente y oportuna la información disponible para la toma de decisiones estratégicas que permitan adquirir ventajas competitivas dentro del entorno de negocio de las organizaciones”.

Con esto queda claro que hoy en día las organizaciones más exitosas no serán las que posean más información, si bien esto es algo importante, las que sobresaldrán de entre sus pares serán las que exploten de mejor manera la información de la que disponen y en base a los resultados obtenidos tomen las mejores decisiones estratégicas.

Si bien en nuestro entorno actual cada vez más cambiante y con transformaciones tecnológicas que se suceden día a día no podemos asegurar que este paradigma se mantenga por un tiempo prolongado, lo que si se puede decir con seguridad es que las tecnologías de la información llegaron al corazón de las organizaciones no como un artefacto u accesorio de poca monta si no que como parte fundamental de su engranaje y no de forma pasajera, sino que para quedarse.

1

La Metodología GESPRO-MD

El nombre GESPRO-MD de esta metodología es la abreviación de la frase “Gestión de Proyectos basados en Minería de Datos” que resume su funcionalidad.

La metodología GESPRO-MD parte de una visión fundamental, “Gestionar de forma exitosa y segura todo el ciclo de vida de un proyecto de Minería de Datos, asegurando que el producto de software entregado por este será de calidad y parte del proceso de toma de decisiones de la organización”

1.1 Estructura Jerárquica

La metodología GESPRO-MD descrita desde un punto de vista jerárquico parte de una visión encargada de mantener su espíritu. Para poder cumplir con esta visión es necesario realizar una serie de procesos, tareas generales, tareas específicas y actividades por las cuales deberá pasar el proyecto. Cada una de estas instancias estará definida dentro de un nivel de abstracción que irá de lo más general a lo más específico. Dicho de otra forma, partiendo del qué hacer para cumplir la visión al cómo hacerlo.

Para cumplir con lo anterior existirán 4 niveles de abstracción, compuestos por las siguientes instancias:

i. Fases: Cuatro fases compondrán el nivel de abstracción más general, cada una de estas abordará un proceso completamente diferente y acotado dentro de un contexto específico del proyecto. Para cada una de las fases se describirá una misión específica la cual se deberá cumplir través de las etapas. Las fases podrán interactuar de forma secuencial e iterativa con retroalimentación según corresponda, para entregarle al proyecto la flexibilidad e interacción adecuada a lo largo de su ciclo de vida.

ii. Etapas: Estas se ubicarán en el segundo nivel de abstracción y tendrán como propósito cumplir con un objetivo general dentro del contexto abordado en la respectiva fase. El número de las etapas para cada fase será variable y dependerá exclusivamente de los objetivos propuestos en cada una de ellas.

Las etapas funcionarán como un subproceso dentro de cada fase, este proceso podrá ser secuencial o iterativo según corresponda (siempre dentro de su respectiva fase).

Descritos los dos primeros niveles de abstracción más generales de la metodología GESPRO-MD, se muestran las siguientes figuras que grafican la interacción de fases y etapas:

FASE 1 FASE 2 FASE 4 FASE 3
FASE 1
FASE 2
FASE 4
FASE 3
de fases y etapas: FASE 1 FASE 2 FASE 4 FASE 3 Figura 1.1. Estructura (referencial)

Figura 1.1. Estructura (referencial) de las fases de la metodología propuesta.

(referencial) de las fases de la metodología propuesta. Eta pa 1 Etapa 3 Eta pa 2

Etapa 1

de las fases de la metodología propuesta. Eta pa 1 Etapa 3 Eta pa 2 Figura

Etapa 3

Etapa 2

de la metodología propuesta. Eta pa 1 Etapa 3 Eta pa 2 Figura 1.2. Estructura (referencial)

Figura 1.2. Estructura (referencial) de las etapas de la metodología propuesta.

De esta forma los dos primeros niveles de abstracción abordan el que hacer de la metodología, es decir, crear e indicar las instancias necesarias para gestionar el proyecto de Minería de Datos de forma adecuada, de acuerdo a los requerimientos establecidos para proyectos de esta naturaleza.

iii. Tareas: Estas se encuentran en el tercer nivel de abstracción, donde se empieza a definir el “cómo” hacer lo propuesto en los niveles de abstracción más generales para poder resolver y cumplir con los objetivos planteados. Las tareas abordarán un problema u objetivo específico definido dentro del contexto del objetivos general se la respectiva etapa a la que pertenezcan, es decir, para cada objetivo general definido para una etapa existirán N tareas encargadas de abordar un problema específico que ayude a cumplir con el objetivo general de la respectiva etapa.

Cada objetivo específico que compone a una tarea, será llevado a una caja blanca (llamada así ya que se conoce su contenido) del siguiente modo:

Objetivo ó Problema
Objetivo
ó
Problema

COMO HACER

CAJA BLANCA

Resultados
Resultados

Figura 1.3. Como abordar las tareas

Dentro de esta caja blanca, se encuentra el cuarto, último y más específico nivel de abstracción, las actividades, las cuales en conjunto resolverán cada uno de los problemas planteados por las tareas.

iv. Actividades: Estas componen el último y más específico nivel de abstracción. La ejecución de las actividades proporcionaran “salidas” al proyecto, es decir, informes, decisiones, documentos, etc. las cuales deberán resolver el problema u objetivo específico planteado en la respectiva tarea a la que pertenecen.

De esta forma las actividades que compondrán la “caja blanca” de cada una de las tareas quedarán ilustradas de la siguiente forma:

PROBLEMA
PROBLEMA

Actividad 1.

Actividad 2.

Salida 1.1 Salida 1.2 Salida 2 …….
Salida 1.1
Salida 1.2
Salida 2
…….
2. • … Salida 1.1 Salida 1.2 Salida 2 ……. Figura 1.4. Ilustración de las actividades

Figura 1.4. Ilustración de las actividades

P or último, para abordar el aseguramiento de la calidad y la gestión del riesgo en l a metodología, se introducirán las correspondientes tareas, en el tercer nivel de abstracción de forma transversal, durante todo el ciclo de vida del proyecto.

De esta forma los niveles de abstracción de la metodología GESPRO-MD quedarán compuestos como muestra la siguiente figura:

Fases Misión Etapas Objetivos Que hacer Como hacerlo Tareas Actividades Acciones Específicas para cumplir los
Fases
Misión
Etapas
Objetivos
Que hacer
Como hacerlo
Tareas
Actividades
Acciones Específicas para
cumplir los Objetivos

Figura 1.5. Niveles de Abstracción de la Metodología GESPRO-MD. Las flechas rojas y azules representan la transversalidad entre las tareas de aseguramiento de la calidad y gestión del riesgo, respectivamente.

2

Guía de Usuario de le Metodología GESPRO-MD

De aquí en adelante se listará paso a paso como seguir la metodología para abordar un proyecto de Minería de Datos.

La metodología GESPRO-MD se encuentra compuesta por cuatro fases, cada una de estas fases trata un problema diferente, dentro de un contexto específico, a abordar por el proyecto. Para cada una de estas fases de define una misión, la suma de estas misiones, establecerá el cumplimiento de la visión de la metodología.

Las fases estarán compuestas por etapas, las cuales deberán completar la misión de su fase respectiva. A su vez, cada una de las etapas se compondrá de tareas las cuales deberán abordar un objetivo o problema específico para la etapa que pertenecen. Por último la forma de resolver el problema específico de cada una de las tareas será mediante actividades, las cuales describirán el detalle a realizar para cumplir con las tareas especificadas y además tendrán un carácter de salida, es decir, el producto de su realización será un informe, decisión, evaluación, etc.

Además de la definición y composición misma de la metodología GESPRO- MD también es necesario e interesante crear una simbología especial para ella, la cual cumpla con los objetivos de sintetizar sus conceptos más importantes, graficar la funcionalidad de las fases y generar un concepto de marca o imagen corporativa asociado a ella.

La siguiente figura es original y única, concebida exclusivamente para la representación, imagen, publicidad y explotación de la metodología GESPRO-MD.

publicidad y expl otación de la metodología GESPRO-MD. Figura 2.1. Metodología GESPRO-MD ©. En la figura

Figura 2.1. Metodología GESPRO-MD ©.

En la figura se pueden apreciar elementos que sintetizan conceptos como tecnología, organización (empresa), extracción, comprensión e incorporación entre otros. Además, se muestran las fases y la interacción que estas desarrollan a través del ciclo de vida del proyecto.

A.

Comprender

Al iniciar cualquier proyecto que involucre TI el primer desafío que se debe enfrentar es la comprensión del mismo, el problema o necesidad que generó la instancia actual y las componentes tecnológicas involucradas. Es por esto que la comprensión en esta instancia inicial del proyecto resulta crucial, ya que en gran medida de esto dependerá que los requerimientos del cliente sean especificados correctamente y por ende, la solución entregada al final del proyecto sea la esperada.

En esta primera fase se realizarán todas las tareas correspondientes a la comprensión tanto del negocio y el problema que genera la instancia del proyecto como de los datos involucrados.

La fase COMPRENDER se dividirá en dos etapas, Negocio y Datos, las cuales serán secuenciales e iterativas, esto último, sólo cuando sea necesario. De esta forma, al finalizar la etapa Datos, se continuará con la siguiente fase o se podrá retornar a la etapa Negocio si es necesario.

Misión de la fase: Comprender el problema y su entorno (negocio y datos), contextualizarlo y fijar objetivos tanto del negocio como de la Minería de Datos que satisfagan plenamente las necesidades de la organización y las expectativas puestas en el proyecto.

Para cumplir con esta misión deberán existir múltiples tareas y actividades las cuales serán listadas más adelante, separadas por la respectiva etapa a la que pertenecen. Además también se incluirán tareas orientadas al aseguramiento de la calidad y la gestión del riesgo.

Además para esta fase de la metodología GESPRO-MD se ha definido un símbolo diseñado única y exclusivamente para ella, que sintetiza conceptos como comprensión, estadística y tecnología entre otros.

El símbolo que representará esta fase de aquí en adelante será el que se muestra a continuación:

aquí en adelante será el que se muestra a continuación: Figura A.1. Fase Comprender de la

Figura A.1. Fase Comprender de la metodología GESPRO-MD ©.

La interacción de las etapas de la fase comprender será la siguiente:

COMPRENDER

de la fase comprender será la siguiente: COMPRENDE R Negocio D a t o s Figura
de la fase comprender será la siguiente: COMPRENDE R Negocio D a t o s Figura

Negocio

Datos

Figura A.2. Etapas de la Fase Comprender de la metodología GESPRO-MD ©.

Negocio: En esta primera etapa se abordará dentro del contexto de la comprensión inicial el ámbito específico de la organización, esto incluye comprender el negocio y el problema que le generó la necesidad de pensar en una solución de Minería de Datos, para esto se establecen las siguientes tareas:

Tareas:

a) Comprender el problema de negocio: El objetivo de esta tarea será el lograr comprender y contextualizar el know how de la organización y el problema que generó la necesidad de contar con una solución de Minería de Datos, para esto lo primero será comprender tanto el entorno del negocio como las características propias que el posee.

Salidas:

i. Informe del entorno de negocio: Este informe contempla las características generales y específicas del negocio. Estas características se clasificarán como internas y externas, las primeras expresarán políticas internas, organigrama corporativo, etc. Mientras que las segundas mostrarán el rol que cumple la empresa en su entorno de mercado, posición, visión, perfil de clientes, etc.

ii. Informe del problema de negocio: En este informe los encargados del proyecto de Minería de Datos contextualizarán el problema de negocio expresado por los representantes de la organización o del área problema que hicieron pensar en una solución de minería de datos. Es probable que la solución de estos problemas iniciales a menudo sean demasiado ambiciosos, por tanto más adelante deberán ser sometidos a un análisis técnico, desde el punto de vista de la Minería de Datos, en donde se analizará el grado en el cual pueden ser cumplidos y si es que realmente la minería de datos es la solución para ellos.

b) Fijar los objetivos de negocio: En esta tarea se deben traducir los problemas en objetivos de negocio realistas. Este proceso debe ser realizado en conjunto por el jefe del proyecto de Minería de Datos y los representantes de la organización o área problema.

Salidas:

i. Informe de Contexto inicial: Registrar la información actual del negocio, relativa a los objetivos planteados, al inicio del proyecto.

Este contexto inicial será realizado por la organización, en particular por el área problema para ser entregado a los integrantes del proyecto de Minería de Datos.

ii. Informe de objetivos de negocio: Para realizarlo se tomará como base el informe de los problemas de negocio. Con estos objetivos se establecerán, para cada problema de negocio, uno o más objetivos de negocio. De acuerdo al contexto inicial y al grado de complejidad de los problemas se determinará en que grado estos últimos pueden ser solucionados.

Este informe deberá ser completado tanto por los representantes de la organización o área problema como por los representantes del proyecto de Minería de Datos.

iii. Informe de objetivos y criterios de éxito: Quedará establecido en este informa el criterio bajo el cual un objetivo, definido en la actividad anterior, se considerará realizado de forma exitosa, para esto influyen tanto los factores técnicos como los intereses de la organización, por tanto estos criterios deberán ser abordados de forma consensual por ambas partes del proyecto.

c) Evaluar la situación: Corresponde ahora realizar una evaluación de la situación, este será el objetivo de la presente tarea, que consistirá en investigar los recursos de los que se dispone para abordar el proyecto:

Salidas:

i. Inventario de recursos: Este inventario contendrá todos los recursos de los que se disponen en la actualidad, en el se deben incluir, personas, software, hardware y en general cualquier recurso que este disponible para ser utilizado en el proyecto de Minería de Datos. Este documento estará dividido en dos partes, una tecnológica, y otra de recursos humanos, la tecnológica poseerá indicadores técnicos y cuantificables. La segunda parte clasificará el recurso humano según el perfil (empresarial, informático, estadístico) y experiencia que cada uno tenga. Este inventario será realizado por la organización en conjunto con el encargado de proyecto de Minería de Datos (de acuerdo a lo que él estime importante incluir), para realizar la clasificación y resaltar las características más importantes para el proyecto.

ii. Inventario de requerimientos: Este inventario deberá contener los recursos necesarios para la fase inicial del proyecto de minería de datos. Demás está decir que mientras más precario sea el inventario de recursos disponibles más extenso será el de recursos necesarios. Para esta etapa inicial del proyecto en una organización informatizada lo más probable es que este inventario sea reducido, y no vaya más allá de un par de recursos humanos especialistas en minería de datos para realizar las tareas de estimación iniciales.

iii. Informe del proceso actual de informatización: Este informe contendrá el entorno del proceso de informatización que existe en la organización de forma general y de forma detallada del área

problema. Debe contener puntos como el porcentaje de recursos destinados a la informatización, quienes realizan este proceso, como lo realizan, etc.

d) [QA] Fijar objetivos O: En esta tarea se deberá formalizar en un documento los objetivos O. Los cuales contienen los objetivos de negocio con un grado de cumplimiento realista que satisfaga tanto a los representantes del proyecto como a los de la organización.

Salida:

i. Informe de objetivos O: Este informe contendrá todos los objetivos de negocio planteados acompañado de un grado de cumplimiento acordado, por ambas partes participantes en el proyecto, para cada uno de ellos.

e) [RSGR] Plan RSGR para los objetivos de negocio: Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo de cumplimiento de los objetivos O: Esta tabla contendrá los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para objetivos O: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Datos: En esta etapa se llevarán a cabo todas las tareas necesarias para comprender los datos involucrados en el proyecto y establecer los

objetivos de la minería de datos de acuerdo a las posibilidades otorgados por los datos.

Tareas:

a) Recopilación inicial de Datos: Esta recopilación consiste en la obtención de una muestra lo más heterogénea y real posible de los datos involucrados en donde se puedan encontrar representados, a escala, todos los escenarios posibles de datos. Esta recopilación se llevará a cabo mediante las siguientes actividades:

Salidas:

i. Informe de selección de datos iniciales: Este informe contendrá las justificaciones de la selección de los datos iniciales. Esta selección deberá ser objetiva, tomando las situaciones más representativas para cada caso.

ii. Informe de recopilación: Listar el dataset (o datasets) adquirido, junto con sus localizaciones dentro del proyecto, los métodos utilizados en la recolección y cualquier problema encontrado. El registro de los problemas encontrados y cualquier solución logrará ayudar en repeticiones futuras de este proyecto o en la ejecución de proyectos similares.

b) Comprensión de los Datos: Consiste en comprender los datos anteriormente recopilados e involucrados en el problema de negocio, en su estructura, alcance, y relación con el problema de negocio. Esta comprensión es muy importante, ya que mientras mayor sea su grado, más se allanará los posteriores procesos de preparación y extracción del conocimiento. Salidas:

i. Informe técnico de los datos: Este informe contendrá información técnica de los datos relevantes para el proceso de minería. Estos datos pueden ser: Estructura de los datos, calidad, complejidad, etc.

ii. Informe de relación de datos/negocio: Esta actividad consistirá en realizar una relación entre los datos y el área problema del negocio en el cual se desea aplicar la solución de minería de datos. Esta actividad permitirá generar el nexo necesario entre los datos y el problema de negocio, para más adelante establecer los objetivos de minería de datos, basados en los objetivos de negocio.

c) Exploración de Datos: Consiste en la exploración de los datos iniciales, para de esta forma analizar el potencial de conocimiento que puedan tener.

Salida:

i. Informe de exploración: Describir resultados de esta tarea que incluyen hallazgos o la hipótesis inicial y su impacto en el resto del proyecto. Si es apropiado, se pueden incluir los gráficos y planos que indican características de los datos o importancia a los subconjuntos de datos interesantes para un examen detallado.

d) Fijar los objetivos de Minería de Datos: Consiste en fijar los objetivos de la minería de datos para el proyecto.

Salidas:

i. Informe de objetivos de Minería de Datos: Este informe contendrá todos los objetivos de minería de datos para el proyecto en base a los objetivos O, para cada uno de estos últimos existirá uno o más objetivos de minería de datos.

ii. Objetivos y criterios de éxito: Quedará establecido el criterio bajo el cual un objetivo se considerará realizado de forma exitosa en base a la potencialidad de los datos disponibles.

e) [QA] Comprensión de los Datos: Esta tarea se vuelve a enunciar, ya que para el aseguramiento de la calidad también posee un perfil orientado a constatar el aseguramiento de la comprensión de los datos y su relación con el negocio por parte de los integrantes del proyecto de minería de datos.

Salida:

i. Informe de comprensión de los datos: Este informe será elaborado por los especialistas de minería de datos y en el deberán plasmar lo que entendieron de los datos, las conclusiones y la relación de los mismos con el negocio (relevancia, datos críticos, datos marginales, etc.).

f) Verificación de calidad de datos iniciales: Verifica la calidad de los datos recopilados inicialmente en cuanto a su representatividad y consistencia.

Salida:

i. Comprobación de representatividad de datos iniciales: Esta comprobación verificará que los datos iniciales seleccionados son representativos.

g) Verificación de calidad del proceso de obtención de datos: Esta tarea tiene como objetivo verificar la calidad del proceso mediante el cual los datos son ingresados.

Salida:

i. Informe del proceso de obtención de datos: Este informe debe contener el recorrido de los datos desde el momento en que se generan hasta que son almacenados. Debe hacer observación a posibles defectos en el proceso, personas involucradas, procesos de automatización, etc.

h) Verificación de calidad de los datos: Esta tarea tiene como objetivo verificar la calidad de los datos una vez almacenados.

Salida:

i. Informe de la calidad de los datos: Este informe estará compuesto por dos partes, en la primera se verificará la calidad de la estructura que soporta el almacenamiento de los datos y en la segunda la calidad de los datos almacenados.

i) Fijar objetivos M: Esta tarea tiene como objetivo fijar los objetivos M, estos consisten en la representación realista de cada uno de los objetivos de la minería de datos acompañados de un grado de cumplimiento propuesto. Este grado de cumplimiento será fijado por los analistas de minería de datos de acuerdo a las posibilidades que presenten los datos involucrados.

Salidas:

i. Informe de objetivos M: Consiste en listar los objetivos de minería da datos acompañados de un grado de cumplimiento para cada uno de ellos.

ii. Revisión de correlación de objetivos O con objetivos M: Consiste en una sencilla revisión realizada por los representantes de la organización y del proyecto en la cual se verifica que para cada

uno de los objetivos de negocio existe uno o más objetivos de minería de datos que los satisface.

j) [RSGR] Plan RSGR para los datos iniciales: Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para los datos iniciales: Esta tabla contendrá los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para los datos iniciales: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

B.

Planificar

En esta segunda fase se ahondará en el estudio de la envergadura de proyecto y de la factibilidad del mismo tanto desde el punto de vista técnico como económico. Con esta evaluación se tomará la decisión de llevar a cabo o no el proyecto de Minería de Dato. Si se toma la decisión de llevarlo a cabo, se deberán planificar las tareas específicas. En el caso que la solución requerida por la organización pase por la elaboración de un sistema que integre el proceso de extracción del conocimiento para poder utilizarlos cuando sea necesario, se planificarán las tareas necesarias para el desarrollo de él. En el caso de que la solución requerida sea sólo la entrega de los patrones y el conocimiento obtenido, se deberán planificar las tareas específicas para la conversión de los patrones obtenidos en conocimiento, desde el punto de vista de los objetivos de negocio de la organización.

Para esta fase de la metodología GESPRO-MD se ha definido un símbolo diseñado única y exclusivamente para ella que sintetiza conceptos como planificación, diseño y tecnología entre otros.

Misión de la fase: Planificar el proyecto de Minería de Datos distribuyendo los recursos de forma eficiente para cada una de las tareas necesarias y evaluar de forma holista si es factible la realización del mismo.

El símbolo que representará esta fase de aquí en adelante será el que se muestra a continuación:

aquí en adelante será el que se muestra a continuación: Figura B.1. Fase Planificar de la

Figura B.1. Fase Planificar de la metodología GESPRO-MD.

La interacción de las etapas de la fase planificar será la siguiente:

PLANIFICAR

de la fase planificar se rá la siguiente: PLANIFICAR Evaluar Medir Planificar Figura B.2. Etapas de

Evaluar

Medir

planificar se rá la siguiente: PLANIFICAR Evaluar Medir Planificar Figura B.2. Etapas de la Fase Planificar

Planificar

se rá la siguiente: PLANIFICAR Evaluar Medir Planificar Figura B.2. Etapas de la Fase Planificar de

Figura B.2. Etapas de la Fase Planificar de la metodología GESPRO-MD ©.

Medir: En esta etapa se medirán las proporciones del proyecto, de acuerdo a esto se podrán estimar los recursos necesarios y la duración del mismo.

Tareas:

a) Realizar una medición cuantitativa de los datos involucrados: Esta tarea tiene como objetivo cuantificar los datos involucrados en el proyecto. Esto incluye número de tablas, registros, relaciones, etc.

Salidas:

i. Informe de datos involucrados: Este informe deberá listar todas las estructuras de datos involucradas en el proyecto.

ii. Informe de cuantificación de datos y su crecimiento: Este informe estará separado en dos partes, la primera consistirá simplemente en cuantificar cada una de las características descritas en el informe anterior (Informe de datos involucrados). La segunda parte deberá contener una estimación de crecimiento prolongado en el tiempo para cada una de estas mismas características.

b) Generar un indicador que califique cuantitativamente la magnitud del proyecto: Esta tarea tiene como objetivo generar un indicador estándar de la magnitud del proyecto.

Salida:

i. Informe preliminar de requerimientos: Este informe constituye la conclusión del estudio de la cuantificación de los factores involucrados en el proyecto, en él se plasmarán los recursos necesarios para cada uno de los ítems involucrados.

c) Estimar los recursos necesario: En este punto del proyecto ya se tiene una idea clara de los recursos con los que cuenta la organización, los dato disponibles y los objetivos planteados, por tanto se puede realizar una aproximación de los recursos necesarios para llevar a cabo el proyecto, esta aproximación se dividirá tanto en recursos humanos como en materiales adecuado realizarla en este punto del proyecto para que la organización tenga una idea preliminar de la envergadura del proyecto y de los recursos necesarios, de esta forma si es necesario, por ejemplo, contratar personal se puede comenzar el proceso de reclutamiento para que cuando este sea requerido ya este disponible y no se deba estar esperando por su disponibilidad. Para levar a cabo esta estimación se llevarán a cabo las siguientes actividades:

Salida:

i. Informe preliminar de personal necesario: El jefe del proyecto, en base a los antecedentes recopilados sobre la envergadura del proyecto deberá realizar una aproximación del personal necesario para llevar a cabo el proyecto y el perfil que deberá tener cada uno de estos.

ii. Informe preliminar de recursos necesarios: Ese informe debe ser elaborado por el jefe del proyecto y los especialistas de Minería de Datos en donde se estimará, de forma aproximada, los recursos materiales necesarios (CPU’s, servidores, puestos de trabajo, espacio, etc.).

d) [QA] Aprobación de Cuantificación del Proyecto: Esta tarea consiste en lograr la aprobación de la magnitud del proyecto y los recursos necesarios para llevarlo a cabo.

Salida:

i. Informe final de magnitud del proyecto: Este informe consistirá en un acuerdo de estimación de la magnitud del proyecto por parte de la organización y el jefe de proyecto.

e) [RSGR] Plan RSGR para escenarios de medición: Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para escenarios de medición: Esta tabla contendrá los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para escenarios de medición: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Planificar:

En

esta

etapa

planificación del proyecto.

Tareas:

se

llevarán

a

cabo

todas

las

tareas

de

a) Listar actividades del proyecto: Esta tarea tendrá como objetivo listar las actividades necesarias para llevar a cabo el proyecto.

Salida:

i. Informe de actividades del proyecto: Este informe contendrá un listado de todas las tareas que se llevarán a cabo en el proyecto. Para facilitar esta tarea, en los casos que el proyecto sea de gran magnitud, los involucrados que sean pertinentes, realizarán una lista individual de las actividades necesarias para su entorno, luego estas se unirían para conformar una sola lista con todas las actividades necesarias.

b) Formar equipos de trabajo: El objetivo de esta tarea será conformar los equipos de trabajo para cada conjunto de actividades específicas.

Salida:

i. Informe de conformación de equipos de trabajo: Este informe contendrá la conformación de cada uno de los equipos de trabajo y deberá especificar tanto el perfil de cada uno de los integrantes (empresarial, informático, estadístico) y su experiencia, como el rol que desempeñará al interior del equipo.

c) Planificación del proyecto: Esta tarea tendrá como objetivo planificar el ciclo de vida del proyecto de minería de datos.

Salida:

i. Informe de Planificación proyecto: Este informe contendrá la planificación del proyecto de minería de datos con las actividades asignadas a cada equipo de trabajo correspondiente y los tiempos estimados para su desarrollo.

d) [QA] Planificación de Tareas de Supervisión del Producto de Software: Esta tarea consiste en la programación de tareas para el seguimiento del proyecto orientadas a comprobar la parcialidad del cumplimiento de los objetivos O.

Salida:

i. Plan de supervisión de cumplimiento de objetivos: Este plan contendrá la programación de revisiones periódicas a la parcialidad del cumplimiento de los objetivos O establecidos anteriormente.

e) [RSGR] Plan RSGR para la planificación del proceso de software:

Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para la planificación del proceso de software:

Esta tabla contemplará los posibles escenarios que puedan acontecer en el proyecto que alteren o comprometan la planificación del mismo.

ii. Plan RSGR para la planificación del proceso de software:

Contemplará un plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Evaluar: En esta etapa se evaluará la factibilidad tanto técnica como económica del proyecto, se tomará la decisión de realizarlo y si se acuerda llevarlo a cabo se generará el ACON (Acuerdo de Cumplimiento de los Objetivos de Negocio).

Tareas:

a) Evaluar factibilidad técnica: Esta tarea contempla el estudio técnico del proyecto como proceso, analizando si es posible cumplir con los objetivos planteados en el tiempo estipulado y con los recursos disponibles.

Salidas:

i. Informe de análisis técnico: Ese informe contiene conclusiones sobre el estudio del proyecto como proceso, analizando interdependencia de tareas, plazos estipulados, etc.

ii. Informe de factibilidad técnica: Este informe contiene la conclusión de la factibilidad técnica del proyecto tomando como referencia el informe anterior.

b)

Evaluar

factibilidad

económica:

Esta

tarea

tiene

por

objetivo

verificar

si

el

proyecto

es

económicamente

factible

para

la

organización.

Salidas:

i. Informe de estimación de costos: Consiste en cuantificar los costos económicos totales del proyecto de acuerdo a la cuantificación y planificación realizadas con anterioridad.

ii. Informe de estimación de beneficios: Consiste en cuantificar los beneficios de implantar el proyecto en la organización. Como los

beneficios precisos no se sabrán hasta que estos se empiecen a generar se debe realizar una estimación, para lo cual es conveniente suponer como mínimo dos escenarios (favorable y adverso).

iii. Informe de factibilidad económica: Este informe contiene la conclusión de la factibilidad económica del proyecto tomando como referencia los dos informes anteriores.

c) Determinación de realizar el proyecto: Esta tarea consiste en la determinación por parte de la organización de llevar a cabo o no el proyecto:

Salidas:

i. Presentación del proyecto: Consiste en la presentación formal a la organización de los estudios de factibilidad realizados.

ii. Decisión de implantación: Decisión de la organización de llevar a cabo o no el proyecto de minería de datos de acuerdo a lo presentado por los representantes del proyecto.

iii. Pasos a seguir: Se establecen los siguientes pasos a seguir de acuerdo a la decisión tomada por la organización sobre la realización del proyecto. Estos pasos pueden ser seguir con el proyecto y realizar el ACON, volver a alguna etapa o fase anterior o abortar definitivamente el proyecto según se estime conveniente.

d) [QA] Creación de ACON: Esta tarea tendrá como objetivo la completación del ACON un documento propio de la metodología GESPRO-MD en el cual se acuerda entre ambas partes (organización y jefe del proyecto de minería de datos) el grado de cumplimiento de los objetivos O y M planteados.

Salidas:

i.

Informe del grado de cumplimiento esperado de los objetivos O:

Este informe consiste en el listado de objetivos O acompañado cada uno de su respectivo grado de cumplimiento y plazo de tiempo estimado.

ii.

Informe del grado de cumplimiento esperado de los objetivos M:

Este informe consiste en el listado de objetivos M acompañado cada uno de su respectivo grado de cumplimiento y plazo de tiempo estimado.

iii. Creación y firma de acuerdo de ACON: Consiste en unir y formalizar en un solo documento los informes anteriores y, ante acuerdo de por medio, proceder a la firma de aceptación tanto del representante de la organización como del jefe de proyecto de minería de datos.

e) [RSGR] Plan RSGR para evaluaciones del proyecto: Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i.

Tabla de Riesgo para evaluaciones del proyecto: Esta tabla contendrá los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii.

Plan RSGR para evaluaciones del proyecto: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

C.

PECA

En esta etapa se realizarán todas las tareas relacionadas con la extracción del conocimiento, esto incluye una preparación de los datos, la cual retornará el modelo final de datos más apropiados para la extracción del conocimiento. Luego se aplicarán modelos para la extracción de patrones que satisfagan los objetivos de Minería de Datos, estos modelos serán calibrados hasta obtener el mejor resultado posible. A continuación estos patrones serán convertidos en conocimiento para la organización, para esto el proyecto puede tomar dos cursos en esta etapa. En primer lugar, si es que la organización desea automatizar la obtención de patrones y el proceso de extracción del conocimiento se desarrollara un sistema que integrará el o los modelos seleccionados anteriormente y que se elaborará a según la planificación realizada en la fase anterior. Por otra parte, si es que la organización decide no desarrollar un sistema y desea que los patrones obtenidos le sean entregados como conocimiento en un formato institucional con el que puedan satisfacer los objetivos de negocio planteados la planificación específica de esta instancia del proyecto realizada en la fase anterior definirá como se llevará a cabo este proceso.

Para esta fase de la metodología GESPRO-MD se ha definido un símbolo diseñado única y exclusivamente para ella que sintetiza conceptos como tecnología, datos y minería (de forma metafórica en su concepto tradicional) entre otros.

Misión de la Fase: Realizar el proceso de extracción del conocimiento de forma eficiente y satisfactoria para con los objetivos propuestos, aportando resultados claros y legibles a los usuarios finales.

El símbolo que representará esta fase de aquí en adelante será el que se muestra a continuación:

de aquí en adelante será el que se muestra a continuación: Figura C.1. Fase PECA de

Figura C.1. Fase PECA de la metodología GESPRO-MD.

La interacción de las etapas de la fase PECA será la siguiente:

PECA

de las etapas de la fase PECA será la siguiente: P EC A Preparar Evaluar Modelar

Preparar

etapas de la fase PECA será la siguiente: P EC A Preparar Evaluar Modelar Explotar Figura

Evaluar

Modelar

PECA será la siguiente: P EC A Preparar Evaluar Modelar Explotar Figura C.2. Etapas de la

Explotar

Figura C.2. Etapas de la Fase PECA de la metodología GESPRO-MD ©.

Preparar: Antes de utilizar los datos, se deben preparar para ser utilizados, ya que lo más probable es que estos no se encuentren de la forma adecuada para ser utilizados en este proceso.

Tareas:

a) Recopilación de datos: Consiste en reunir todos los datos necesarios para la explotación.

Salidas:

i. Razones

de

inclusión/exclusión:

Listado

de

razones

de

inclusión/exclusión de los datos seleccionados.

ii. Informe de recopilación de datos: Informa con la totalidad de los datos recopilados involucrados que se utilizarán.

b) Limpieza y transformación: El objetivo de esta tarea es preparar los datos recopilados limpiándolos y transformándolos según se requiera.

Salidas:

i. Informe de limpieza de datos: Este informe es la conclusión de la limpieza de los datos. Esta limpieza consiste en quitar datos “ruidosos” que sólo puedan llevar a desviaciones en la obtención del conocimiento.

ii. Atributos derivados: Consiste en la obtención de características adicionales derivadas de los datos que se puedan obtener sin la necesidad de aplicar minería de datos.

iii. Registros generados: consiste en la agregación de registros según sea necesario.

iv. Preparación final de datos: Consiste en la elaboración final del modelo de datos a utilizar para el modelado y posible futura automatización del proceso de extracción del conocimiento. Si el proyecto consiste en el desarrollo de un sistema lo más probable es que esta actividad consista en un soporte de datos que facilite la extracción del conocimiento como un data warehouse. Si se aborda un proyecto de pequeña envergadura o que consiste solo en la extracción puntual de patrones en particular, lo más probable es que se sólo se deban realizar algunas transformaciones en los datos disponibles para facilitar las técnicas de modelado.

c) Exploración y selección: Esta tarea consiste en realizar exploraciones superficiales o de la totalidad de los datos para identificar las potenciales vetas de descubrimiento del conocimiento sobre el soporte final de datos.

Salidas:

i. Informe de acceso a datos: Este informe es el resultado de la aplicación de consultas a los datos. En el se detallará la profundidad de acceso a los datos y si existen dificultades o anomalías en el proceso.

ii. Informe de datos seleccionados: Este informe lista los datos seleccionados para ser utilizados en el modelo de extracción del conocimiento.

d) [QA] Aseguramiento de la calidad de los datos involucrados: Esta tarea tiene como objetivo asegurar que los datos a utilizar no presenten defectos y estén acorde a las necesidades del modelo.

Salidas:

i. Reformateo de datos: Consiste en el formateo de los datos para ser utilizados.

ii. Informe del proceso de incorporación de datos: Este informe contendrá los procedimientos utilizados para obtener o alimentar el sistema con los datos, para poder verificar posibles anomalías en ese proceso que conduzcan a errores reiterativos producto de la automatización.

e) [RSGR] Plan RSGR de datos a explotar: Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo de datos a explotar: Esta tabla contendrá los potenciales riesgos que puedan presentarse en el proceso de preparación de los datos debido a anomalías de los mismos no contempladas en instancias anteriores.

ii. Plan RSGR de datos a explotar: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Modelar: En esta etapa se seleccionará el modelo (modelos) que entregue los patrones que satisfagan de la mejor manera posible los objetivos de Minería de Datos.

Tareas:

a) Analizar el problema desde la perspectiva de la Minería de Datos:

Esta tarea tiene como objetivo concluir mediante un análisis del problema de minería de datos los posibles modelos que pueden ser aplicados.

Salida:

i. Informe de análisis del problema de Minería de Datos: Este informe contiene un análisis del problema que aborda el proyecto y entrega los posibles modelos que pueden ser utilizados para la obtención de patrones.

b) Selección de la técnica de modelado: Esta tarea tendrá como objetivo seleccionar la técnica (técnicas) de modelado más adecuada entre las expuestas en el informe anterior, para la extracción de conocimiento según la configuración de las variables del proyecto.

Salidas:

i. Técnica de modelado: Consiste en seleccionar una (o más) técnica(s) de modelado idónea al problema de minería propuesto por el proyecto.

ii. Suposiciones de modelado: Contempla los diferentes escenarios o calibración inicial a los que puede ser sometido el modelo.

c) Aplicación de la técnica de modelado: Esta tarea tiene como objetivo aplicar el (los) modelo (s) seleccionados y calibrar los

parámetros de este (estos) según sea necesario para la obtención de patrones. Esta tarea será aplicada tantas veces como modelos sean aplicados

Salidas:

i. Aplicación de modelo: Consiste en la aplicación del modelo o modelos seleccionados con los parámetros iniciales.

ii. Calibración de parámetros: En esta actividad se calibrarán los parámetros del modelo que esta haciendo aplicado, si es que corresponde.

iii. Informe

de

patrones

obtenidos:

Este

informa

contendrá

los

patrones para cada uno de los modelos aplicados.

d) Evaluación del modelo: Esta tarea tiene como objetivo evaluar la solución entregada por el modelo de acuerdo a lo esperado en los objetivos de Minería de Datos.

Salida:

i. Informe de evaluación de modelado: Este informe debe contener la evaluación de los resultados entregados por el modelo de acuerdo a los objetivos de la minería de datos y la calibración de los parámetros utilizados para las pruebas realizadas.

e) [QA] Aseguramiento de la calidad del modelo o los modelos seleccionados: El objetivo de esta tarea será asegurar que los modelos utilizados son válidos y óptimos de acuerdo a los objetivos de Minería de Datos.

Salidas:

i. Tabla comparativa de modelos candidatos: En esta tabla se comprarán ventajas y desventajas de cada uno de los modelos, por ejemplo: costos potenciales de explotación versus beneficios, tiempos de cómputos, calidad y alcance del conocimiento entregado, etc.

ii. Análisis FODA de los modelos candidatos: Esta tabla consiste en realizar un análisis más acabado de las fortalezas, oportunidades, debilidades y amenazas de cada modelo. Es recomendable realizar este análisis solo en el caso que se presentarán variados modelos para poder tener una visión más clara y ordenada al momento de seleccionar un modelo para la explotación.

f) [RSGR] Plan RSGR para modelo(s) seleccionado(s): Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo de modelo(s) seleccionado(s): Esta tabla contendrá los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para modelo(s) seleccionado(s): Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Explotar: En esta etapa se integrará el conocimiento a la organización, esto se podrá realizar de dos formas, según como haya sido especificado.

Si es que la organización necesita que el proceso de extracción de conocimiento sea automatizado para ser utilizado cuando sea requerido, se deberá generar un sistema que realice este proceso y que entregue resultados en un formato institucional. Si la organización sólo desea que los patrones e sean entregados para un caso en particular, sólo se realizará el proceso de convertir los patrones obtenidos en conocimiento en el contexto del negocio obedeciendo a los objetivos planteados inicialmente haciendo esta etapa mucha más reducida que para la situación anterior.

Tareas:

a) Selección de los patrones: El objetivo de esta tarea es elegir los patrones a utilizar dentro de los que fueron obtenidos en la etapa anterior. Si bien los patrones obtenidos deberían como mínimo satisfacer los objetivos de Minería de Datos, en algunos casos se obtiene patrones no contemplados en estos objetivos y que pueden ser interesantes como objetivos de negocio.

Informe de patrones a explotar: En este informe se deberán especificar los patrones que serán incluidos para ser transformados en conocimiento para la organización. En la elaboración de ese informe deberán participar los representantes de la organización que puedan estimar que patrones son interesantes de explotar.

b) Construcción del modelo: Esta tarea tendrá como objetivo construir de forma definitiva el modelo (modelos) seleccionado para la extracción del conocimiento y la entrega de este a los usuarios finales.

Salidas:

i. Parámetros elegidos: Esta actividad debe calibrar el modelo con las variables apropiadas finales seleccionadas en la etapa de modelado para hacer el proceso de extracción de conocimiento eficiente y automatizado.

ii. Informe Descripción de los modelos: Esta actividad debe realizar una descripción de los modelos definitivos con su correspondiente calibración y proceso realizado.

c) Extracción del conocimiento: Esta tarea tiene como objetivo desarrollar un sistema en base al modelo o los modelos seleccionados o la conversión de los patrones obtenidos en conocimiento de acuerdo a las necesidades de la organización.

Salidas:

i. Desarrollo de sistema de software para la extracción de conocimiento: Esta actividad consiste en desarrollar un sistema capaz de automatizar la obtención de patrones y la conversión de estos en conocimiento para la organización que satisfaga los objetivos de negocio.

ii. Administración de la extracción del conocimiento: Consiste en la administración del conocimiento obtenido.

iii. Informe de extracción del conocimiento: Este informe contiene los resultados finales de la extracción del conocimiento y donde este está siendo almacenado. En el caso que no se desarrolle el sistema, aquí se deberían transformar los patrones seleccionados en conocimiento.

d)

Interpretación de los resultados: El objetivo de esta tarea es interpretar el conocimiento extraído y que está siendo almacenado donde especifica el informe de extracción del conocimiento.

Salida:

i. Informe de interpretación del conocimiento: Este informe contiene las interpretaciones de los resultados obtenidos de acuerdo al ámbito de negocio.

e) Formateo de los resultados: Esta tarea tiene como objetivo traducir el conocimiento en bruto en un lenguaje institucional, que sirva como documento de trabajo o material de apoyo para la toma de decisiones a nivel estratégico. Este proceso puede ir desde el simple acomodo de los datos a una planilla o informe hasta la generación de una interfaz de consulta de conocimiento.

Salida:

i. Traducción del conocimiento a lenguaje institucional: Consiste en la presentación final de los datos al cliente tal cual como el los necesita para ser utilizados de acuerdo a los objetivos de negocio propuestos.

f) [QA] Aseguramiento de la calidad de los resultados del modelo(s):

El objetivo de esta tarea es asegurar la calidad de los resultados del modelo.

Salidas:

i. Revisión del proceso de extracción de conocimiento: Consiste en la revisión del proceso de extracción del conocimiento, analizando posibles deadlocks o puntos críticos del proceso que

puedan hacerlo inestable y llevarlo a la entrega de conclusiones equivocadas.

ii. Revisión de los parámetros utilizados: Consiste en la revisión de la calibración de los parámetros del modelo. Constatar que estos se encuentran en rangos de valores apropiados.

g) [RSGR] Plan RSGR para el proceso de extracción del conocimiento: Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo del proceso de extracción del conocimiento: Esta tabla contendrá los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para el proceso de extracción del conocimiento: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Evaluar: En esta etapa se evaluará el conocimiento entregado a la organización de acuerdo a los objetivos de negocio planteados y al grado de cumplimiento para estos establecidos en el ACON.

Tareas:

a) Evaluación de resultados: El objetivo de esta tarea será evaluar los resultados entregados por el software de minería de datos de acuerdo a los objetivos planteados.

Salida:

i. Evaluación de resultados de minería de datos: Consiste en evaluar los resultados de la minería de datos de acuerdo a los criterios de éxito establecidos.

b) Revisión del proceso: Esta tarea consiste en realizar una revisión total a toda la fase de explotación.

Salida:

i. Informe de revisión del proceso: Este informe presenta las conclusiones de la revisión de la fase de explotación. Cualquier defecto encontrado deber ser debe ser puesto en este informe, ya que esto facilitará a futuro, en posibles iteraciones posteriores, sortear las dificultades previas.

c) Establecer los siguientes pasos a seguir: El objetivo de esta tarea es establecer los siguientes pasos a seguir en torno a la decisión que se tome acerca de la solución entregada por el software de minería de datos. Para esto se llevarán a cabo las siguientes actividades:

Salidas:

i. Lista de posibles acciones: Consiste en la conformación de un listado con las posibles acciones a seguir dependiendo de la decisión que se tome acerca del proyecto.

ii. Decisión: consiste en la toma de decisión por parte de la organización de implantar o no implantar la solución de minería de datos generada.

d) [QA] Verificación de cumplimiento de ACON: Esta tarea consiste en evaluar los diferentes objetivos planteados a los largo del proyecto para comprobar la calidad del producto final entregado por el proyecto.

Salidas:

i. Informe de cumplimiento de los objetivos de negocio: Consiste en la elaboración de un documento donde se listan los objetivos de negocio alcanzados por la solución de minería da datos.

ii. Informe de cumplimiento de objetivos de minería: Consiste en la elaboración de un documento donde se listan los objetivos de negocio alcanzados por la solución de minería de datos.

iii. Informe de cumplimiento de ACON: Consiste en la elaboración de un informe donde se estipula el grado de cumplimiento de cada uno de los objetivos estipulados en el ACON. Este indicador de cumplimiento otorgará el grado de calidad del producto final.

e) [RSGR] Plan RSGR para resultados de la evaluación del software de Minería de Datos: Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para resultados de la evaluación del software de Minería de Datos: Esta tabla contendrá los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para resultados de la evaluación del software de Minería de Datos: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

D.

Incorporar

Esta es la última fase secuencial del proyecto y en ella se llevarán a cabo las tareas de paso a producción, institucionalización y socialización de la solución de minería de datos.

Para esta fase de la metodología GESPRO-MD se ha definido un símbolo diseñado única y exclusivamente para ella que sintetiza conceptos como tecnología, acuerdo y entendimiento entre tecnología y personas entre otros.

Misión de la fase: Implantar, institucionalizar y socializar el producto de software entregado por el proyecto de Minería de Datos.

El símbolo que representará esta fase de aquí en adelante será el que se muestra a continuación:

aquí en adelante será el que se muestra a continuación: Figura D.1. Fase Incorporar de la

Figura D.1. Fase Incorporar de la metodología GESPRO-MD.

La interacción de las etapas de la fase Incorporar será la siguiente:

INCORPORACIÓN

de la fase Incorporar será la siguiente: INCORPORACIÓ N Implantar A doptar Figura D.2. Etapas de
de la fase Incorporar será la siguiente: INCORPORACIÓ N Implantar A doptar Figura D.2. Etapas de

Implantar

Adoptar

será la siguiente: INCORPORACIÓ N Implantar A doptar Figura D.2. Etapas de la Fase Incorporar de

Figura D.2. Etapas de la Fase Incorporar de la metodología GESPRO-MD ©.

Implantar: Esta etapa consistirá en la distribución de la solución de Minería de Datos a la organización El objetivo principal es que este proceso sea realizado de forma exitosa parta que la solución entregada sea integrada a la organización y parte del proceso de toma de decisiones para el cual fue concebida.

Tareas:

a) Planificación de la implantación: Esta tarea tiene como objetivo organizar el proceso de implantación del sistema de minería de datos, para ello se realizará la siguiente actividad.

Salida:

i. Plan de implantación: Consiste en la elaboración de un plan para el proceso de implantación del producto de minería de datos. En este plan se deberán organizar tareas, asignar recursos, y supervisar el proceso.

b) Implantación del Sistema de Minería de Datos: Esta tarea tiene como objetivo implantar el sistema de minería de datos en la organización.

Salida:

i. Paso a producción del programa de minería de datos:

Explotación y utilización del sistema por parte de los usuarios finales.

c)

Planificación de monitorización y mantenimiento: Esta tarea tiene como objetivo organizar tareas para la monitorización del sistema y posterior mantenimiento y eventuales transformaciones del mismo.

Salida:

i. Plan de monitorización y mantenimiento: Consiste en un plan para supervisar y mantener el sistema luego de su implantación. Cabe señalar que durante el período de marcha blanca habrá que poner especial atención a sucesos raros que pudiesen indicar anomalías en el sistema.

d) [QA] Aseguramiento de la calidad del proceso de implantación:

Esta tarea tiene como objetivo asegurar que el proceso de implantación del sistema de minería de datos sea realizado en forma exitosa.

Salidas:

i. Documentación del proceso de implantación: Consiste en la elaboración de un documento donde se especifiquen todos los pasos a seguir para la implantación del sistema de minería de datos. De esta forma se logrará una estandarización del proceso y minimización de errores en la instalación.

ii. Supervisión del proceso de implantación: Consiste en supervisar las tareas de implantación contempladas en el documento anterior.

iii. Documentación de Observaciones al sistema: consiste en la documentación de las eventualidades en la instalación en las diferentes plataformas que se realice, de esta forma se tendrá un respaldo de que hacer ante diferentes situaciones tecnológicas que se presenten al instalar el sistema.

e) [RSGR] Plan RSGR para el proceso de implantación del sistema:

Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para el proceso de implantación del sistema:

Esta tabla contendrá los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para resultados de la evaluación del software de Minería de Datos: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Adoptar: En esta etapa se llevarán a cabo tareas para socializar el sistema o solución de Minería de Datos con la organización y en especial con los usuarios finales.

Tareas:

a) Documentar en un lenguaje institucional el sistema: Consiste en dejar a libre disposición una documentación oficial del sistema. En esta documentación aparte de la funcionalidad del sistema, se deben especificar los beneficios de su uso, necesidades que impulsaron la realización de proyectos y una serie de puntos que puedan servir como motivación para el uso del mismo.

Salidas:

i. Informe final del proyecto: Consiste en un informe final de las actividades realizadas en el proyecto, conclusiones obtenidas, objetivos alcanzados, etc. Este deberá estar en el formato de la organización (colores y fuentes institucionales, logos, etc.)

ii. Documentación final del programa: Al igual que la actividad anterior esta consiste en un reporte final, en este caso del programa donde se especificarán detalles técnicos, como instalarlo, utilizarlo, las ventajas de su utilización, etc.

b) Mostrar a los usuarios el sistema y sus potencialidades: Consiste en mostrar de forma gráfica a los usuarios, el sistema de minería da datos resaltando sus potencialidades de uso y beneficios. Para ello de desarrollará la siguiente actividad:

Salida:

i. Presentación final del programa: consiste en la presentación formal del programa. Esta presentación puede ser realizada de

forma segmentada por niveles jerárquicos o perfiles de uso según el sistema y la organización lo requiera.

c) Evaluación del sistema por parte de los usuarios: Esta tarea tiene como objetivo percibir el nivel de satisfacción e interacción de los usuarios con el sistema. Con esto se podrá determinar si el sistema interactúa de forma amigable o si es necesaria alguna corrección. Para esto se desarrollará la siguiente actividad.

Salida:

i. Encuesta acerca del sistema a usuarios finales: Esta actividad consiste en llevar a cabo una encuesta a los usuarios finales que contemple varios aspectos del sistema.

d) [QA] Recordar lo aprendido para mejoras futuras: Recordar lo que se hizo desde el punto de vista de no volver a cometer errores, otorga seguridad, si bien no al proceso actual, si a los posibles que se puedan llevará cabo en el futuro, ya que como hemos visto los proyectos de minería contemplan iteraciones posteriores. Con esto se hace presente que el aseguramiento de la calidad no es una tarea del presente si no que una tarea continua y sostenida en el tiempo. Además siempre la primera iteración será la que presente mayores dificultades en este punto ya que en esta, todo el proyecto constituirá algo nuevo que producirá una obvia resistencia al cambio.

Salidas:

i. Documentación del proceso: Este informe consiste en documentar el proceso de socialización poniendo énfasis en las dificultades encontradas y en forma de sortearlas.

ii.

Observaciones de potenciales mejoras: Este informe consiste en la realización de observaciones de mejoras potenciales en iteraciones posteriores.

e) [RSGR] Plan RSGR para el proceso de aceptación del sistema:

Conforma parte del plan RSGR general del proyecto y contendrá los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para el proceso de aceptación del sistema: Esta tabla contendrá los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para resultados de la evaluación del software de Minería de Datos: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Dentro de las tareas anteriormente para la metodología GESPRO-MD descritas existen algunas que poseen la siguiente nomenclatura:

[QA]: Tareas orientadas al aseguramiento de la calidad del producto final. Estas no constituyen una etapa ni fase en particular, si no que se configuran de forma transversal a lo largo de toda la metodología, ya que el proceso de aseguramiento de la calidad no es inherente a un punto en particular del proceso, sino que a todo el proyecto.

[RSGR]: Tareas para conformar el plan de riesgo del proyecto, estas tareas al igual que las de aseguramiento de la calidad no se definen en un solo punto en particular, ya que los diferentes escenarios de riesgo se van configurando a medida que el proyecto se va realizando, de esta manera para realizar una gestión del riesgo lo más acertada posible y otorgarle la seguridad necesaria al proceso del proyecto el plan se configura de esta forma.

Al finalizar el proyecto, se considera adecuado para el plan de riesgo revisar que escenarios fueron los que se cumplieron o estuvieron más cerca de hacerlo, ya que con esto se podrá calibrar de forma más precisa para iteraciones posteriores los planes de riesgo para escenarios similares.

La aplicación de todas las tareas especificadas en el modelo corresponderá a la magnitud de este.

Al mirar a simple vista la configuración del modelo este puede parecer demasiado extenso como para aplicarlo a proyectos de pequeñas y medianas empresas con recursos limitados, pero realmente la clave está en las etapas previas a la realización del proyecto en si, ya que la medición y planificación de proyecto serán los factores determinantes de la verdadera envergadura del proyecto.

Además la realización de la totalidad de las tareas facilitadas por el modelo sólo dependerá de lo que el jefe de proyecto estime conveniente. El modelo parte de la base de prestar la mayor cantidad de tareas y herramientas posibles para las potenciales escenarios que pueda enfrentar el proyecto de ahí en más se deberá decidir que es conveniente utilizar o no.

El modelo GESPRO-MD no específica técnicas ni herramientas técnicas específicas para la planificación del proyecto, extracción del conocimiento, técnicas de modelado, etc. El propósito del modelo GESPRO-MD es gestionar y generar las instancias necesarias adecuadas a cada paso del proyecto. La especificación alguna técnica o herramienta específica se debe realizar en los espacios generados para tal efecto.