Sei sulla pagina 1di 65

GESPRO-MD 1.

0
Gua de usuario paso a paso para su utilizacin y explotacin

Rodrigo Muoz Loyola


Todos los derechos reservados

Prefacio

Desde tiempos inmemoriales el desarrollo tecnolgico de la humanidad ha sido una constante, pero en los ltimos siglos este se ha vuelto cada vez ms rpido al encontrar prontamente una aplicacin prctica a los correspondientes avances cientficos.

Si nos remontamos hace unos cuantos siglos atrs, a mediados del siglo XVIII, el hombre pudo apreciar como un conjunto de cambios tecnolgicos iniciados en el Reino Unido comenzaban a cambiar profundamente los esquemas polticos, econmicos y sociales que imperaban en el mundo hasta entonces, era la revolucin industrial.

En las ltimas dcadas se ha podido apreciar con ms claridad an como las tecnologas avanzan cada vez de forma ms vertiginosa, sorprendindonos constantemente con sus descubrimientos y posibilidades.

Es as como llegamos a la actualidad y nos encontramos inmersos en la Sociedad de la Informacin, donde todo fluye de forma dinmica y los escenarios en los cuales se desenvuelven las organizaciones cambian constantemente de forma drstica. Estos cambios suponen tener que estar siempre alerta para tomar le mejor decisin frente al mercado cada vez ms competitivo y exigente. Estas decisiones no son sencillas, ya que por lo general involucran el anlisis de ingentes volmenes de datos que permitan reducir de forma razonable el riesgo e incertidumbre asociado a cada una de ellas, es en este contexto que cada vez es ms frecuente el uso de tecnologas de informacin con resultados positivos.

Hace poco ms de una dcada atrs era casi imposible pensar en contar con sistemas capaces de procesar los volmenes de informacin de grandes empresas para la ayuda a la toma de decisiones, ya que los ordenadores en ese entonces no contaban con la capacidad suficiente o no resultaba rentable, y de existir centros de cmputos con tales caractersticas estos se utilizaban dentro de otro contexto (Investigacin, Universidades, Seguridad Nacional, etc.). Sin embargo en la actualidad, y en gran 1

medida como consecuencia del cumplimiento de la Ley de Moore (cada 18 meses la potencia de los ordenadores se duplica) vigente hace ms de tres dcadas, el uso y explotacin de recursos tecnolgicos resulta cada vez ms imprescindible al interior de las organizaciones. Es as como cada da la interaccin entre las organizaciones y sus clientes es registrada y almacenada, adems al interior de las organizaciones tambin se generan innumerables hechos que, al igual que los anteriores, son registrados.

De esta forma hace menos de una dcada las organizaciones comenzaron a darse cuenta que contar con la informacin que se generaba da a da de forma oportuna les poda reportar grandes beneficios, luego comenzaron a aparecer sistemas capaces de procesar esta informacin y entregar visualizaciones de la misma para la ayuda a la toma de decisiones, as nacieron varios sistemas bajo las siglas DSS, ERP, MRP, CRM, etc., entre otros. En un comienzo el desarrollo y modificacin de estos sistemas resultaba complejo y por lo general su flexibilidad no responda oportunamente a la dinmica que el negocio y el mercado exigan, esto se deba principalmente a que el soporte de datos no era el adecuado para el tipo de explotacin que se estaba realizando sobre ellos. Es as como durante un par de aos el paradigma de los sistemas de informacin de las organizaciones estaba basado en contar con la mayor cantidad de informacin en lnea de sus clientes para satisfacer la demanda de estos.

En la actualidad y desde hace ya un buen par de aos el soporte de datos no es un impedimento para explotar los mismos de forma dinmica y flexible ya que existen diversas formas de modelarlos segn el uso que se les quiera dar. Es as como desde el momento en que han existido los medios tecnolgicos para la utilizacin eficiente de tecnologas de la informacin la utilizacin de estas ha tenido un crecimiento sostenido al interior de las organizaciones con resultados exitosos. Esta masiva y cada vez ms generalizada explotacin de la informacin ha cambiado radicalmente el paradigma entorno a ella de forma bastante evidente, hoy ya no basta slo con contar con informacin consistente de forma oportuna, hoy el paradigma consiste en la explotacin de la informacin de forma adecuada para tomar las mejores decisiones dentro del mercado minimizando el riesgo y la incertidumbre.

Mltiples son las tcnicas y herramientas que existen en la actualidad como solucin para la explotacin de la informacin y posterior utilizacin de los resultados 2

obtenidos para la toma de decisiones, la clave esta en saber cual es la que nuestra organizacin necesita y si es la ms adecuada para satisfacer los objetivos o necesidades del negocio que estamos enfrentando.

Adentrndonos en el contexto del presente documento, si bien las tecnologas de la informacin poseen variadas soluciones para apoyar la toma de decisiones como fruto del anlisis de la informacin que posee la organizacin, como estos temas an son relativamente nuevos no existen metodologas que indiquen cuales son los pasos indicados a seguir para abordar un proyecto que involucre alguna de estas soluciones. Ms especficamente, en Minera de Datos, podemos constatar que en la actualidad dos son las metodologas ms utilizadas, SEMMA y CRSIP-DM. La Metodologa SEMMA tiene una orientacin cientfica, no tomando en cuenta los objetivos de negocio como objetivos de la Minera de Datos. En segundo lugar, la metodologa CRISP-DM, creada en el ao 1999, toma los objetivos de negocio y a partir de estos va estructurando el proyecto. Si bien esta metodologa satisface varios de los requisitos necesarios para completar un proyecto de Minera de Datos de forma exitosa, se centra casi exclusivamente en el proceso de extraccin de conocimiento de la Minera de Datos.

Aparte del proceso de extraccin del conocimiento existen otros tpicos de gestin de proyectos, aseguramiento de la calidad y gestin del riesgo ente otros que es necesario incluir debido a que el mercado actual es cada da ms competitivo y exigente. Producto de estas necesidades nace la idea de contar con una metodologa que, aparte de contar con los pasos necesarios para realizacin exitosa del proceso de Minera de Datos o extraccin de conocimiento, brinde las herramientas necesarias para gestionar de forma exitosa todo el ciclo de vida del proyecto, estructurndolo y separndolo de acuerdo al contexto que se est abordando y asegurando que el producto obtenido sea de calidad.

De esta forma el siguiente documento constituye una gua de usuario para la utilizacin de la metodologa GESPRO-MD creada para satisfacer las necesidades en la gestin de proyectos de Minera de Datos existentes en la actualidad.

Esta metodologa fue concebida como trabajo de proyecto de ttulo y el desarrollo para la obtencin de la misma se encuentra disponible a partir del 1 de Enero de 2008 en http://gespro-md.cl

ndice

Introduccin.7

1.- La Metodologa GESPRO-MD.....9 1.1.- Estructura Jerrquica..9

2.- Gua de Usuario de le Metodologa GESPRO-MD...14

A.- Comprender.16

B.- Planificar..28

C.- PECA39

D.- Incorporar55

Introduccin

La gua de usuario que a continuacin se presenta describe el proceso de la metodologa propuesta en el trabajo de proyecto de ttulo titulado Propuesta de Metodologa para la gestin e implantacin de proyectos basados en Minera de Datos, GESPRO-MD, y contiene informacin acerca de ella para poder ser usada en la gestin de proyectos de Minera de Datos.

La metodologa GESPRO-MD es concebida a fines del ao 2005 como objetivo general de un proyecto de ttulo para optar al ttulo de Ingeniero Civil en Computacin e Informtica de la Universidad Central de Chile.

El desafo de generar una propuesta de metodologa surge de la necesidad de contar con un modelo para la gestin de proyectos de Minera da Datos a lo largo de todo su ciclo de vida, segn los requerimientos que existen hoy en da. Los modelos existentes en la actualidad para abordar proyectos de esta naturaleza no engloban todo el ciclo de vida de los mismos ni cumplen con las exigencias que plantean los mercados actuales. El modelo que mejor se adapta a satisfacer los requerimientos de los objetivos de negocio de las organizaciones al momento de generar esta metodologa es el CRISPDM, concebido en 1999, este no abarca todo el ciclo de vida del proyecto y adems no aborda de forma directa y explcita temas como el aseguramiento de la calidad y gestin del riesgo a lo largo de todo el proyecto que, a seis aos de su aparicin, evolucionaron de manera trascendental, desde el punto de vista de la importancia que tienen al abordar proyectos que involucren productos o soluciones de ingeniera de software.

Hoy en da, como sabemos, la informatizacin y automatizacin de almacenamiento de datos del negocio no es algo novedoso, si no que habitual y fundamental al interior de las organizaciones. Es as como nos encontramos ante una nueva revolucin, la revolucin de la informacin. As como hace siglos atrs lo fue la revolucin agraria y luego la revolucin industrial, hoy por hoy en este mundo cada vez ms globalizado la informacin es el tesoro ms preciado de las organizaciones, ya que de la eficiente utilizacin de esta depende en gran medida la toma de decisiones oportunas y exitosas para competir en los mercados actuales cada vez ms dinmicos y 7

exigentes. Hay que tener cuidado en tener muy claro el paradigma de la revolucin de la informacin, ya que si bien este en un comienzo fue contar con la mayor cantidad de informacin disponible de forma oportuna (en lnea), hoy, debido a la exigencia del mercado y a las grandes potencialidades surgidas gracias a la facilitacin de la tecnologa, el paradigma es utilizar y explotar de forma eficiente y oportuna la informacin disponible para la toma de decisiones estratgicas que permitan adquirir ventajas competitivas dentro del entorno de negocio de las organizaciones.

Con esto queda claro que hoy en da las organizaciones ms exitosas no sern las que posean ms informacin, si bien esto es algo importante, las que sobresaldrn de entre sus pares sern las que exploten de mejor manera la informacin de la que disponen y en base a los resultados obtenidos tomen las mejores decisiones estratgicas.

Si bien en nuestro entorno actual cada vez ms cambiante y con transformaciones tecnolgicas que se suceden da a da no podemos asegurar que este paradigma se mantenga por un tiempo prolongado, lo que si se puede decir con seguridad es que las tecnologas de la informacin llegaron al corazn de las

organizaciones no como un artefacto u accesorio de poca monta si no que como parte fundamental de su engranaje y no de forma pasajera, sino que para quedarse.

La Metodologa GESPRO-MD

El nombre GESPRO-MD de esta metodologa es la abreviacin de la frase Gestin de Proyectos basados en Minera de Datos que resume su funcionalidad.

La metodologa GESPRO-MD parte de una visin fundamental, Gestionar de forma exitosa y segura todo el ciclo de vida de un proyecto de Minera de Datos, asegurando que el producto de software entregado por este ser de calidad y parte del proceso de toma de decisiones de la organizacin

1.1

Estructura Jerrquica

La metodologa GESPRO-MD descrita desde un punto de vista jerrquico parte de una visin encargada de mantener su espritu. Para poder cumplir con esta visin es necesario realizar una serie de procesos, tareas generales, tareas especficas y actividades por las cuales deber pasar el proyecto. Cada una de estas instancias estar definida dentro de un nivel de abstraccin que ir de lo ms general a lo ms especfico. Dicho de otra forma, partiendo del qu hacer para cumplir la visin al cmo hacerlo.

Para cumplir con lo anterior existirn 4 niveles de abstraccin, compuestos por las siguientes instancias:

i. Fases: Cuatro fases compondrn el nivel de abstraccin ms general, cada una de estas abordar un proceso completamente diferente y acotado dentro de un contexto especfico del proyecto. Para cada una de las fases se describir una misin especfica la cual se deber cumplir travs de las etapas. Las fases podrn interactuar de forma secuencial e iterativa con retroalimentacin segn corresponda, para entregarle al proyecto la flexibilidad e interaccin adecuada a lo largo de su ciclo de vida.

ii. Etapas: Estas se ubicarn en el segundo nivel de abstraccin y tendrn como propsito cumplir con un objetivo general dentro del contexto abordado en la respectiva fase. El nmero de las etapas para cada fase ser variable y depender exclusivamente de los objetivos propuestos en cada una de ellas. 9

Las etapas funcionarn como un subproceso dentro de cada fase, este proceso podr ser secuencial o iterativo segn corresponda (siempre dentro de su respectiva fase).

Descritos los dos primeros niveles de abstraccin ms generales de la metodologa GESPRO-MD, se muestran las siguientes figuras que grafican la interaccin de fases y etapas:

FASE 1

FASE 2

FASE 4

FASE 3

Figura 1.1. Estructura (referencial) de las fases de la metodologa propuesta.

Etapa 1

Etapa 2

Etapa 3

Figura 1.2. Estructura (referencial) de las etapas de la metodologa propuesta.

10

De esta forma los dos primeros niveles de abstraccin abordan el que hacer de la metodologa, es decir, crear e indicar las instancias necesarias para gestionar el proyecto de Minera de Datos de forma adecuada, de acuerdo a los requerimientos establecidos para proyectos de esta naturaleza.

iii. Tareas: Estas se encuentran en el tercer nivel de abstraccin, donde se empieza a definir el cmo hacer lo propuesto en los niveles de abstraccin ms generales para poder resolver y cumplir con los objetivos planteados. Las tareas abordarn un problema u objetivo especfico definido dentro del contexto del objetivos general se la respectiva etapa a la que pertenezcan, es decir, para cada objetivo general definido para una etapa existirn N tareas encargadas de abordar un problema especfico que ayude a cumplir con el objetivo general de la respectiva etapa.

Cada objetivo especfico que compone a una tarea, ser llevado a una caja blanca (llamada as ya que se conoce su contenido) del siguiente modo:

COMO HACER
Objetivo Problema

CAJA BLANCA

Resultados

Figura 1.3. Como abordar las tareas

Dentro de esta caja blanca, se encuentra el cuarto, ltimo y ms especfico nivel de abstraccin, las actividades, las cuales en conjunto resolvern cada uno de los problemas planteados por las tareas.

11

iv. Actividades: Estas componen el ltimo y ms especfico nivel de abstraccin. La ejecucin de las actividades proporcionaran salidas al proyecto, es decir, informes, decisiones, documentos, etc. las cuales debern resolver el problema u objetivo especfico planteado en la respectiva tarea a la que pertenecen.

De esta forma las actividades que compondrn la caja blanca de cada una de las tareas quedarn ilustradas de la siguiente forma:

Actividad 1.
PROBLEMA

Actividad 2. ..

Salida 1.1 Salida 1.2 Salida 2 .

Figura 1.4. Ilustracin de las actividades

Por ltimo, para abordar el aseguramiento de la calidad y la gestin del riesgo en la metodologa, se introducirn las correspondientes tareas, en el tercer nivel de abstraccin de forma transversal, durante todo el ciclo de vida del proyecto.

12

De esta forma los niveles de abstraccin de la metodologa GESPRO-MD quedarn compuestos como muestra la siguiente figura:

Fases

Misin

Etapas

Objetivos

Que hacer Como hacerlo


Tareas

Actividades

Acciones Especficas para cumplir los Objetivos

Figura 1.5. Niveles de Abstraccin de la Metodologa GESPRO-MD. Las flechas rojas y azules representan la transversalidad entre las tareas de aseguramiento de la calidad y gestin del riesgo, respectivamente.

13

Gua de Usuario de le Metodologa GESPRO-MD

De aqu en adelante se listar paso a paso como seguir la metodologa para abordar un proyecto de Minera de Datos.

La metodologa GESPRO-MD se encuentra compuesta por cuatro fases, cada una de estas fases trata un problema diferente, dentro de un contexto especfico, a abordar por el proyecto. Para cada una de estas fases de define una misin, la suma de estas misiones, establecer el cumplimiento de la visin de la metodologa.

Las fases estarn compuestas por etapas, las cuales debern completar la misin de su fase respectiva. A su vez, cada una de las etapas se compondr de tareas las cuales debern abordar un objetivo o problema especfico para la etapa que pertenecen. Por ltimo la forma de resolver el problema especfico de cada una de las tareas ser mediante actividades, las cuales describirn el detalle a realizar para cumplir con las tareas especificadas y adems tendrn un carcter de salida, es decir, el producto de su realizacin ser un informe, decisin, evaluacin, etc.

Adems de la definicin y composicin misma de la metodologa GESPROMD tambin es necesario e interesante crear una simbologa especial para ella, la cual cumpla con los objetivos de sintetizar sus conceptos ms importantes, graficar la funcionalidad de las fases y generar un concepto de marca o imagen corporativa asociado a ella.

14

La siguiente figura es original y nica, concebida exclusivamente para la representacin, imagen, publicidad y explotacin de la metodologa GESPRO-MD.

Figura 2.1. Metodologa GESPRO-MD .

En la figura se pueden apreciar elementos que sintetizan conceptos como tecnologa, organizacin (empresa), extraccin, comprensin e incorporacin entre otros. Adems, se muestran las fases y la interaccin que estas desarrollan a travs del ciclo de vida del proyecto.

15

A.

Comprender
Al iniciar cualquier proyecto que involucre TI el primer desafo que se debe

enfrentar es la comprensin del mismo, el problema o necesidad que gener la instancia actual y las componentes tecnolgicas involucradas. Es por esto que la comprensin en esta instancia inicial del proyecto resulta crucial, ya que en gran medida de esto depender que los requerimientos del cliente sean especificados correctamente y por ende, la solucin entregada al final del proyecto sea la esperada.

En esta primera fase se realizarn todas las tareas correspondientes a la comprensin tanto del negocio y el problema que genera la instancia del proyecto como de los datos involucrados.

La fase COMPRENDER se dividir en dos etapas, Negocio y Datos, las cuales sern secuenciales e iterativas, esto ltimo, slo cuando sea necesario. De esta forma, al finalizar la etapa Datos, se continuar con la siguiente fase o se podr retornar a la etapa Negocio si es necesario.

Misin de la fase: Comprender el problema y su entorno (negocio y datos), contextualizarlo y fijar objetivos tanto del negocio como de la Minera de Datos que satisfagan plenamente las necesidades de la organizacin y las expectativas puestas en el proyecto.
Para cumplir con esta misin debern existir mltiples tareas y actividades las cuales sern listadas ms adelante, separadas por la respectiva etapa a la que pertenecen. Adems tambin se incluirn tareas orientadas al aseguramiento de la calidad y la gestin del riesgo.

Adems para esta fase de la metodologa GESPRO-MD se ha definido un smbolo diseado nica y exclusivamente para ella, que sintetiza conceptos como comprensin, estadstica y tecnologa entre otros.

16

El smbolo que representar esta fase de aqu en adelante ser el que se muestra a continuacin:

Figura A.1. Fase Comprender de la metodologa GESPRO-MD .

17

La interaccin de las etapas de la fase comprender ser la siguiente:

COMPRENDER

Negocio

Datos

Figura A.2. Etapas de la Fase Comprender de la metodologa GESPRO-MD .

18

Negocio: En esta primera etapa se abordar dentro del contexto de la comprensin inicial el mbito especfico de la organizacin, esto incluye comprender el negocio y el problema que le gener la necesidad de pensar en una solucin de Minera de Datos, para esto se establecen las siguientes tareas:

Tareas:

a) Comprender el problema de negocio: El objetivo de esta tarea ser el lograr comprender y contextualizar el know how de la organizacin y el problema que gener la necesidad de contar con una solucin de Minera de Datos, para esto lo primero ser comprender tanto el entorno del negocio como las caractersticas propias que el posee.

Salidas:

i. Informe del entorno de negocio: Este informe contempla las caractersticas generales y especficas del negocio. Estas caractersticas se clasificarn como internas y externas, las primeras expresarn polticas internas, organigrama corporativo, etc. Mientras que las segundas mostrarn el rol que cumple la empresa en su entorno de mercado, posicin, visin, perfil de clientes, etc.

ii. Informe del problema de negocio: En este informe los encargados del proyecto de Minera de Datos contextualizarn el problema de negocio expresado por los representantes de la organizacin o del rea problema que hicieron pensar en una solucin de minera de datos. Es probable que la solucin de estos problemas iniciales a menudo sean demasiado ambiciosos, por tanto ms adelante debern ser sometidos a un anlisis tcnico, desde el punto de vista de la Minera de Datos, en donde se analizar el grado en el cual pueden ser cumplidos y si es que realmente la minera de datos es la solucin para ellos. 19

b) Fijar los objetivos de negocio: En esta tarea se deben traducir los problemas en objetivos de negocio realistas. Este proceso debe ser realizado en conjunto por el jefe del proyecto de Minera de Datos y los representantes de la organizacin o rea problema.

Salidas:

i. Informe de Contexto inicial: Registrar la informacin actual del negocio, relativa a los objetivos planteados, al inicio del proyecto.

Este contexto inicial ser realizado por la organizacin, en particular por el rea problema para ser entregado a los integrantes del proyecto de Minera de Datos.

ii. Informe de objetivos de negocio: Para realizarlo se tomar como base el informe de los problemas de negocio. Con estos objetivos se establecern, para cada problema de negocio, uno o ms

objetivos de negocio. De acuerdo al contexto inicial y al grado de complejidad de los problemas se determinar en que grado estos ltimos pueden ser solucionados.

Este informe deber ser completado tanto por los representantes de la organizacin o rea problema como por los representantes del proyecto de Minera de Datos.

iii. Informe de objetivos y criterios de xito: Quedar establecido en este informa el criterio bajo el cual un objetivo, definido en la actividad anterior, se considerar realizado de forma exitosa, para esto influyen tanto los factores tcnicos como los intereses de la organizacin, por tanto estos criterios debern ser abordados de forma consensual por ambas partes del proyecto.

20

c) Evaluar la situacin: Corresponde ahora realizar una evaluacin de la situacin, este ser el objetivo de la presente tarea, que consistir en investigar los recursos de los que se dispone para abordar el proyecto:

Salidas:

i. Inventario de recursos: Este inventario contendr todos los recursos de los que se disponen en la actualidad, en el se deben incluir, personas, software, hardware y en general cualquier recurso que este disponible para ser utilizado en el proyecto de Minera de Datos. Este documento estar dividido en dos partes, una tecnolgica, y otra de recursos humanos, la tecnolgica poseer indicadores tcnicos y cuantificables. La segunda parte clasificar el recurso humano segn el perfil (empresarial, informtico, estadstico) y experiencia que cada uno tenga. Este inventario ser realizado por la organizacin en conjunto con el encargado de proyecto de Minera de Datos (de acuerdo a lo que l estime importante incluir), para realizar la clasificacin y resaltar las caractersticas ms importantes para el proyecto.

ii. Inventario de requerimientos: Este inventario deber contener los recursos necesarios para la fase inicial del proyecto de minera de datos. Dems est decir que mientras ms precario sea el inventario de recursos disponibles ms extenso ser el de recursos necesarios. Para esta etapa inicial del proyecto en una organizacin informatizada lo ms probable es que este inventario sea reducido, y no vaya ms all de un par de recursos humanos especialistas en minera de datos para realizar las tareas de estimacin iniciales.

iii. Informe del proceso actual de informatizacin: Este informe contendr el entorno del proceso de informatizacin que existe en la organizacin de forma general y de forma detallada del rea 21

problema. Debe contener puntos como el porcentaje de recursos destinados a la informatizacin, quienes realizan este proceso, como lo realizan, etc.

d) [QA] Fijar objetivos O: En esta tarea se deber formalizar en un documento los objetivos O. Los cuales contienen los objetivos de negocio con un grado de cumplimiento realista que satisfaga tanto a los representantes del proyecto como a los de la organizacin.

Salida:

i. Informe de objetivos O: Este informe contendr todos los objetivos de negocio planteados acompaado de un grado de cumplimiento acordado, por ambas partes participantes en el proyecto, para cada uno de ellos.

e) [RSGR] Plan RSGR para los objetivos de negocio: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo de cumplimiento de los objetivos O: Esta tabla contendr los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para objetivos O: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Datos: En esta etapa se llevarn a cabo todas las tareas necesarias para comprender los datos involucrados en el proyecto y establecer los

22

objetivos de la minera de datos de acuerdo a las posibilidades otorgados por los datos.

Tareas:

a) Recopilacin inicial de Datos: Esta recopilacin consiste en la obtencin de una muestra lo ms heterognea y real posible de los datos involucrados en donde se puedan encontrar representados, a escala, todos los escenarios posibles de datos. Esta recopilacin se llevar a cabo mediante las siguientes actividades:

Salidas:

i. Informe de seleccin de datos iniciales: Este informe contendr las justificaciones de la seleccin de los datos iniciales. Esta seleccin deber ser objetiva, tomando las situaciones ms representativas para cada caso.

ii. Informe de recopilacin: Listar el dataset (o datasets) adquirido, junto con sus localizaciones dentro del proyecto, los mtodos utilizados en la recoleccin y cualquier problema encontrado. El registro de los problemas encontrados y cualquier solucin lograr ayudar en repeticiones futuras de este proyecto o en la ejecucin de proyectos similares.

b) Comprensin de los Datos: Consiste en comprender los datos anteriormente recopilados e involucrados en el problema de negocio, en su estructura, alcance, y relacin con el problema de negocio. Esta comprensin es muy importante, ya que mientras mayor sea su grado, ms se allanar los posteriores procesos de preparacin y extraccin del conocimiento. Salidas:

23

i. Informe tcnico de los datos: Este informe contendr informacin tcnica de los datos relevantes para el proceso de minera. Estos datos pueden ser: Estructura de los datos, calidad, complejidad, etc.

ii. Informe de relacin de datos/negocio: Esta actividad consistir en realizar una relacin entre los datos y el rea problema del negocio en el cual se desea aplicar la solucin de minera de datos. Esta actividad permitir generar el nexo necesario entre los datos y el problema de negocio, para ms adelante establecer los objetivos de minera de datos, basados en los objetivos de negocio.

c) Exploracin de Datos: Consiste en la exploracin de los datos iniciales, para de esta forma analizar el potencial de conocimiento que puedan tener.

Salida:

i. Informe de exploracin: Describir resultados de esta tarea que incluyen hallazgos o la hiptesis inicial y su impacto en el resto del proyecto. Si es apropiado, se pueden incluir los grficos y planos que indican caractersticas de los datos o importancia a los subconjuntos de datos interesantes para un examen detallado.

d) Fijar los objetivos de Minera de Datos: Consiste en fijar los objetivos de la minera de datos para el proyecto.

Salidas:

i. Informe de objetivos de Minera de Datos: Este informe contendr todos los objetivos de minera de datos para el proyecto en base a los objetivos O, para cada uno de estos ltimos existir uno o ms objetivos de minera de datos. 24

ii. Objetivos y criterios de xito: Quedar establecido el criterio bajo el cual un objetivo se considerar realizado de forma exitosa en base a la potencialidad de los datos disponibles.

e) [QA] Comprensin de los Datos: Esta tarea se vuelve a enunciar, ya que para el aseguramiento de la calidad tambin posee un perfil orientado a constatar el aseguramiento de la comprensin de los datos y su relacin con el negocio por parte de los integrantes del proyecto de minera de datos.

Salida:

i. Informe de comprensin de los datos: Este informe ser elaborado por los especialistas de minera de datos y en el debern plasmar lo que entendieron de los datos, las conclusiones y la relacin de los mismos con el negocio (relevancia, datos crticos, datos marginales, etc.).

f) Verificacin de calidad de datos iniciales: Verifica la calidad de los datos recopilados inicialmente en cuanto a su representatividad y consistencia.

Salida:

i. Comprobacin de representatividad de datos iniciales: Esta comprobacin verificar que los datos iniciales seleccionados son representativos.

g) Verificacin de calidad del proceso de obtencin de datos: Esta tarea tiene como objetivo verificar la calidad del proceso mediante el cual los datos son ingresados.

25

Salida:

i. Informe del proceso de obtencin de datos: Este informe debe contener el recorrido de los datos desde el momento en que se generan hasta que son almacenados. Debe hacer observacin a posibles defectos en el proceso, personas involucradas, procesos de automatizacin, etc.

h) Verificacin de calidad de los datos: Esta tarea tiene como objetivo verificar la calidad de los datos una vez almacenados.

Salida:

i. Informe de la calidad de los datos: Este informe estar compuesto por dos partes, en la primera se verificar la calidad de la estructura que soporta el almacenamiento de los datos y en la segunda la calidad de los datos almacenados.

i) Fijar objetivos M: Esta tarea tiene como objetivo fijar los objetivos M, estos consisten en la representacin realista de cada uno de los objetivos de la minera de datos acompaados de un grado de cumplimiento propuesto. Este grado de cumplimiento ser fijado por los analistas de minera de datos de acuerdo a las posibilidades que presenten los datos involucrados.

Salidas:

i. Informe de objetivos M: Consiste en listar los objetivos de minera da datos acompaados de un grado de cumplimiento para cada uno de ellos.

ii. Revisin de correlacin de objetivos O con objetivos M: Consiste en una sencilla revisin realizada por los representantes de la organizacin y del proyecto en la cual se verifica que para cada 26

uno de los objetivos de negocio existe uno o ms objetivos de minera de datos que los satisface.

j) [RSGR] Plan RSGR para los datos iniciales: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para los datos iniciales: Esta tabla contendr los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para los datos iniciales: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

27

B.

Planificar
En esta segunda fase se ahondar en el estudio de la envergadura de proyecto

y de la factibilidad del mismo tanto desde el punto de vista tcnico como econmico. Con esta evaluacin se tomar la decisin de llevar a cabo o no el proyecto de Minera de Dato. Si se toma la decisin de llevarlo a cabo, se debern planificar las tareas especficas. En el caso que la solucin requerida por la organizacin pase por la elaboracin de un sistema que integre el proceso de extraccin del conocimiento para poder utilizarlos cuando sea necesario, se planificarn las tareas necesarias para el desarrollo de l. En el caso de que la solucin requerida sea slo la entrega de los patrones y el conocimiento obtenido, se debern planificar las tareas especficas para la conversin de los patrones obtenidos en conocimiento, desde el punto de vista de los objetivos de negocio de la organizacin.

Para esta fase de la metodologa GESPRO-MD se ha definido un smbolo diseado nica y exclusivamente para ella que sintetiza conceptos como planificacin, diseo y tecnologa entre otros.

Misin de la fase: Planificar el proyecto de Minera de Datos distribuyendo los recursos de forma eficiente para cada una de las tareas necesarias y evaluar de forma holista si es factible la realizacin del mismo.

28

El smbolo que representar esta fase de aqu en adelante ser el que se muestra a continuacin:

Figura B.1. Fase Planificar de la metodologa GESPRO-MD.

29

La interaccin de las etapas de la fase planificar ser la siguiente:

PLANIFICAR
Medir Planificar

Evaluar
Figura B.2. Etapas de la Fase Planificar de la metodologa GESPRO-MD .

30

Medir: En esta etapa se medirn las proporciones del proyecto, de acuerdo a esto se podrn estimar los recursos necesarios y la duracin del mismo.

Tareas:

a) Realizar una medicin cuantitativa de los datos involucrados: Esta tarea tiene como objetivo cuantificar los datos involucrados en el proyecto. Esto incluye nmero de tablas, registros, relaciones, etc.

Salidas:

i. Informe de datos involucrados: Este informe deber listar todas las estructuras de datos involucradas en el proyecto.

ii. Informe de cuantificacin de datos y su crecimiento: Este informe estar separado en dos partes, la primera consistir simplemente en cuantificar cada una de las caractersticas descritas en el informe anterior (Informe de datos involucrados). La segunda parte deber contener una estimacin de crecimiento prolongado en el tiempo para cada una de estas mismas caractersticas.

b) Generar un indicador que califique cuantitativamente la magnitud del proyecto: Esta tarea tiene como objetivo generar un indicador estndar de la magnitud del proyecto.

Salida:

i. Informe preliminar de requerimientos: Este informe constituye la conclusin del estudio de la cuantificacin de los factores

involucrados en el proyecto, en l se plasmarn los recursos necesarios para cada uno de los tems involucrados.

31

c) Estimar los recursos necesario: En este punto del proyecto ya se tiene una idea clara de los recursos con los que cuenta la organizacin, los dato disponibles y los objetivos planteados, por tanto se puede realizar una aproximacin de los recursos necesarios para llevar a cabo el proyecto, esta aproximacin se dividir tanto en recursos humanos como en materiales adecuado realizarla en este punto del proyecto para que la organizacin tenga una idea preliminar de la envergadura del proyecto y de los recursos necesarios, de esta forma si es necesario, por ejemplo, contratar personal se puede comenzar el proceso de reclutamiento para que cuando este sea requerido ya este disponible y no se deba estar esperando por su disponibilidad. Para levar a cabo esta estimacin se llevarn a cabo las siguientes actividades:

Salida:

i. Informe preliminar de personal necesario: El jefe del proyecto, en base a los antecedentes recopilados sobre la envergadura del proyecto deber realizar una aproximacin del personal necesario para llevar a cabo el proyecto y el perfil que deber tener cada uno de estos.

ii. Informe preliminar de recursos necesarios: Ese informe debe ser elaborado por el jefe del proyecto y los especialistas de Minera de Datos en donde se estimar, de forma aproximada, los recursos materiales necesarios (CPUs, servidores, puestos de trabajo, espacio, etc.).

d) [QA] Aprobacin de Cuantificacin del Proyecto: Esta tarea consiste en lograr la aprobacin de la magnitud del proyecto y los recursos necesarios para llevarlo a cabo.

Salida:

32

i. Informe final de magnitud del proyecto: Este informe consistir en un acuerdo de estimacin de la magnitud del proyecto por parte de la organizacin y el jefe de proyecto.

e) [RSGR] Plan RSGR para escenarios de medicin: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para escenarios de medicin: Esta tabla contendr los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para escenarios de medicin: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

33

Planificar: En esta etapa se llevarn a cabo todas las tareas de planificacin del proyecto.

Tareas:

a) Listar actividades del proyecto: Esta tarea tendr como objetivo listar las actividades necesarias para llevar a cabo el proyecto.

Salida:

i. Informe de actividades del proyecto: Este informe contendr un listado de todas las tareas que se llevarn a cabo en el proyecto. Para facilitar esta tarea, en los casos que el proyecto sea de gran magnitud, los involucrados que sean pertinentes, realizarn una lista individual de las actividades necesarias para su entorno, luego estas se uniran para conformar una sola lista con todas las actividades necesarias.

b) Formar equipos de trabajo: El objetivo de esta tarea ser conformar los equipos de trabajo para cada conjunto de actividades especficas.

Salida:

i. Informe de conformacin de equipos de trabajo: Este informe contendr la conformacin de cada uno de los equipos de trabajo y deber especificar tanto el perfil de cada uno de los integrantes (empresarial, informtico, estadstico) y su experiencia, como el rol que desempear al interior del equipo.

c) Planificacin del proyecto: Esta tarea tendr como objetivo planificar el ciclo de vida del proyecto de minera de datos.

34

Salida:

i. Informe de Planificacin proyecto: Este informe contendr la planificacin del proyecto de minera de datos con las actividades asignadas a cada equipo de trabajo correspondiente y los tiempos estimados para su desarrollo.

d) [QA] Planificacin de Tareas de Supervisin del Producto de Software: Esta tarea consiste en la programacin de tareas para el seguimiento del proyecto orientadas a comprobar la parcialidad del cumplimiento de los objetivos O.

Salida:

i. Plan de supervisin de cumplimiento de objetivos: Este plan contendr la programacin de revisiones peridicas a la parcialidad del cumplimiento de los objetivos O establecidos anteriormente.

e) [RSGR] Plan RSGR para la planificacin del proceso de software: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para la planificacin del proceso de software: Esta tabla contemplar los posibles escenarios que puedan acontecer en el proyecto que alteren o comprometan la planificacin del mismo.

ii. Plan RSGR para la planificacin del proceso de software: Contemplar un plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

35

Evaluar: En esta etapa se evaluar la factibilidad tanto tcnica como econmica del proyecto, se tomar la decisin de realizarlo y si se acuerda llevarlo a cabo se generar el ACON (Acuerdo de Cumplimiento de los Objetivos de Negocio).

Tareas:

a) Evaluar factibilidad tcnica: Esta tarea contempla el estudio tcnico del proyecto como proceso, analizando si es posible cumplir con los objetivos planteados en el tiempo estipulado y con los recursos disponibles.

Salidas:

i. Informe de anlisis tcnico: Ese informe contiene conclusiones sobre el estudio del proyecto como proceso, analizando interdependencia de tareas, plazos estipulados, etc.

ii. Informe de factibilidad tcnica: Este informe contiene la conclusin de la factibilidad tcnica del proyecto tomando como referencia el informe anterior.

b) Evaluar factibilidad econmica: Esta tarea tiene por objetivo verificar si el proyecto es econmicamente factible para la organizacin.

Salidas:

i. Informe de estimacin de costos: Consiste en cuantificar los costos econmicos totales del proyecto de acuerdo a la cuantificacin y planificacin realizadas con anterioridad.

ii. Informe de estimacin de beneficios: Consiste en cuantificar los beneficios de implantar el proyecto en la organizacin. Como los 36

beneficios precisos no se sabrn hasta que estos se empiecen a generar se debe realizar una estimacin, para lo cual es conveniente suponer como mnimo dos escenarios (favorable y adverso).

iii. Informe de factibilidad econmica: Este informe contiene la conclusin de la factibilidad econmica del proyecto tomando como referencia los dos informes anteriores.

c) Determinacin de realizar el proyecto: Esta tarea consiste en la determinacin por parte de la organizacin de llevar a cabo o no el proyecto:

Salidas:

i. Presentacin del proyecto: Consiste en la presentacin formal a la organizacin de los estudios de factibilidad realizados.

ii. Decisin de implantacin: Decisin de la organizacin de llevar a cabo o no el proyecto de minera de datos de acuerdo a lo presentado por los representantes del proyecto.

iii. Pasos a seguir: Se establecen los siguientes pasos a seguir de acuerdo a la decisin tomada por la organizacin sobre la realizacin del proyecto. Estos pasos pueden ser seguir con el proyecto y realizar el ACON, volver a alguna etapa o fase anterior o abortar definitivamente el proyecto segn se estime conveniente.

d) [QA] Creacin de ACON: Esta tarea tendr como objetivo la completacin del ACON un documento propio de la metodologa GESPRO-MD en el cual se acuerda entre ambas partes (organizacin y jefe del proyecto de minera de datos) el grado de cumplimiento de los objetivos O y M planteados. 37

Salidas:

i. Informe del grado de cumplimiento esperado de los objetivos O: Este informe consiste en el listado de objetivos O acompaado cada uno de su respectivo grado de cumplimiento y plazo de tiempo estimado.

ii. Informe del grado de cumplimiento esperado de los objetivos M: Este informe consiste en el listado de objetivos M acompaado cada uno de su respectivo grado de cumplimiento y plazo de tiempo estimado.

iii. Creacin y firma de acuerdo de ACON: Consiste en unir y formalizar en un solo documento los informes anteriores y, ante acuerdo de por medio, proceder a la firma de aceptacin tanto del representante de la organizacin como del jefe de proyecto de minera de datos.

e) [RSGR] Plan RSGR para evaluaciones del proyecto: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para evaluaciones del proyecto: Esta tabla contendr los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para evaluaciones del proyecto: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

38

C.

PECA
En esta etapa se realizarn todas las tareas relacionadas con la extraccin del

conocimiento, esto incluye una preparacin de los datos, la cual retornar el modelo final de datos ms apropiados para la extraccin del conocimiento. Luego se aplicarn modelos para la extraccin de patrones que satisfagan los objetivos de Minera de Datos, estos modelos sern calibrados hasta obtener el mejor resultado posible. A continuacin estos patrones sern convertidos en conocimiento para la organizacin, para esto el proyecto puede tomar dos cursos en esta etapa. En primer lugar, si es que la organizacin desea automatizar la obtencin de patrones y el proceso de extraccin del conocimiento se desarrollara un sistema que integrar el o los modelos seleccionados anteriormente y que se elaborar a segn la planificacin realizada en la fase anterior. Por otra parte, si es que la organizacin decide no desarrollar un sistema y desea que los patrones obtenidos le sean entregados como conocimiento en un formato institucional con el que puedan satisfacer los objetivos de negocio planteados la planificacin especfica de esta instancia del proyecto realizada en la fase anterior definir como se llevar a cabo este proceso.

Para esta fase de la metodologa GESPRO-MD se ha definido un smbolo diseado nica y exclusivamente para ella que sintetiza conceptos como tecnologa, datos y minera (de forma metafrica en su concepto tradicional) entre otros.

Misin de la Fase: Realizar el proceso de extraccin del conocimiento de forma eficiente y satisfactoria para con los objetivos propuestos, aportando resultados claros y legibles a los usuarios finales.

39

El smbolo que representar esta fase de aqu en adelante ser el que se muestra a continuacin:

Figura C.1. Fase PECA de la metodologa GESPRO-MD.

40

La interaccin de las etapas de la fase PECA ser la siguiente:

PECA
Preparar Modelar

Evaluar

Explotar

Figura C.2. Etapas de la Fase PECA de la metodologa GESPRO-MD .

41

Preparar: Antes de utilizar los datos, se deben preparar para ser utilizados, ya que lo ms probable es que estos no se encuentren de la forma adecuada para ser utilizados en este proceso.

Tareas:

a) Recopilacin de datos: Consiste en reunir todos los datos necesarios para la explotacin.

Salidas:

i. Razones

de

inclusin/exclusin:

Listado

de

razones

de

inclusin/exclusin de los datos seleccionados.

ii. Informe de recopilacin de datos: Informa con la totalidad de los datos recopilados involucrados que se utilizarn.

b) Limpieza y transformacin: El objetivo de esta tarea es preparar los datos recopilados limpindolos y transformndolos segn se requiera.

Salidas:

i. Informe de limpieza de datos: Este informe es la conclusin de la limpieza de los datos. Esta limpieza consiste en quitar datos ruidosos que slo puedan llevar a desviaciones en la obtencin del conocimiento.

ii. Atributos derivados: Consiste en la obtencin de caractersticas adicionales derivadas de los datos que se puedan obtener sin la necesidad de aplicar minera de datos.

iii. Registros generados: consiste en la agregacin de registros segn sea necesario.

42

iv. Preparacin final de datos: Consiste en la elaboracin final del modelo de datos a utilizar para el modelado y posible futura automatizacin del proceso de extraccin del conocimiento. Si el proyecto consiste en el desarrollo de un sistema lo ms probable es que esta actividad consista en un soporte de datos que facilite la extraccin del conocimiento como un data warehouse. Si se aborda un proyecto de pequea envergadura o que consiste solo en la extraccin puntual de patrones en particular, lo ms probable es que se slo se deban realizar algunas

transformaciones en los datos disponibles para facilitar las tcnicas de modelado.

c) Exploracin

seleccin:

Esta

tarea

consiste

en

realizar

exploraciones superficiales o de la totalidad de los datos para identificar las potenciales vetas de descubrimiento del conocimiento sobre el soporte final de datos.

Salidas:

i. Informe de acceso a datos: Este informe es el resultado de la aplicacin de consultas a los datos. En el se detallar la profundidad de acceso a los datos y si existen dificultades o anomalas en el proceso.

ii. Informe de datos seleccionados: Este informe lista los datos seleccionados para ser utilizados en el modelo de extraccin del conocimiento.

d) [QA] Aseguramiento de la calidad de los datos involucrados: Esta tarea tiene como objetivo asegurar que los datos a utilizar no presenten defectos y estn acorde a las necesidades del modelo.

43

Salidas:

i. Reformateo de datos: Consiste en el formateo de los datos para ser utilizados.

ii. Informe del proceso de incorporacin de datos: Este informe contendr los procedimientos utilizados para obtener o alimentar el sistema con los datos, para poder verificar posibles anomalas en ese proceso que conduzcan a errores reiterativos producto de la automatizacin.

e) [RSGR] Plan RSGR de datos a explotar: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo de datos a explotar: Esta tabla contendr los potenciales riesgos que puedan presentarse en el proceso de preparacin de los datos debido a anomalas de los mismos no contempladas en instancias anteriores.

ii. Plan RSGR de datos a explotar: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

44

Modelar: En esta etapa se seleccionar el modelo (modelos) que entregue los patrones que satisfagan de la mejor manera posible los objetivos de Minera de Datos.

Tareas:

a) Analizar el problema desde la perspectiva de la Minera de Datos: Esta tarea tiene como objetivo concluir mediante un anlisis del problema de minera de datos los posibles modelos que pueden ser aplicados.

Salida:

i. Informe de anlisis del problema de Minera de Datos: Este informe contiene un anlisis del problema que aborda el proyecto y entrega los posibles modelos que pueden ser utilizados para la obtencin de patrones.

b) Seleccin de la tcnica de modelado: Esta tarea tendr como objetivo seleccionar la tcnica (tcnicas) de modelado ms adecuada entre las expuestas en el informe anterior, para la extraccin de conocimiento segn la configuracin de las variables del proyecto.

Salidas:

i. Tcnica de modelado: Consiste en seleccionar una (o ms) tcnica(s) de modelado idnea al problema de minera propuesto por el proyecto.

ii. Suposiciones de modelado: Contempla los diferentes escenarios o calibracin inicial a los que puede ser sometido el modelo.

c) Aplicacin de la tcnica de modelado: Esta tarea tiene como objetivo aplicar el (los) modelo (s) seleccionados y calibrar los 45

parmetros de este (estos) segn sea necesario para la obtencin de patrones. Esta tarea ser aplicada tantas veces como modelos sean aplicados

Salidas:

i. Aplicacin de modelo: Consiste en la aplicacin del modelo o modelos seleccionados con los parmetros iniciales.

ii. Calibracin de parmetros: En esta actividad se calibrarn los parmetros del modelo que esta haciendo aplicado, si es que corresponde.

iii. Informe de patrones obtenidos: Este informa contendr los patrones para cada uno de los modelos aplicados.

d) Evaluacin del modelo: Esta tarea tiene como objetivo evaluar la solucin entregada por el modelo de acuerdo a lo esperado en los objetivos de Minera de Datos.

Salida:

i. Informe de evaluacin de modelado: Este informe debe contener la evaluacin de los resultados entregados por el modelo de acuerdo a los objetivos de la minera de datos y la calibracin de los parmetros utilizados para las pruebas realizadas.

e) [QA] Aseguramiento de la calidad del modelo o los modelos seleccionados: El objetivo de esta tarea ser asegurar que los modelos utilizados son vlidos y ptimos de acuerdo a los objetivos de Minera de Datos.

Salidas:

46

i. Tabla comparativa de modelos candidatos: En esta tabla se comprarn ventajas y desventajas de cada uno de los modelos, por ejemplo: costos potenciales de explotacin versus beneficios, tiempos de cmputos, calidad y alcance del conocimiento entregado, etc.

ii. Anlisis FODA de los modelos candidatos: Esta tabla consiste en realizar un anlisis ms acabado de las fortalezas, oportunidades, debilidades y amenazas de cada modelo. Es recomendable realizar este anlisis solo en el caso que se presentarn variados modelos para poder tener una visin ms clara y ordenada al momento de seleccionar un modelo para la explotacin.

f) [RSGR] Plan RSGR para modelo(s) seleccionado(s): Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo de modelo(s) seleccionado(s): Esta tabla contendr los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para modelo(s) seleccionado(s): Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

47

Explotar: En esta etapa se integrar el conocimiento a la organizacin, esto se podr realizar de dos formas, segn como haya sido especificado.

Si es que la organizacin necesita que el proceso de extraccin de conocimiento sea automatizado para ser utilizado cuando sea requerido, se deber generar un sistema que realice este proceso y que entregue resultados en un formato institucional. Si la organizacin slo desea que los patrones e sean entregados para un caso en particular, slo se realizar el proceso de convertir los patrones obtenidos en conocimiento en el contexto del negocio obedeciendo a los objetivos planteados inicialmente haciendo esta etapa mucha ms reducida que para la situacin anterior.

Tareas:

a) Seleccin de los patrones: El objetivo de esta tarea es elegir los patrones a utilizar dentro de los que fueron obtenidos en la etapa anterior. Si bien los patrones obtenidos deberan como mnimo satisfacer los objetivos de Minera de Datos, en algunos casos se obtiene patrones no contemplados en estos objetivos y que pueden ser interesantes como objetivos de negocio.

Informe de patrones a explotar: En este informe se debern especificar los patrones que sern incluidos para ser

transformados en conocimiento para la organizacin. En la elaboracin de ese informe debern participar los representantes de la organizacin que puedan estimar que patrones son interesantes de explotar.

b) Construccin del modelo: Esta tarea tendr como objetivo construir de forma definitiva el modelo (modelos) seleccionado para la extraccin del conocimiento y la entrega de este a los usuarios finales.

48

Salidas:

i. Parmetros elegidos: Esta actividad debe calibrar el modelo con las variables apropiadas finales seleccionadas en la etapa de modelado para hacer el proceso de extraccin de conocimiento eficiente y automatizado.

ii. Informe Descripcin de los modelos: Esta actividad debe realizar una descripcin de los modelos definitivos con su

correspondiente calibracin y proceso realizado.

c) Extraccin del conocimiento: Esta tarea tiene como objetivo desarrollar un sistema en base al modelo o los modelos seleccionados o la conversin de los patrones obtenidos en conocimiento de acuerdo a las necesidades de la organizacin.

Salidas:

i. Desarrollo de sistema de software para la extraccin de conocimiento: Esta actividad consiste en desarrollar un sistema capaz de automatizar la obtencin de patrones y la conversin de estos en conocimiento para la organizacin que satisfaga los objetivos de negocio.

ii. Administracin de la extraccin del conocimiento: Consiste en la administracin del conocimiento obtenido.

iii. Informe de extraccin del conocimiento: Este informe contiene los resultados finales de la extraccin del conocimiento y donde este est siendo almacenado. En el caso que no se desarrolle el sistema, aqu se deberan transformar los patrones seleccionados en conocimiento.

49

d) Interpretacin de los resultados: El objetivo de esta tarea es interpretar el conocimiento extrado y que est siendo almacenado donde especifica el informe de extraccin del conocimiento.

Salida:

i. Informe de interpretacin del conocimiento: Este informe contiene las interpretaciones de los resultados obtenidos de acuerdo al mbito de negocio.

e) Formateo de los resultados: Esta tarea tiene como objetivo traducir el conocimiento en bruto en un lenguaje institucional, que sirva como documento de trabajo o material de apoyo para la toma de decisiones a nivel estratgico. Este proceso puede ir desde el simple acomodo de los datos a una planilla o informe hasta la generacin de una interfaz de consulta de conocimiento.

Salida:

i. Traduccin del conocimiento a lenguaje institucional: Consiste en la presentacin final de los datos al cliente tal cual como el los necesita para ser utilizados de acuerdo a los objetivos de negocio propuestos.

f) [QA] Aseguramiento de la calidad de los resultados del modelo(s): El objetivo de esta tarea es asegurar la calidad de los resultados del modelo.

Salidas:

i. Revisin del proceso de extraccin de conocimiento: Consiste en la revisin del proceso de extraccin del conocimiento, analizando posibles deadlocks o puntos crticos del proceso que

50

puedan hacerlo inestable y llevarlo a la entrega de conclusiones equivocadas.

ii. Revisin de los parmetros utilizados: Consiste en la revisin de la calibracin de los parmetros del modelo. Constatar que estos se encuentran en rangos de valores apropiados.

g) [RSGR] Plan RSGR para el proceso de extraccin del conocimiento: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo del proceso de extraccin del conocimiento: Esta tabla contendr los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para el proceso de extraccin del conocimiento: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

51

Evaluar: En esta etapa se evaluar el conocimiento entregado a la organizacin de acuerdo a los objetivos de negocio planteados y al grado de cumplimiento para estos establecidos en el ACON.

Tareas:

a) Evaluacin de resultados: El objetivo de esta tarea ser evaluar los resultados entregados por el software de minera de datos de acuerdo a los objetivos planteados.

Salida:

i. Evaluacin de resultados de minera de datos: Consiste en evaluar los resultados de la minera de datos de acuerdo a los criterios de xito establecidos.

b) Revisin del proceso: Esta tarea consiste en realizar una revisin total a toda la fase de explotacin.

Salida:

i. Informe de revisin del proceso: Este informe presenta las conclusiones de la revisin de la fase de explotacin. Cualquier defecto encontrado deber ser debe ser puesto en este informe, ya que esto facilitar a futuro, en posibles iteraciones posteriores, sortear las dificultades previas.

c) Establecer los siguientes pasos a seguir: El objetivo de esta tarea es establecer los siguientes pasos a seguir en torno a la decisin que se tome acerca de la solucin entregada por el software de minera de datos. Para esto se llevarn a cabo las siguientes actividades:

52

Salidas:

i. Lista de posibles acciones: Consiste en la conformacin de un listado con las posibles acciones a seguir dependiendo de la decisin que se tome acerca del proyecto.

ii. Decisin: consiste en la toma de decisin por parte de la organizacin de implantar o no implantar la solucin de minera de datos generada.

d) [QA] Verificacin de cumplimiento de ACON: Esta tarea consiste en evaluar los diferentes objetivos planteados a los largo del proyecto para comprobar la calidad del producto final entregado por el proyecto.

Salidas:

i. Informe de cumplimiento de los objetivos de negocio: Consiste en la elaboracin de un documento donde se listan los objetivos de negocio alcanzados por la solucin de minera da datos.

ii. Informe de cumplimiento de objetivos de minera: Consiste en la elaboracin de un documento donde se listan los objetivos de negocio alcanzados por la solucin de minera de datos.

iii. Informe de cumplimiento de ACON: Consiste en la elaboracin de un informe donde se estipula el grado de cumplimiento de cada uno de los objetivos estipulados en el ACON. Este indicador de cumplimiento otorgar el grado de calidad del producto final.

e) [RSGR] Plan RSGR para resultados de la evaluacin del software de Minera de Datos: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

53

Salidas:

i. Tabla de Riesgo para resultados de la evaluacin del software de Minera de Datos: Esta tabla contendr los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para resultados de la evaluacin del software de Minera de Datos: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

54

D.

Incorporar
Esta es la ltima fase secuencial del proyecto y en ella se llevarn a cabo las

tareas de paso a produccin, institucionalizacin y socializacin de la solucin de minera de datos.

Para esta fase de la metodologa GESPRO-MD se ha definido un smbolo diseado nica y exclusivamente para ella que sintetiza conceptos como tecnologa, acuerdo y entendimiento entre tecnologa y personas entre otros.

Misin de la fase: Implantar, institucionalizar y socializar el producto de software entregado por el proyecto de Minera de Datos.

55

El smbolo que representar esta fase de aqu en adelante ser el que se muestra a continuacin:

Figura D.1. Fase Incorporar de la metodologa GESPRO-MD.

56

La interaccin de las etapas de la fase Incorporar ser la siguiente:

INCORPORACIN

Implantar

Adoptar

Figura D.2. Etapas de la Fase Incorporar de la metodologa GESPRO-MD .

57

Implantar: Esta etapa consistir en la distribucin de la solucin de Minera de Datos a la organizacin El objetivo principal es que este proceso sea realizado de forma exitosa parta que la solucin entregada sea integrada a la organizacin y parte del proceso de toma de decisiones para el cual fue concebida.

Tareas:

a) Planificacin de la implantacin: Esta tarea tiene como objetivo organizar el proceso de implantacin del sistema de minera de datos, para ello se realizar la siguiente actividad.

Salida:

i. Plan de implantacin: Consiste en la elaboracin de un plan para el proceso de implantacin del producto de minera de datos. En este plan se debern organizar tareas, asignar recursos, y supervisar el proceso.

b) Implantacin del Sistema de Minera de Datos: Esta tarea tiene como objetivo implantar el sistema de minera de datos en la organizacin.

Salida:

i. Paso a produccin del programa de minera de datos: Explotacin y utilizacin del sistema por parte de los usuarios finales.

58

c) Planificacin de monitorizacin y mantenimiento: Esta tarea tiene como objetivo organizar tareas para la monitorizacin del sistema y posterior mantenimiento y eventuales transformaciones del mismo.

Salida:

i. Plan de monitorizacin y mantenimiento: Consiste en un plan para supervisar y mantener el sistema luego de su implantacin. Cabe sealar que durante el perodo de marcha blanca habr que poner especial atencin a sucesos raros que pudiesen indicar anomalas en el sistema.

d) [QA] Aseguramiento de la calidad del proceso de implantacin: Esta tarea tiene como objetivo asegurar que el proceso de implantacin del sistema de minera de datos sea realizado en forma exitosa.

Salidas:

i. Documentacin del proceso de implantacin: Consiste en la elaboracin de un documento donde se especifiquen todos los pasos a seguir para la implantacin del sistema de minera de datos. De esta forma se lograr una estandarizacin del proceso y minimizacin de errores en la instalacin.

ii. Supervisin del proceso de implantacin: Consiste en supervisar las tareas de implantacin contempladas en el documento anterior.

iii. Documentacin de Observaciones al sistema: consiste en la documentacin de las eventualidades en la instalacin en las diferentes plataformas que se realice, de esta forma se tendr un respaldo de que hacer ante diferentes situaciones tecnolgicas que se presenten al instalar el sistema. 59

e) [RSGR] Plan RSGR para el proceso de implantacin del sistema: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para el proceso de implantacin del sistema: Esta tabla contendr los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para resultados de la evaluacin del software de Minera de Datos: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

60

Adoptar: En esta etapa se llevarn a cabo tareas para socializar el sistema o solucin de Minera de Datos con la organizacin y en especial con los usuarios finales.

Tareas:

a) Documentar en un lenguaje institucional el sistema: Consiste en dejar a libre disposicin una documentacin oficial del sistema. En esta documentacin aparte de la funcionalidad del sistema, se deben especificar los beneficios de su uso, necesidades que impulsaron la realizacin de proyectos y una serie de puntos que puedan servir como motivacin para el uso del mismo.

Salidas:

i. Informe final del proyecto: Consiste en un informe final de las actividades realizadas en el proyecto, conclusiones obtenidas, objetivos alcanzados, etc. Este deber estar en el formato de la organizacin (colores y fuentes institucionales, logos, etc.)

ii. Documentacin final del programa: Al igual que la actividad anterior esta consiste en un reporte final, en este caso del programa donde se especificarn detalles tcnicos, como instalarlo, utilizarlo, las ventajas de su utilizacin, etc.

b) Mostrar a los usuarios el sistema y sus potencialidades: Consiste en mostrar de forma grfica a los usuarios, el sistema de minera da datos resaltando sus potencialidades de uso y beneficios. Para ello de desarrollar la siguiente actividad:

Salida:

i. Presentacin final del programa: consiste en la presentacin formal del programa. Esta presentacin puede ser realizada de 61

forma segmentada por niveles jerrquicos o perfiles de uso segn el sistema y la organizacin lo requiera.

c) Evaluacin del sistema por parte de los usuarios: Esta tarea tiene como objetivo percibir el nivel de satisfaccin e interaccin de los usuarios con el sistema. Con esto se podr determinar si el sistema interacta de forma amigable o si es necesaria alguna correccin. Para esto se desarrollar la siguiente actividad.

Salida:

i. Encuesta acerca del sistema a usuarios finales: Esta actividad consiste en llevar a cabo una encuesta a los usuarios finales que contemple varios aspectos del sistema.

d) [QA] Recordar lo aprendido para mejoras futuras: Recordar lo que se hizo desde el punto de vista de no volver a cometer errores, otorga seguridad, si bien no al proceso actual, si a los posibles que se puedan llevar cabo en el futuro, ya que como hemos visto los proyectos de minera contemplan iteraciones posteriores. Con esto se hace presente que el aseguramiento de la calidad no es una tarea del presente si no que una tarea continua y sostenida en el tiempo. Adems siempre la primera iteracin ser la que presente mayores dificultades en este punto ya que en esta, todo el proyecto constituir algo nuevo que producir una obvia resistencia al cambio.

Salidas:

i. Documentacin del proceso: Este informe consiste en documentar el proceso de socializacin poniendo nfasis en las dificultades encontradas y en forma de sortearlas.

62

ii. Observaciones de potenciales mejoras: Este informe consiste en la realizacin de observaciones de mejoras potenciales en iteraciones posteriores.

e) [RSGR] Plan RSGR para el proceso de aceptacin del sistema: Conforma parte del plan RSGR general del proyecto y contendr los riesgos que se presenten en esta etapa.

Salidas:

i. Tabla de Riesgo para el proceso de aceptacin del sistema: Esta tabla contendr los potenciales riesgos que pueden presentarse en el contexto de esta etapa.

ii. Plan RSGR para resultados de la evaluacin del software de Minera de Datos: Plan para reducir, supervisar y gestionar los riesgos incluidos en la tabla anterior.

Dentro de las tareas anteriormente para la metodologa GESPRO-MD descritas existen algunas que poseen la siguiente nomenclatura:

[QA]: Tareas orientadas al aseguramiento de la calidad del producto final. Estas no constituyen una etapa ni fase en particular, si no que se configuran de forma transversal a lo largo de toda la metodologa, ya que el proceso de aseguramiento de la calidad no es inherente a un punto en particular del proceso, sino que a todo el proyecto.

[RSGR]: Tareas para conformar el plan de riesgo del proyecto, estas tareas al igual que las de aseguramiento de la calidad no se definen en un solo punto en particular, ya que los diferentes escenarios de riesgo se van configurando a medida que el proyecto se va realizando, de esta manera para realizar una gestin del riesgo lo ms acertada posible y otorgarle la

seguridad necesaria al proceso del proyecto el plan se configura de esta forma. 63

Al finalizar el proyecto, se considera adecuado para el plan de riesgo revisar que escenarios fueron los que se cumplieron o estuvieron ms cerca de hacerlo, ya que con esto se podr calibrar de forma ms precisa para iteraciones posteriores los planes de riesgo para escenarios similares.

La aplicacin de todas las tareas especificadas en el modelo corresponder a la magnitud de este.

Al mirar a simple vista la configuracin del modelo este puede parecer demasiado extenso como para aplicarlo a proyectos de pequeas y medianas empresas con recursos limitados, pero realmente la clave est en las etapas previas a la realizacin del proyecto en si, ya que la medicin y planificacin de proyecto sern los factores determinantes de la verdadera envergadura del proyecto.

Adems la realizacin de la totalidad de las tareas facilitadas por el modelo slo depender de lo que el jefe de proyecto estime conveniente. El modelo parte de la base de prestar la mayor cantidad de tareas y herramientas posibles para las potenciales escenarios que pueda enfrentar el proyecto de ah en ms se deber decidir que es conveniente utilizar o no.

El modelo GESPRO-MD no especfica tcnicas ni herramientas tcnicas especficas para la planificacin del proyecto, extraccin del conocimiento, tcnicas de modelado, etc. El propsito del modelo GESPRO-MD es gestionar y generar las instancias necesarias adecuadas a cada paso del proyecto. La especificacin alguna tcnica o herramienta especfica se debe realizar en los espacios generados para tal efecto.

64

Potrebbero piacerti anche