Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1
millones de datos que deben analizarse. En convertirlos en conocimiento consciente y,
segundo lugar, afortunadamente, el hecho de por tanto, útil.
que la información esté en formato digital
permite que ésta pueda ser analizada Finalmente, existía un término similar a
directamente por sistemas informáticos. KDD, denominado “Análisis Inteligente de
Datos” (IDA, del inglés Intelligent Data
Llegados a este punto, la pregunta obvia es Analysis) que correspondía con el uso de
qué tiene esto de novedoso, cuando el estudio técnicas de inteligencia artificial en el análisis
estadístico de datos de distinta índole se viene de los datos, menos especializado, y que
realizando desde hace décadas. La respuesta a últimamente ha caído en desuso debido a que
esta pregunta depende de varios factores, pero solapa en gran medida con KDD.
especialmente al hecho de que las técnicas
estadísticas son principalmente de validación, En este artículo comentaremos algunas
es decir, requieren que el usuario proponga un técnicas de extracción de conocimiento sobre
modelo y sean las herramientas estadísticas bases de datos y de su visualización,
las que lo parametricen y le den un grado de centrándonos en bases de datos médicas,
plausibilidad respecto a unos determinados debido a que este área ilustra de una manera
datos. Más aún, para proponer estos modelos más clara este cambio entre el uso de
e interpretar los resultados de los distintos herramientas estadísticas tradicionales y la
tests estadísticos, el usuario debe tener ciertos minería de datos.
conocimientos de estadística.
2
fusión horizontal (filas) como vertical Generalmente, la información que se
(atributos). quiere investigar sobre un cierto dominio de
la organización se encuentra en bases de datos
5. Seleccionar el método de minería de y otras fuentes muy diversas, tanto internas
datos apropiado y aplicarlo. como externas. Para poder operar
eficientemente con esos datos y debido a que
6. Interpretación, transformación y
los costes de almacenamiento masivo y
representación de los patrones
conectividad se han reducido drásticamente
extraídos.
en los últimos años, parece razonable recoger
7. Difusión y uso del nuevo (copiar) los datos en un sistema unificado.
conocimiento. Aparte de facilitar el acceso a los datos en
tiempo real (conocido como OLAP, On-Line
El proceso resultante es el que se ilustra Analytical Processing), esta separación de los
simplificadamente en la figura 1: datos con respecto a las fuentes permite que el
trabajo transaccional diario de los sistemas de
Sistem a de información originales (conocido como
Inform ación OLTP, On-Line Transactional Processing) no
se vea interferido por el proceso de minería de
Preparación de datos, generalmente muy exigente, sobre los
los Datos sistemas de gestión de bases de datos que
mantienen la información.
M inería de Datos
3
Finalmente, un punto importante a muchas dependencias nada interesantes
destacar, especialmente en el caso de y en las que la causalidad es justamente
almacenes de datos médicos, es la privacidad. la inversa. Por ejemplo el hecho de que
Muchas veces los registros corresponden con un paciente haya sido ingresado en
datos de historiales de pacientes. Existen dos maternidad determina su sexo.
soluciones para su privacidad: un acceso
restringido a toda la información, que sólo • Clasificación: Una clasificación se
permitiría analizar los datos a muy pocas puede ver como el esclarecimiento de
personas autorizadas, o un acceso más una dependencia, en la que el atributo
general pero sin posibilidad de obtener dependiente puede tomar un valor entre
información individual, sólo de grupos. varias clases, ya conocidas. Muchas
veces se conoce como aprendizaje
supervisado. Por ejemplo, si se sabe
MINERÍA DE DATOS por un estudio de dependencias que los
atributos edad, número de miopías y
Una vez recogidos los datos de interés en astigmatismo han determinado los
un almacén de datos, un explorador puede pacientes para los que su operación de
decidir qué tipos de patrón quiere descubrir. cirugía ocular ha sido satisfactoria,
Es importante destacar que la elección del podemos intentar determinar las reglas
tipo de conocimiento que se desea extraer va exactas que clasifican un caso como
a marcar claramente la técnica de minería de positivo o negativo a partir de esos
datos a utilizar. Afortunadamente, los propios atributos.
sistemas de minería de datos se encargan
generalmente de elegir la técnica más idónea • Segmentación: La segmentación (o
entre las disponibles para un determinado tipo clustering) es la detección de grupos de
de patrón a buscar, con lo que el explorador individuos. Se diferencia de la
sólo debe determinar el tipo de patrón. clasificación en el que no se conocen ni
Veamos cuáles son estas tipologías: las clases ni su número (aprendizaje no
supervisado), con lo que el objetivo es
• Asociaciones: Una asociación entre determinar grupos o racimos (clusters)
dos atributos ocurre cuando la diferenciados del resto.
frecuencia de que se den dos valores
determinados de cada uno • Tendencias: El objetivo es predecir los
conjuntamente es relativamente alta. Es valores de una variable continua a
uno de los patrones con más interés partir de la evolución de otra variable
comercial, sobre todo en el análisis de continua, generalmente el tiempo. Por
hábitos de los clientes, donde, por ejemplo, se intenta predecir el número
ejemplo, en un supermercado se de clientes o pacientes, los ingresos,
analiza si los pañales y los potitos de llamadas, ganancias, costes, etc. a
bebé se compran conjuntamente. partir de los resultados de semanas,
meses o años anteriores.
• Dependencias: Una dependencia
fundamental (aproximada o absoluta) • Reglas Generales: Evidentemente
es un patrón en el que se establece que muchos patrones no se ajustan a los
uno o más atributos determinan el tipos anteriores. Recientemente los
valor de otro. Uno de los mayores sistemas incorporan capacidad para
problemas de la búsqueda de establecer otros patrones más
dependencias es que suelen existir generales.
4
Una vez determinado el tipo de patrón a posibles pares o tripletes de
buscar, el sistema (u opcionalmente el combinaciones entre productos. Así,
usuario) puede elegir la técnica más existen algoritmos específicos que
apropiada. Según la manera de representar los permiten buscar todas las asociaciones
patrones, podemos distinguir entre técnicas no significativas existentes eficientemente
simbólicas y técnicas simbólicas. Las más (véase p.ej. el capítulo de Agrawal et
numerosas y tradicionales son las técnicas no al. en [2]).
simbólicas, generalmente más apropiadas
para variables continuas y con un El mayor inconveniente de las técnicas no
conocimiento más claro de lo que se quiere simbólicas es su poca (o nula) inteligibilidad.
buscar. En el caso del razonamiento por casos o las
• Técnicas estadísticas: Parte de las redes neuronales, el resultado del proceso es
múltiples técnicas estadísticas se una caja negra que sirve para predecir o
pueden utilizar para confirmar clasificar nuevos casos, pero no se sabe cómo
asociaciones y dependencias, y para y, por tanto, no se ha obtenido conocimiento.
realizar segmentaciones. Una técnica Por el contrario, las técnicas simbólicas
muy importante es el uso de regresión generan un modelo “legible” y además
lineal (y no lineal) y redes de regresión aceptan mayor variedad de variables y mayor
para establecer tendencias. También riqueza en la estructura de los datos. Entre las
son originariamente estadísticos los técnicas simbólicas, podemos destacar:
árboles de regresión, aunque los
comentaremos más adelante. • Árboles de Decisión: Utilizados
fundamentalmente para clasificación y
• Vecinos más próximos y razonamiento segmentación, consisten en una serie
por casos. Se aplican generalmente a de tests que van separando el
clasificación y segmentación, problema, siguiendo la técnica del
basándose en medidas de distancias o divide y vencerás, hasta llegar a las
similitud con el prototipo o los hojas del árbol que determinan la clase
miembros de los grupos. o grupo a la que pertenece el registro o
individuo. La fig. 2 muestra un árbol
• Redes Neuronales Artificiales, Lógica de decisión. Existen muchísimas
Difusa, Algoritmos Genéticos y técnicas para inducir árboles de
combinaciones entre ellos. Son decisión, siendo el más famoso el
técnicas tradicionales de aprendizaje algoritmo C4.5 de Quinlan [8]. Los
automático con aplicaciones árboles de regresión son similares a los
especialmente en clasificación y árboles de decisión pero basados en
segmentación. Su mayor inconveniente técnicas estadísticas.
es la mala inteligibilidad de los
resultados, aunque algunas nuevas
combinaciones y técnicas permiten
extraer reglas a partir de los modelos
inducidos.
• Algoritmos específicos: algoritmos
eficientes para la búsqueda de
asociaciones o dependencias. Por
ejemplo, en un supermercado con miles
de artículos, no se puede evaluar
estadísticamente cada uno de los
5
¿Astigmatismo? reglas (como de la fig. 2 a la 3) pero no
no sí
viceversa.
¿Miopía?
¿Edad?
>50 <6 >6 ¿Operación?
<25
>25 y <50 SÍ NO
NO SI Astig.=No Y 25<Edad<25 Y 1.5<Miopía<10 ENTONCES SÍ
NO ¿Miopía?
6
HIPOPOTASEMIA En definitiva, en esta última década el
objetivo es la adquisición, el descubrimiento
¿Presión Arterial?
y el mantenimiento de gran parte del
Hipertensión
Normal
conocimiento de una manera automática. La
¿K+ Urinario? ¿Renina Plasmática?
inclusión manual del mismo a partir de
< 25 mmol/l > 25 mmol/l Alta Baja
expertos u otras fuentes debería minimizarse,
¿HCO3 sérico? ¿HCO3 sérico? Tumor
secretor de
Exceso de
Glucocorticoides
siempre que hubiera alternativa automática.
Bajo/Normal Alto Bajo Alto renina
Para ello, como hemos visto, surge el KDD.
Déficit de Diuréticos Acidosis tubular Los nuevos objetivos del KDD en medicina
ingesta (uso renal. Síndrome de
Pérdidas. previo) Acidosis diabética Bartter son [6]:
Fig.4. Árbol de Decisión para el Diagnóstico Diferencial de • La interpretación comprehensiva de los
las causas de Hipopotasemia (adaptado de [3]) datos de los pacientes de una manera
Generalmente, su utilidad se basaba en contextual y la presentación de tales
diagnóstico diferencial, donde complejos interpretaciones de una manera visual o
árboles de decisión como el de la figura 4, simbólica.
eran mucho más fáciles de aplicar
• La extracción (descubrimiento) de
automáticamente que siguiendo manualmente
conocimiento médico a partir del
las flechas del árbol que aparecen en muchos
diagnóstico, revisiones médicas,
manuales de medicina.
seguimientos, terapias o tareas globales
Sin embargo, estos sistemas tenían algunas de gestión de los pacientes.
carencias importantes: generalmente el Dentro de la extracción de conocimiento se
experto simplificaba el conocimiento que incluye el uso de conocimiento previo, ya sea
introducía en el sistema. La razón no estaba para su refinamiento o particularización, o
en una falta de rigor sino en que muchas para ayudar al descubrimiento de nuevos
veces los expertos eran incapaces de expresar patrones o modelos.
todo su conocimiento con reglas, ya que
muchos expertos basan su decisión en Otra característica importante es que los
procesos no completamente conscientes. Esto usuarios de estos nuevos sistemas son
es similar a los procesos que utilizan los profesionales de la medicina que, aunque con
labradores (o sus perros) cuando predicen que ciertos conocimientos de estadística
va a llover mañana. Esto no quiere decir que obligatorios en su formación, no tienen
el experto (o el labrador, o incluso el perro) conocimientos de aprendizaje de modelos ni
no tenga un modelo, sino que este modelo es de la mayoría de técnicas presentadas en el
neuronal, basado en interconexiones, pesos y punto anterior. Por tanto, los sistemas deben
refuerzos de un circuito imposible de mostrar ser sencillos de manejar, los patrones
conscientemente. Nótese que esto no quiere descubiertos deben ser fáciles de entender (ya
decir que no haya modelos comprensibles. sean simbólicos o visuales) y la interrelación
con el resto de sistemas informáticos de
Por último, muchos de estos sistemas de adquisición de datos, visualización y gestión
los ochenta quedaban obsoletos con el tiempo de los centros asistenciales debe ser
y no se particularizaban a las características transparente para el usuario.
propias del área donde el sistema iba a ser
aplicado. No es lo mismo un diagnóstico A partir de aquí los nuevos sistemas deben
diferencial con síntomas de vómitos y permitir de una manera cómoda y eficaz:
diarreas agudas en una zona no tropical que
tropical.
7
• Asociación de síntomas y clasificación Otra aplicación similar es la desarrollada
diferencial de patologías. en el Hospital Central de Karlstad en Suecia,
donde se analiza la recurrencia de nuevos
• Estudio de factores (genéticos, tumores en los cinco años posteriores a una
precedentes, hábitos, alimenticios, etc.) de operación de cáncer de mama. El tipo de
riesgo/salud en distintas patologías. seguimiento del paciente se decide por un
conjunto de reglas obtenidas automáticamente
• Segmentación de pacientes para una a partir de los datos recogidos en el hospital
atención más inteligente según su grupo. durante años.
• Predicciones temporales de los centros Finalmente, desde un punto de vista de
asistenciales para el mejor uso de gestión hospitalaria, el sistema descrito por
recursos, consultas, salas y habitaciones. Matheus et al [2] realiza informes en lenguaje
• Estudios epidemiológicos, análisis de natural sobre distintos aspectos de gestión de
rendimientos de campañas de un hospital a partir de datos de admisiones,
información, prevención, sustitución de materiales, pagos, servicios, recursos
fármacos, etc. humanos, etc., con el fin de estudiar las
causas de aumento (o disminución) de costes,
Como se puede comprobar, el abanico de y corregirlos en aquellos casos que sea
aplicaciones es muy amplio, las repercusiones posible.
tanto en calidad de servicio y disminución de
costes pueden ser altamente significativas. Sin
embargo, el uso de estas técnicas todavía es
VISUALIZACIÓN DE LOS
reducido, especialmente en nuestro país. DATOS
Por citar algunos ejemplos más concretos Aunque parte de los procesos de
del uso de estas técnicas, Abbott [1] ha descubrimiento ya se realizan de manera
utilizado un sistema de KDD para determinar completamente automática, muchos de ellos
los principales factores que motivan el requieren todavía de intervención humana o,
cambio de atención de largo plazo (crónica) a por el contrario, pueden mejorar la capacidad
atención aguda. Existían 44.000 registros humana de extraer y comprender patrones.
(individuos) de diferentes fuentes, cada uno Para potenciar estas capacidades se suelen
con 1.095 variables. Tras el preprocesado y utilizar las técnicas de visualización de datos.
limpieza, el número de registros potenciales
Las técnicas de visualización de datos se
para el análisis se redujo a 14.000. Además se
utilizan fundamentalmente con dos objetivos:
redujo el número de variables a 135. Se
en primer lugar aprovechar la gran capacidad
utilizó una red neuronal artificial para
humana de extraer patrones a partir de
clasificar los pacientes en dos clases: atención
imágenes (todavía no se han inventado
a largo plazo y atención aguda. El modelo
reconocedores de caracteres mejores que el
aprendido mostró una efectividad de
ser humano) y, en segundo lugar, ayudar al
clasificación global del 94%. Se esperaba que
usuario a comprender más rápidamente
algunos factores como dispnea, cadera rota,
patrones descubiertos automáticamente por un
ataque cardiaco o sepsis aparecerían, y así se
sistema de KDD.
verificó por el sistema. Sin embargo, algunas
variables que no se esperaban ayudaron a Aunque las técnicas no son excluyentes,
refinar el modelo. Finalmente, hasta 23 estos dos objetivos marcan dos momentos
factores se mostraron significativos, algunos diferentes del uso de la visualización de los
esperados y otros descubiertos.
8
datos: visualización previa (a veces conocida
como Visual Data Mining [10]) y
visualización posterior al proceso de minería
de datos.
9
Cada punto en el espacio k-dimensional se
hace corresponder con una línea poligonal
(polígono abierto), donde cada vértice de la
línea poligonal intersecta los k ejes en el valor
para la dimensión. Cuando hay pocos datos
cada línea se dibuja de un color. Cuando hay
muchos datos se utiliza una tercera dimensión
para los casos.
S11
un ordenador o en papel.
S9
Clstrl.
Tnsn.
Obsd.
S1
paralelas [4]. La idea consiste en mapear el
Alcl.
Prcd.
Strss
Rsg
10
El mayor problema de estas representaciones muchos árboles de decisión posibles para
(y de otras muchas) es que no acomodan bien unos datos dados.
las variables discretas.
Otros gráficos de visualización posterior
En este sentido, existen otro tipo de de patrones son los que muestran una
técnicas que sí permiten combinar atributos determinada segmentación de los datos, una
continuos y discretos, mediante el uso de asociación, una determinada clasificación,
transformaciones menos estándar y el uso de utilizando para ello gráficos de visualización
iconos. Se utilizan rasgos compatibles y previa en los que además se señala el patrón.
diferenciados para distintas dimensiones, Por ejemplo, la figura 13 muestra una
como son círculos, estrellas, puntos, etc., con segmentación lineal realizada para el corte y
la ventaja de que se pueden combinar más segmentación de la figura 9.
convenientemente valores discretos y
continuos.
Leyenda:
Tabaco
Colstrol. 3 4
Tensión
Obesidad
Alcohol
Precdntes. | | | | | | | | | | | | | |
Estrés Fig.13. Segmentación sugerida a partir de la fig. 9.
Casos
Fig.12. Representación Icónica. En nuestra opinión, las herramientas gráficas
requieren mayor experiencia para seleccionar
donde los valores continuos (tabaco,
qué gráfico nos interesa utilizar entre los
colesterol y tensión) aparecen en miniejes
cientos de gráficas que proporcionan los
tridimensionales, mientras que los discretos
sistemas actuales.
aparecen como iconos (círculo, cuadrado,
cruz y triángulo para obsesidad, alcoholismo,
precedentes y estrés, respectivamente). CONCLUSIONES
Otras aproximaciones más sofisticadas se En este artículo se han mostrado las
basan en estructuras jerárquicas, como por diferencias, y por tanto las nuevas
ejemplo, los Cone Trees [9]. posibilidades, del descubrimiento de
conocimiento a partir de bases de datos, en
Por otro lado, la visualización posterior se comparación con otras aproximaciones más
utiliza para mostrar los patrones y entenderlos clásicas. En particular, se diferencia de los
mejor. Un árbol de decisión es un ejemplo de sistemas expertos en que, en éstos, los
visualización posterior. Nótese la diferencia modelos se introducen manualmente y el
entre los datos de la tabla anterior o su sistema se dedica a aplicarlos, mientras que
visualización en las figuras 11 y 12, y un en el KDD se descubren estos modelos. El
árbol de decisión en concreto generado a KDD se diferencia de las herramientas de
partir de dicha tabla. De hecho, existen análisis de datos estadísticas en que éstas
11
verifican un modelo propuesto por el usuario 4. Inselberg, A.; Dimsdale, B. "Parallel Coordinates:
(o a lo sumo lo parametrizan) mientras que A Tool for Visualizing Multidimensional
Geometry" Proc. Visualization 1990, IEEE CS
los sistemas de KDD descubren patrones Press, Los Alamitos, Calif. 1990, pp. 361-370.
novedosos (que por sus propios criterios de
selección en la generación están ya 5. Juan Lizandra, M.Carmen; Monserrat Aranda,
Carlos; Hernández-Orallo, José: Imagen Médica.
verificados).
Síntesis de Imagen Médica, ACTA, Vol. 11,
pp.:44-55, 1999.
Las nuevas técnicas de visualización son
mucho más complejas que las tradicionales. 6. Lavrac, N. "Selected Techniques for Data Mining
Muchas de ellas se basan en complejas in Medicine" Artificial Intelligence in Medicine,
representaciones tridimensionales o icónicas (16) 1: 3-24, 1999.
que ayudan al usuario a sugerirle patrones que 7. Muggleton, S.; De Raedt, L. "Inductive Logic
analizar o a entender un patrón descubierto Programming: Theory and Methods" Journal of
por el sistema. Logic Programming, (19-20: 629-679), 1994.
8. Quinlan, J.R. C4.5 Programs for Machine
Hemos mostrado algunos ejemplos de la Learning, Morgan Kaufmann, 1993.
utilidad y el gran abanico de posibilidades del
KDD en el área de la salud, donde se ilustra 9. Robertson, G.; Card, S.; Mackinlay, J. "Cone
Trees: Animated 3D Visualisations of Hierarchical
con mayor crudeza los posibles beneficios Information", Proc. ACM CHI Intl. Conf. On
que se están desaprovechando, por el Human Factors in Computing, ACM Press, New
desconocimiento de unas técnicas que están, York, 1991, pp. 189-194.
por tanto, seriamente infrautilizadas.
10. Wong, P.C. "Visual Data Mining", Special Issue
of IEEE Computer Graphics and Applications,
Afortunadamente, esta tendencia está Sep/Oct 1999, pp. 20-46.
cambiando. El descubrimiento de
conocimiento a partir de bases de datos es un
área incipiente que va a cobrar cada vez
mayor importancia y ubicuidad a medida que
los posibles usuarios (cualquier persona o
entidad que tenga que tomar decisiones
importantes) vayan familiarizándose con las
nuevas herramientas y sistemas que, bien
seguro, serán cada día más potentes y fáciles
de manejar.
REFERENCIAS
1. Abbot, P. Predicting Long-Term Care
Admissions: A Connectionist Approach to
Knowledge Discovery in the Minimum Data Set,
Tesis Doctoral, Universidad de Maryland,
Baltimore, 1999.
2. Fayyad U., Piatesky-Shapiro G., Smyth P. (eds.)
Advances in Knowledge Discovery and Data
Mining, MIT Press, 1996.
3. Harrison et al. (eds.) Principios de Medicina
Interna, 12ª Edición, McGraw Hill, 1991.
12