Sei sulla pagina 1di 2

Query al

Los queries han sido un avance fa- recursos de hardware por los queries factor importante al formular sus pe-

Del
buloso tanto para el informático como constituye un problema. La sobrecar- ticiones de consulta. Como resultado,
para el usuario. El usuario puede por ga aumenta aún más la lentitud de en el mejor de los casos hay que re-
sí solo extraer información de la base las consultas y baja el rendimiento de petir las consultas, modificando la

DataMining
de datos, sin esperar que los infor- las propias aplicaciones operativas. petición, en el peor se trabaja con
máticos, generalmente ya bastante Esta situación conduce a constantes información distorsionada. Y no es
agobiados por otros proyectos, pro- y costosos upgrades de ordenadores. nada raro que en una reunión de ven-
gramen la salida en el formato soli- La proliferación de queries no sólo tas o un consejo, diferentes personas
citado por el usuario. ha llegado a colapsar muchos orde- se presenten con información distin-
nadores, sino que también absorbe ta. Más de una reunión ha degenera-
La evolución hacia Data un volumen significativo de los recur- do en un intento de conciliar la in-
Warehouse sos humanos de los departamentos de formación que traen consigo los
Una vez descubierta la posibilidad de informática. Ello se debe al hecho de distintos participantes.
obtener información sin programar, que la petición de la consulta se es-
su uso aumenta constantemente. Pero pecifica en términos de la base de Data Warehouse
el verdadero desbordamiento se pro- Todos estos problemas no son defi-
duce con las hojas electrónicas bajo ciencias de productos determinados,

E
n la informática, tanto en hardware como en software se pueden Windows y la posibilidad de alimen- ni mucho menos culpa de los desa-
distinguir claramente distintas generaciones de productos; según tarlas con la información de la base La forma de plantear rrolladores. Se producen porque una
surgen, las distintas tecnologías tienen su auge y posteriormente su de datos operativa. Ahora los usuarios tecnología llega al límite de sus posi-
declive. Al principio, en la prehistoria de la informática, nos colma- pueden no solamente acceder a la in-
la distribución de bilidades. La solución ya no se puede
ba de satisfacción el haber impreso los recibos de nómina o las
facturas. Más adelante, los usuarios empezaron a interesarse por la posibili-
formación, sino realmente trabajar
con ella. Además las hojas electróni-
datos en un Data producir por la vía del “más de lo
mismo”.
dad de explotar para su trabajo la información almacenada en los sistemas cas permiten presentar la informa- Warehouse tiene un Los problemas de velocidad y de
transaccionales. En este proceso evolutivo de los Sistemas de Información ción en una forma muy atractiva. sobrecarga de procesadores se deben
empresariales, surgieron dos tecnologías aún hoy muy importantes, como Aparece un nuevo tipo de produc- impacto decisivo en al hecho que las bases de datos
son los EIS (Sistemas de Información para la Dirección) y los queries (soft- tos que permite al usuario, directa- relacionales han sido diseñadas para
ware de consultas). mente desde su PC y trabajando con su rendimiento y el trabajo transaccional y no para
interfaz gráfica, solicitar la informa- atender consultas. El objetivo de ob-
Los proyectos EIS ción a la base de datos central. La uti-
condiciona el éxito tener cualquier información en cual-
Un típico proyecto EIS, comienza por una fase previa de análisis muy exten-
sa, en la cual se define la información que necesita tener la alta dirección en
lidad del binomio query - hoja elec-
trónica es tan enorme, que en muchas
de todo el proyecto quier momento, existan o no los ín-
dices necesarios en la base de datos,
su “tablero de mandos”. A continuación se desarrolla un proyecto, cuyo obje- instalaciones la ocupación del hard- es una tarea demasiado difícil para
tivo es extraer de las bases de datos operativas la información necesaria, sin- ware por los queries representa un las bases de datos relacionales. Por
tetizarla y presentarla, generalmente de una manera muy espectacular, tal porcentaje elevado. Este fenómeno datos. Hay que utilizar los nombres ello, ha surgido la tecnología Data
como se lo merecen “sus consumidores”, los más altos ejecutivos de una gran constituye la mejor prueba de la im- de columnas y tablas y por tanto, hay Warehouse que se apoya en otro tipo
empresa. Los resultados suelen ser muy satisfactorios, queda un solo proble- portancia que tiene para una empre- que saber cómo están diseñadas las de bases de datos. Se define un nue-
ma, el muy alto coste de este tipo de proyectos. Pero peor aún, la evolución sa el trabajar con la información. Sin bases de datos. Muchas veces hay que vo entorno, el OLAP (Procesamiento
del mercado y de la empresa demanda que el EIS de la empresa también embargo, la masificación del uso de definir joins, e inclusive, tablas espe- Analítico en Tiempo Real) en contras-
evolucione y el coste del mantenimiento puede llegar a ser igual de alto como las consultas, llega a poner en eviden- ciales para poder unir información de te con el existente OLTP (Procesa-
el del proyecto inicial. Por este mismo motivo el EIS no es una herramienta cia algunas deficiencias intrínsecas una aplicación con otra, cuando sus miento de Transacciones en Tiempo
apropiada para el análisis de datos a nivel departamental. de este tipo de productos. tablas no son compatibles. Demasiadas Real).
En primer lugar, la velocidad. Los veces, el resultado de una petición no Las bases de datos para OLAP tie-
Los productos Query tiempos de respuesta son muy lentos es el pretendido por el usuario. Por todo nen una estructura totalmente distin-
Al realizarse el análisis detallado de ventas, costes, márgenes, rotaciones, y se convierten en un freno impor- esto, en las instalaciones, donde no se ta, orientada a alta velocidad de re-
etc., las preguntas que se plantea un usuario varían constantemente. Por cierto, tante del análisis de la información, haya hecho una inversión considera- cuperación de la información para
se tardó bastante tiempo para que los informáticos nos diéramos cuenta que puesto que cada consulta resuelta, ble para que los usuarios adquieran un consultas. Se les suele llamar bases
esto no es precisamente un capricho del usuario, sino una necesidad objetiva genera nuevas preguntas. Los tiem- grado de cultura informática relativa- de datos multidimensionales o tam-
del negocio. Aquí no hay un tablero de mando. No se constata el “qué está pos de respuesta lentos, interrumpen mente elevado, hay que dedicar recur- bién “hiper-cubos”. Los conceptos
pasando”, se analiza el “porqué puede estar pasando”. Por esto los queries el hilo del razonamiento del usuario, sos para el soporte de los queries. como Zona, Producto, Vendedor o
son un software con una capacidad de extraer la información sin ningún pro- dificultando así la tarea de profundi- Otro problema es la inconsistencia Período de Venta se convierten en las
yecto previo. La información se presenta en forma poco espectacular, mu- zar el análisis. Pero además de la len- de la información obtenida. Frecuen- múltiples dimensiones de estos cubos,
p o r J o rg e Gro s chas de las consultas son para “usar y tirar”. titud, también la alta ocupación de los temente, los usuarios omiten algún y en las intersecciones de sus coorde-

22 JULIO/AGOSTO 1997 ™ Win dow s NT Magazin e www.wntmag.com www.wntmag.com Win dow s NT Magazin e ™ JULIO/AGOSTO 1997 23
DATA MINING

nadas, están almacenados los valores hacer la observación, que la redundan- sufridos por los usuarios de los queries de resultados con unas diferencias de de datos. En su máxima expresión, en este tratamiento? Pero indudable-
correspondientes. De esta manera, los cia es uno de los conceptos inherentes y sus departamentos de informática, millones de dólares. ya no es el usuario quien formula mente, data mining nos puede aportar
Data Warehouse homogenizan la in- de Data Warehouse, utilizado para au- tenga un éxito notable. Las prediccio- Los productos y proyectos Data las consultas. “Agentes inteligentes” ideas muy importantes. La cuestión es
formación en unas estructuras que mentar las velocidades de acceso. nes de crecimiento del mercado hablan Warehouse están dimensionados recorren las bases de datos y bus- qué coste de hardware, software y
permiten acceder más fácilmente a Lo dicho en el párrafo anterior no de 700% de incremento interanual en para este tipo de empresas, contando can en ellas posibles relaciones. recursos humanos tienen.
cualquier dimensión y de allí nave- significa de ninguna manera que un los próximos 5 años y textualmente con hardware muy potente (muchas Veamos un ejemplo distinto al que Parece por todas las preguntas su-
gar mediante funciones específicas proyecto de definición de un Data cada mes aparecen nuevos productos. veces especializado) y la masiva in- casi siempre se ha visto en las re- geridas y muchas otras que segura-
tales como “la rotación del cubo” (de- Warehouse y su alimentación es algo En grandes empresas, los productos tervención de consultores externos, vistas, (el de la relación de la hora mente quedan en el tintero, que aun-
tallar determinada información si- simple. Todo lo contrario: los grandes Data Warehouse han asumido la ma- expertos en la realización de la puesta en que se compran los pañales y la que se hacen muchas presentaciones
guiendo el criterio de otra dimensión, Data Warehouse son sistemas suma- yoría de funciones antes realizadas en marcha. Un proyecto de este tipo cerveza por cajas): de data mining a empresas medianas
como por ejemplo, detallar zona por mente sofisticados y para su implanta- con queries y también una parte de resulta en todos los aspectos excesi- Si en la base de datos está la infor- y hasta pequeñas, este tipo de tecno-
producto); “drill down” (bajar al si- ción hace falta un conocimiento muy las funciones del EIS. La eliminación vo para un departamento de ventas mación de venta de agua mineral por logía, por algún tiempo, solo puede
guiente nivel, como por ejemplo, de- profundo, tanto del producto como de total de los queries normalmente no que necesita analizar la información días y las condiciones climatológicas, resultar rentable para empresas muy
tallar zona por comercial) etc. la problemática de usuario. La forma es práctica ni debe ser el objetivo, de 500.000 - 3.000.000 de líneas de lo obvio es que existirá una relación grandes.
Estas nuevas estructuras de datos, de plantear la distribución de datos puesto que siempre existirán consul- pedidos, o una cantidad equivalente y no se necesita data mining para
además de responder a las consultas en un Data Warehouse tiene un im- tas puntuales. Como en todos los pro- de información financiera, que es lo Conclusiones
bastante más rápidamente, lo hacen pacto decisivo en su rendimiento. Hay yectos, aquí también es aplicable la normal para una empresa mediana. He tratado aquí de escribir en forma
con menor utilización de recursos. muchos proyectos que han resultado regla 80 / 20 - el último 20 % cuesta Para resolver este tipo de necesi- sumamente resumida sobre las dis-
Pero sobre todo, al trabajar sobre otra una decepción porque se subestima- 80% del esfuerzo. Por tanto, el pro- dades han surgido los Data Mart, pro-
Recientemente han tintas herramientas, usadas para po-
base de datos, se separan los proce- ron estos factores. ponerse el objetivo que todas las con- ductos que utilizan la tecnología Data surgido los der trabajar con la información que
sos transaccionales de los procesos de La homogeneización de las estruc- sultas tienen que ser satisfechas por Warehouse adaptada a las necesida- se oculta en nuestras bases de datos
consulta, colocando los procesos de turas de datos tiende a resolver otro el Data Warehouse, encarece el pro- des de las empresas medias. Data denominados Data transaccionales, sus características y
consulta generalmente en otro orde- gran problema de los queries: El del yecto de una forma muy significati- Mart se destaca por una definición de su evolución. Las características de
nador, a veces con procesadores de soporte requerido por los usuarios. La va. requerimientos más fácil y rápida. Mart, productos que cada tipo de producto tal como se han
características especiales. tecnología Data Warehouse facilita Las funciones de los EIS que con- También se simplifica el desarrollo de comentado, muchas veces no se pre-
La idea de la coexistencia de dos que el usuario especifique sus peti- viene que sean absorbidas por Data todo el mecanismo de su base de datos utilizan la tecnología sentan en forma tan tajante como en
bases de datos que almacenan esen- ciones de consulta en su lenguaje Warehouse son aquellas que requieren y con ello baja substancialmente todo este artículo, puesto que existen pro-
cialmente la misma información propio, en vez de usar la terminolo- una presentación menos espectacular el coste del proyecto, así como su
Data Warehouse ductos híbridos. Por otro lado la for-
estructurada en formas distintas, se-
gún el tipo de proceso a que se estén
gía de base de datos. (Esto, cuando
los diseñadores del producto logran
y tienen una variedad de posibles con-
sultas muy grande. Absorbiendo es-
duración. Normalmente, Data Mart
resuelve aplicaciones a nivel depar-
adaptada a las ma de implantar un producto y la ca-
lidad profesional de los instaladores,
sometiendo los datos, resultaba ini- evitar la tentación de sustituir una jer- tas funciones, un Data Warehouse tamental, aunque en ocasiones se de- necesidades de las pueden significar una diferencia
cialmente un tanto chocante. No es ga informática “plana” por otra “multi- puede producir muy significativos sarrolla una aplicación que integre enorme entre dos instalaciones de un
de sorprenderse, puesto que los dimensional”, que puede resultar aún ahorros de coste de mantenimiento todas ellas y proporciona las funcio- empresas medias mismo producto. Si el artículo les ha
informáticos estábamos adoctrinados más difícil para los mortales.) del EIS. De hecho están surgiendo nes de un EIS. ayudado a pensar qué tipo de pregun-
para perseguir con insistencia el in- Finalmente, el problema de incon- nuevos productos que combinan la Los esfuerzos de los desarrolla- tas se debe hacer a los proveedores
alcanzable objetivo de la integración sistencia de la información elabora- tecnología Data Warehouse con la dores de productos Data Mart, junto cuantificarla. Sin embargo si esta re- de este tipo de herramientas, consi-
total de las aplicaciones y la elimina- da por los queries, también puede opción de definir output tipo EIS. Es con los mejoras del índice precio/ lación cuantificada la comparamos dero que ha cumplido su misión.
ción de todo tipo de redundancias. En encontrar su solución en Data Ware- una combinación muy lógica y a la rendimiento del hardware, suben con la del año pasado, seguro que no Aparte de esto nunca sobra volver
la actualidad, esta idea está apoyada house: Cuando se define el conteni- vez potente, que le da un alto valor a constantemente el límite de penetra- coincidirá. ¿Qué ha cambiado? Aquí a recordar las reglas básicas, tales
por la existencia de cada vez más evi- do del Data Warehouse, es necesario los productos que la usen. ción de Data Mart, permitiendo asu- es dónde empieza tener sentido utili- como la regla 80 / 20, la que distintos
dencias de los buenos resultados y definir con exactitud la correspon- mir proyectos más y más importan- zar data mining. Las preguntas que tipos de tarea requieren herramien-
también por la baja de los precios de dencia de conceptos entre la base de Data Mart: ¿hermano menor de tes. La simplicidad de los proyectos surgen aquí son: ¿Cuántos de los fac- tas distintas y que para cada tamaño
hardware. Además en muchas de las datos transaccional y el Data Ware- Data Warehouse? de Data Mart y el menor coste en tores que han producido el cambio del problema hay que calibrar el ta-
aplicaciones, la replicación de la infor- house. A partir de allí, cualquier A pesar de las grandes ventajas de comparación con Data Warehouse, están reflejados en nuestra base de maño de la solución (mejor un mar-
mación no tiene que ocurrir estricta- usuario que seleccione una consulta Data Warehouse, parecen existir significan una ventaja competitiva datos y con qué precisión? ¿Hasta qué tillo y un destornillador que un mar-
mente en tiempo real y en aquellos como “Venta del Producto X en el mes unas importantes barreras para su muy grande a favor de Data Mart, punto se las pueden arreglar los agen- tillo más grande). Ni el uso de las más
casos donde sí sea indispensable, tene- corriente con detalle por Clientes”, utilización en empresas de tamaño donde el mercado de los dos tipos de tes inteligentes con las deficiencias avanzadas tecnologías se escapa a las
mos a mano otra nueva tecnología: la obtiene la misma respuesta. mediano. Los productos Data Ware- productos se solapa. del diseño de una base de datos y la reglas básicas del sentido común. ▲
de “mirroring”. Los productos que usan house han nacido para resolver pro- falta de su normalización? ¿Cuánto
esta tecnología son capaces de repli- El avance de Data Warehouse blemas de análisis de grandes masas Data Mining tratamiento previo hay que darle a la
ACERCA DEL AUTOR
car datos y objetos en tiempo real, con Es natural que una nueva tecnología, de información, en empresas donde Data Mining es, aparentemente has- base de datos, para que tenga sentido Jorge Gros es socio y director de Software
garantía de una sincronización exac- con un potencial para resolver pro- una pequeña diferencia en el valor de ta ahora, la forma más avanzada de empezar con data mining y cuántas Greenhouse, S.A. Si desea contactar con él, su
ta. En este punto también conviene blemas tan importantes como los una variable, puede afectar la cuenta extraer la información de las bases posibles relaciones útiles se perderán E-Mail es jgros@swgreenhouse.com

24 JULIO/AGOSTO 1997 ™ Win dow s NT Magazin e www.wntmag.com www.wntmag.com Win dow s NT Magazin e ™ JULIO/AGOSTO 1997 25

Potrebbero piacerti anche