Sei sulla pagina 1di 4

Derivar valor de un Data Lake

Traducción de “Architecting Data Lakes”, de Ben Sharma.

El consumo de autoservicio es esencial para un data lake exitoso. Diferentes tipos de usuarios que
consumen los datos y buscan cosas diferentes, pero cada uno quiere acceder a los datos de forma
autoservicio, sin la ayuda de TI.

El Ejecutivo

Un ejecutivo suele ser una persona de alta gerencia que busca un alto nivel
análisis que pueden ayudarlo a tomar decisiones comerciales importantes. Por ejemplo, un
ejecutivo podría estar buscando análisis predictivos de ventas de productos basados en datos
históricos y modelos analíticos construidos por los científicos de datos. En una plataforma de
gestión data lake integrada, los datos serían capturados de diversas fuentes, algunos streamings,
algunos lotes (batches), y luego procesados en batches para obtener información, con los datos
finales que se pueden visualizar utilizando Tableau o Excel. Otro ejemplo recurrente es un
ejecutivo que necesita una vista de 360 grados de un cliente, que incluye métricas de todos los
niveles de la organización: preventa, ventas y asistencia al cliente. Todo en un solo informe.

El científico de datos

Los científicos de datos suelen mirar los conjuntos de datos y tratar de construir modelos sobre
ellos, realizando análisis exploratorios ad hoc para probar o proponer tesis sobre lo que ven. Los
científicos de datos que quieren construir y probar sus modelos encontrarán un data lake útil
porque les da acceso a todos los datos, no solo una muestra Además, pueden construir scripts en
Python y ejecutarlos en un clúster para obtener una respuesta en cuestión de horas en lugar de
días.

El analista de negocios

Los analistas de negocios suelen tratar de correlacionar algunos de los conjuntos de datos y crear
una vista agregada para acotar usando una inteligencia de negocios o herramientas de
visualización. Con un data warehouse tradicional, los analistas de negocios tenían que proponer e
informar los requisitos y esperar a que TI genere un informe o exportar los datos en su nombre.
Ahora, los analistas de negocios pueden hacer preguntas "qué pasa si" desde los lagos de datos
por sí mismos. Por ejemplo, un analista podría preguntar cuánto efecto tiene el clima en ventas
basándose en datos históricos e información de conjuntos de datos públicos combinado con
conjuntos de datos internos en el data lake. Sin involucrar a TI, el analista podría consultar el
catálogo para ver qué conjuntos de datos se han limpiado y estandarizado examinó y ejecutó
consultas contra esos datos.
El sistema de Downstream

Un cuarto tipo de consumidor es un sistema downstream, como una aplicación o un plataforma,


que recibe los datos brutos o refinados. Las principales compañías están construyendo nuevas
aplicaciones y productos en la parte superior de su data lake, por lo que también son
consumidores de los datos. También pueden usar API RESTful o algún otro mecanismo de API de
manera continua. Por ejemplo, si la aplicación downstream es una base de datos, el data lake
puede tomar y transformar los datos y luego enviar los datos finales agregados al sistema
downstream para el almacenamiento.

Autoservicio
El objetivo de un data lake es proporcionar valor al negocio sirviendo a los usuarios. Desde la
perspectiva del usuario, aquí están las preguntas más importantes sobre el datos:
•¿Qué hay en el data lake (el catálogo)?
•¿Cuál es la calidad de los datos?
•¿Cuál es el perfil de los datos?
•¿Cuáles son los metadatos de los datos?
•¿Cómo pueden los usuarios hacer enriquecimientos, limpiezas, mejoras y agregaciones? sin ir a TI
(¿cómo usar el data lake de forma autoservicio?)
•¿Cómo pueden los usuarios anotar y etiquetar los datos?

Responder estas preguntas requiere una arquitectura adecuada, gobernanza y de reglas de


seguridad que se pongan en práctica y se cumplen para que las personas apropiadas ganen acceso
a los datos relevantes de manera oportuna. También es necesario que exista un gobierno estricto
en la incorporación de conjuntos de datos, deben establecerse convenciones de nomenclatura y
deben instaurarse políticas de seguridad que permitan un control de acceso basado en los roles de
los usuarios.

Para nuestros propósitos, el autoservicio significa que los usuarios de negocios no técnicos pueden
acceder y analizar datos sin involucrar TI. En un modelo de autoservicio, los usuarios deben ser
capaces de ver los metadatos y perfiles y comprender qué significan los atributos de cada dataset.
Los metadatos deben proporcionar suficiente información para que los usuarios creen nuevos
formatos de datos a partir de formatos de datos existentes mediante el uso de enriquecimientos y
analítica.

Además, en un modelo de autoservicio, el catálogo será la base para que los usuarios registren
los diferentes conjuntos de datos en el data lake. Esto significa que los usuarios pueden ir al data
lake y la búsqueda para encontrar los conjuntos de datos que necesitan. Ellos también deberían
poder buscar en cualquier tipo de atributo; por ejemplo, en una ventana de tiempo como desde el
1 de enero hasta el 1 de febrero, o según un área temática, como marketing versus finanzas. Los
usuarios también deberían poder encontrar conjuntos de datos basados en atributos. Por ejemplo,
podrían ingresar, "Muéstreme todos los conjuntos de datos que tienen un campo llamado
porcentaje de descuento ".
Es en la capacidad de autoservicio que las mejores prácticas para los diversos tipos de metadatos
entran en juego. Los usuarios comerciales están interesados en los metadatos comerciales, tales
como los sistemas fuente, la frecuencia con la que ingresan los datos y descripciones de los
conjuntos de datos o atributos. Los usuarios también están interesados en conocer el metadatos
técnicos: la estructura, el formato y el esquema de los datos.

Cuando se trata de datos operativos, los usuarios quieren ver información sobre el linaje,
incluyendo cuando los datos fueron ingresados en el data lake, y si era crudo en el momento del
ingreso. Si los datos no fueron crudos cuando se ingresaron, los usuarios deberían ser capaces de
ver cómo se creó y qué otros conjuntos de datos se usaron para crearlo. También es importante
para los datos operativos la calidad de los datos. Los usuarios deberían poder definir ciertas reglas
sobre la calidad de los datos, y usarlos para realizar verificaciones en el conjuntos de datos.

Los usuarios también pueden querer ver el historial de ingresos de datos. Si un usuario está
mirando datos que llegan por streaming, por ejemplo, pueden buscar días en los que no hayan
llegado datos, como una forma de garantizar que esos días no estén incluidos en los conjuntos de
datos representativos de análisis de campaña. En general, acceso a la información del linaje, la
capacidad de realizar los controles de calidad y el historial de ingresos de datos les dan a los
usuarios de negocios una buena idea de los datos, posibilitando que comiencen rápidamente los
análisis.

Control de acceso
Muchas organizaciones de TI simplemente se sienten abrumadas por el gran volumen de
conjuntos de datos -pequeños, medianos y grandes- que están relacionados pero no integrados
cuando son almacenados en lagos de datos. Sin embargo, cuando se hace bien, los lagos de datos
permiten a las organizaciones obtener información y descubrir relaciones entre conjuntos de
datos.

Al proporcionar a varios usuarios, ya sean ejecutivos de nivel C, analistas de negocios o científicos


de datos, con las herramientas que necesitan, la seguridad es fundamental. Establecer y hacer
cumplir las políticas de seguridad consistentemente son esenciales para el uso exitoso de un data
lake. Tecnologías de memoria deben admitir diferentes patrones de acceso para cada usuario
grupo, dependiendo de sus necesidades. Por ejemplo, un informe generado para un ejecutivo
nivel C podría ser muy sensible y no debería estar disponible para otros que no tienen los mismos
privilegios de acceso. Los científicos de datos pueden necesitar más flexibilidad, con cantidades
menores de gobierno; para este grupo se puede crear una caja de arena para trabajo exploratorio.
Por la misma razón, los usuarios en el departamento de marketing de una empresa no deberían
tener acceso a los mismos datos que los usuarios en el departamento de finanzas. Con las políticas
de seguridad establecidas, los usuarios solo tienen acceso a los conjuntos de datos asignados a sus
niveles de privilegio.

También puede usar funciones de seguridad para permitir a los usuarios interactuar con los datos
y contribuir a la preparación y enriquecimiento de datos. Por ejemplo, a medida que los usuarios
encuentran datos en el data lake a través del catálogo, se les puede permitir limpiar los datos y
enriquecer los campos en un conjunto de datos en forma autónoma.

Los controles de acceso también pueden permitir un enfoque colaborativo para acceder y
consumir los datos. Por ejemplo, si un usuario encuentra un conjunto de datos que es importante
para un proyecto, y hay otros tres miembros del equipo en ese mismo proyecto, el usuario puede
crear un espacio de trabajo compartido con esa información para que el equipo pueda colaborar
en enriquecer la base de datos.

Crowdsourcing
Un enfoque bottom-up para el gobierno de datos le permite clasificar la utilidad de conjuntos de
datos por crowdsourcing. Al pedirles a los usuarios que califiquen los conjuntos de datos que son
más valiosa, la palabra puede extenderse a otros usuarios para que puedan hacer uso productivo
de esos datos.

Para hacer esto, se necesita de un mecanismo de calificación y clasificación como parte de su


sistema integrado plataforma de gestión del data lake. El lugar obvio para este modelo de
gobernanza bottom-up, basado en “sellos de calidad” sería el catálogo. Por lo tanto, el catálogo
debe tener funciones de calificación.

Pero no es suficiente para mostrar lo que otros piensan de un conjunto de datos. Una solución
integrada a la gestión y gobernanza del data lake debería mostrar a los usuarios las clasificaciones
de conjuntos de datos de todos los usuarios, pero también debe ofrecer una calificación de datos
personalizada, de modo que cada individuo puede ver lo que personalmente han encontrado útil
cada vez que van al catálogo.

Los usuarios también necesitan herramientas para crear nuevos modelos de datos a partir de
conjuntos de datos existentes. Por ejemplo, los usuarios deberían poder tomar un conjunto de
datos de clientes y datos de transacciones establecer y crear un conjunto de datos de "clientes
más valiosos" agrupando clientes por transacciones y determinar cuándo los clientes generan la
mayor cantidad de ingresos. Ser capaz de hacer este tipo de enriquecimientos y transformaciones
es importante desde una perspectiva de extremo a extremo.

Potrebbero piacerti anche