Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Módulo I
En el año 2020, según un estudio de la empresa española Arsys, Consultora en Big Data,
en cada minuto se generan cantidades gigantescas de datos en streaming, mensajería,
comentarios y publicaciones en redes sociales, compras, videollamadas y desde la
aparición de la pandemia COVID19, se suman miles de reuniones por Zoom y otras
plataformas similares.
Todo esto lleva a que, el análisis de tantos datos generados automáticamente por estas
plataformas, sea un desafío no menor con el cual las empresas deben lidiar a la hora de
tomar decisiones basadas en datos o reportes.
Es aquí donde conceptos como el Big Data o el Business intelligence aparecen, para
permitir de alguna manera, administrar, monitorear, pero principalmente interpretar tales
niveles y cantidad de datos.
PALABRAS CLAVES
Big Data, Business Intelligence, Datos, Modelamiento de datos, Análisis de Datos.
Los actuales niveles de digitalización con que personas y empresas lidiamos diariamente
han llevado a desarrollar tecnologías que permitan contar con la capacidad de recopilación,
análisis y posterior consolidación de los mismos, para poder en cierta medida, agrupar,
resumir o en el peor de los casos, exponer de manera concisa, grandes cantidades de
datos, en tiempos de respuesta acordes y útiles para la toma de decisiones.
En una era identificada como “la era de la información”, el manejo, procesamiento y análisis
de datos se vuelven habilidades imprescindibles para toda organización y por ende, el
correcto manejo y uso de la información se vuelve un activo relevante para las
organizaciones, ya que al procesar de manera adecuada, grandes volúmenes de datos, se
consiguen respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían.
Figura 1
Pasillo de un Data Center donde se procesan millones de datos diarios
Nota: Adaptado de Datos 101 (fotografía), Tu Otro Data center, 2021. www.datos101.com)
BIG DATA
Para tener una idea acertada de lo que significa Big Data, primero debemos abrir nuestras
mentes y romper con el paradigma de que en lo “Big” está la clave.
En palabras sencillas las soluciones o arquitecturas de Big Data son aplicaciones capaces
de recolectar grandes cantidades de datos desde distintas fuentes (datos estructurados y
no estructurados), para procesarlos, organizarlos, relacionarlos y disponerlos para
procesos posteriores de analítica y reportería.
BUSINESS INTELLIGENTE
El Business Intelligence o Inteligencia de negocios es un concepto general que incluye
los procesos y métodos de recopilación, procesamiento, almacenamiento y análisis de
datos de actividades u operaciones empresariales para optimizar el análisis y la toma de
decisiones.
El Business Intelligence permite a los Analistas de Inteligencia, analizar de forma más eficaz
y eficiente, y los Directivos de cualquier organización tomar mejores decisiones, ya que
muestra datos históricos y del presente en un contexto concreto.
Permite efectuar comparaciones de rendimiento para que las organizaciones puedan operar
de forma más ágil y eficiente, como por ejemplo un Test A/B.
Ayuda a identificar tendencias del mercado con el objetivo de aumentar las ventas o los
ingresos, tal como es el caso de “Google Trends”.
Es pues entonces, una Arquitectura Big Data, un diseño de sistema(s) y modelo(s) para el
tratamiento de grandes datos y de diferentes orígenes con el fin de transformarlos en
información relevante que permita de mejor manera la toma de decisiones.
Para que una arquitectura de Big Data transmita confiabilidad y garantice cierto nivel de
estabilidad, se necesitan a lo menos 5 condiciones o características esenciales:
Escalabilidad: Esto implica que, de ser necesario, se pueda aumentar fácilmente la
capacidad de procesamiento y almacenamiento de datos, sin interrumpir el proceso.
Finalmente, para el diseño de una arquitectura de Big Data, se deben considerar 3 “capas”
de operación:
1. Análisis y Visualización: Es la primera capa y se enfoca en la correcta
visualización de los datos para que sean fácilmente explorables y analizables, a
través de técnicas estadísticas, algoritmos de análisis predictivo, aprendizaje
mecánico (machine learning), etc.
2. Gestión de los datos: Siguiente capa que se enfoca en la integración, gobierno y
seguridad de la data, con tal de permitir la correcta elección de datos adecuados
que luego permitirán un procesamiento eficiente, que cuenten con la calidad
esperada y que se puedan proteger de manera adecuada, reduciendo los riesgos
de seguridad.
3. Almacenamiento y procesamiento: Tercera y última capa, enfocada en el
almacenaje de los datos obtenidos, así como su procesamiento eficaz y al mismo
tiempo eficiente, acorde con las necesidades de información de la organización.
Es aquí donde aparece a principios de este siglo (2004) un nuevo concepto denominado
Map Reduce, creado por 2 ingenieros, Dean, J., y S. Ghemawat, que en ese momento
trabajaban para Google, en donde hacen referencia a “un nuevo modelo de programación
que permite simplificar el procesamiento de grandes volúmenes de datos”
Figura 2
Distribución de trabajo a través del modelo MapReduce
Lo primero es entender que es una base de datos: Es básicamente una tabla (con filas y
columnas como Excel) donde se almacena información estructurada.
Hasta aquí, hemos visto soluciones que almacenan datos estructurados (que se pueden
organizar en filas, columnas, parámetros, etc.)
Aquí es donde se hace necesario almacenar toda esta data y para ello, surge el concepto
de Data Lake o Lago de Datos, que pasa a ser un repositorio centralizado de datos,
estructurados y no estructurados, ya sea en tiempo real o no y en donde toda la data se
almacena tal cual proviene desde su origen sin análisis ni transformación alguna.
Lo primero que debemos distinguir entre las herramientas de analítica de datos y las
herramientas de consultas a bases de datos son sus distintos usos y características.
Mientras que la primera “captura” datos para procesarlos y analizarlos, con el fin de luego
construir reportes, dashboards o establecer relaciones entre datos, la segunda administra
los datos en bases a través de lenguajes, de tal manera de efectuar consultas o “querys”
de manera rápida y sistematizada.
Para lograr capturar data de tantas fuentes, existen variadas técnicas y estrategias que
permiten optimizar este proceso de captura de datos. Una de estas técnicas es el Web
Scraping, que básicamente es la programación de bots que extraen información de sitios
webs, simulando el tipo de navegación de un ser humano para luego vaciar data relevante
en una o varias bases de datos. Luego esos datos son procesados y analizados por otras
soluciones de Business Intelligence, las que luego se pueden visualizar en Dashboards,
gráficos o reportes, para su fácil comprensión por parte de los interesados en la información.
En este módulo hemos revisado cómo preparar los datos de una base con tal de poder
extraer información de manera confiable, rápida y segura. El propósito de este
modelamiento de datos es el de facilitar las búsquedas de datos en las consultas y así tener
información de calidad y oportuna.
Las herramientas de Big Data y Business intelligence ayudan y facilitan estas búsquedas,
al estar más preparadas para el manejo, análisis y presentación de datos, misma razón que
hace que hoy en día sean tendencia a la hora de utilizarlas para reportería.
La inmensa cantidad de datos que hoy se generan a partir de las redes sociales, video y
navegación web, y más aún desde los smartphones, dispositivos al alcance de la mano,
hace que la recopilación de datos sea una constante sobre la cual hay que tomar
decisiones, apoyándose en modelos estadísticos y predictivos.
A diferencia de los modelos convencionales que solo usaban bases de datos estructuradas,
el Big Data obtiene datos de diversas fuentes, ya sean estructuradas o no estructuradas.
BIBLIOGRAFÍA
́ s, D. (2019).
Rio
Big data: conceptos, tecnologías y aplicaciones. Madrid: Editorial CSIC
Bouza, C. (2002).
Estadística teoría básica y ejercicios. Ciudad de la Habana: Editorial Félix Varela.
Módulo I
ANÁLISIS Y TRÁFICO DE BIG DATA