Apunte Analisis y Trafico Big Data.

M1 | TRABAJANDO Y MODELANDO CON DATOS
Módulo I
ANÁLISIS Y TRÁFICO DE BIG DATA

TRABAJANDO Y MODELANDO
CON DATOS
1 | ANÁLISIS Y TRÁFICO DE BIG DATA

TRABAJANDO Y MODELANDO CON DATOS
INTRODUCCIÓN ................................................................ Error! Bookmark not defined.

Palabras Claves................................................................................................................. 3
CONCEPTOS DE BIG DATA Y BUSINESS INTELLIGENCE (BI) Y SUS DISTINTOS
ROLES EN LA GESTIÓN DE DATOS ............................................................................ 4
BIG DATA: DEFINICIONES Y ARQUITECTURAS ......................................................... 7
MAP-REDUCE, HADOOP, SPARK. ............................................................................... 8
BASES DE DATOS, DATA WAREHOUSE Y DATA LAKES......................................... 10
BUSINESS INTELLIGENCE: DEFINICIONES Y PLATAFORMAS MAS USADAS ....... 11
PROCESO DE GESTIÓN DE INFORMACIÓN EN EL BIG DATA: WEB SCRAPING,
PROCESAMIENTO & ANALÍTICA Y VISUALIZACIÓN ................................................ 12
CIERRE .............................................................................. Error! Bookmark not defined.
BIBLIOGRAFÍA ................................................................................................................ 14

Vivimos en un mundo y una civilización hiperconectada gracias a los avances tecnológicos,

principalmente desde la aparición de internet en la década de los 90.
La constante y creciente demanda de datos en todo el quehacer cotidiano, tanto en la vida

diaria de las personas, así como también de las empresas, hace que diariamente se creen
billones de datos a nivel mundial.
En el año 2020, según un estudio de la empresa española Arsys, Consultora en Big Data,
en cada minuto se generan cantidades gigantescas de datos en streaming, mensajería,
comentarios y publicaciones en redes sociales, compras, videollamadas y desde la
aparición de la pandemia COVID19, se suman miles de reuniones por Zoom y otras
plataformas similares.
Todo esto lleva a que, el análisis de tantos datos generados automáticamente por estas
plataformas, sea un desafío no menor con el cual las empresas deben lidiar a la hora de
tomar decisiones basadas en datos o reportes.
Es aquí donde conceptos como el Big Data o el Business intelligence aparecen, para
permitir de alguna manera, administrar, monitorear, pero principalmente interpretar tales
niveles y cantidad de datos.
Estas nuevas concepciones, son las que desarrollaremos en la presente unidad.
PALABRAS CLAVES
Big Data, Business Intelligence, Datos, Modelamiento de datos, Análisis de Datos.

CONCEPTOS DE BIG DATA Y BUSINESS

INTELLIGENCE (BI) Y SUS DISTINTOS ROLES EN
LA GESTIÓN DE DATOS
Los actuales niveles de digitalización con que personas y empresas lidiamos diariamente
han llevado a desarrollar tecnologías que permitan contar con la capacidad de recopilación,
análisis y posterior consolidación de los mismos, para poder en cierta medida, agrupar,
resumir o en el peor de los casos, exponer de manera concisa, grandes cantidades de
datos, en tiempos de respuesta acordes y útiles para la toma de decisiones.
En una era identificada como “la era de la información”, el manejo, procesamiento y análisis
de datos se vuelven habilidades imprescindibles para toda organización y por ende, el
correcto manejo y uso de la información se vuelve un activo relevante para las
organizaciones, ya que al procesar de manera adecuada, grandes volúmenes de datos, se
consiguen respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían.
Figura 1
Pasillo de un Data Center donde se procesan millones de datos diarios

Nota: Adaptado de Datos 101 (fotografía), Tu Otro Data center, 2021. www.datos101.com)
BIG DATA
Para tener una idea acertada de lo que significa Big Data, primero debemos abrir nuestras
mentes y romper con el paradigma de que en lo “Big” está la clave.
El hecho de acceder y almacenar grandes cantidades de datos, en muchas ocasiones se

hace difícil o imposible con los métodos tradicionales. De aquí que, en el año 2000, en
analista Doug Laney articuló la definición de Big Data como las 3 V:
 Volumen: Las empresas pueden recopilar datos de los usuarios desde distintas
fuentes: Smartphones, Transacciones Comerciales, Computadores, sensores,
Smart TVs, redes sociales, etc.
 Velocidad: Con la aparición de internet y la conexión de miles de dispositivos entre
sí, los datos deben ser procesados a velocidades sin precedentes para contar con
información oportuna, casi en tiempo real.
 Variedad: Los datos, al provenir de diferentes fuentes, cuentan con distintas
formas. Pueden ser datos estructurados o numéricos como bien pueden ser no
estructurados como videos, audios, mails, etc.

En palabras sencillas las soluciones o arquitecturas de Big Data son aplicaciones capaces
de recolectar grandes cantidades de datos desde distintas fuentes (datos estructurados y
no estructurados), para procesarlos, organizarlos, relacionarlos y disponerlos para
procesos posteriores de analítica y reportería.
BUSINESS INTELLIGENTE
El Business Intelligence o Inteligencia de negocios es un concepto general que incluye
los procesos y métodos de recopilación, procesamiento, almacenamiento y análisis de
datos de actividades u operaciones empresariales para optimizar el análisis y la toma de
decisiones.
Aunque suele asociarse al sector privado empresarial, el Business Intelligence aplica a

cualquier organización que tenga bases de datos, ya sea una empresa, un organismo o una
institución pública.
El Business Intelligence permite a los Analistas de Inteligencia, analizar de forma más eficaz
y eficiente, y los Directivos de cualquier organización tomar mejores decisiones, ya que
muestra datos históricos y del presente en un contexto concreto.
Permite efectuar comparaciones de rendimiento para que las organizaciones puedan operar
de forma más ágil y eficiente, como por ejemplo un Test A/B.
Ayuda a identificar tendencias del mercado con el objetivo de aumentar las ventas o los
ingresos, tal como es el caso de “Google Trends”.
ROLES DEL BIG DATA Y DEL BUSINESS INTELLIGENCE EN LA GESTIÓN

DE LOS DATOS
En organizaciones donde el flujo de datos el alto (Miles de Gigas o cientos de Terabytes
diarios), la recolección, análisis y procesamiento para su posterior consolidación en reportes
o informes, hace que el trabajo de cada etapa se divida en distintas funciones o roles en la

gestión de datos. Mientras que el Big Data se ocupa de la recolección, normalización y

relación de los datos captados, el Business Intelligence, toma esos datos, los procesa y
analiza para efectuar posteriores resúmenes, consolidaciones y un mejor trabajo de
presentación de los mismos. Son 2 eslabones en la cadena de gestión de información que
se complementan y se apoyan para optimizar la labor de cada uno de ellos.
BIG DATA: DEFINICIONES Y ARQUITECTURAS
Cuando se manejan, millones de datos de forma diaria, un computador o servidor

convencional no es suficiente para procesar un alto trabajo de cómputo, por lo que es
importante definir de forma correcta la arquitectura de una solución de Big Data, ya que
ésta tiene como objetivo el procesamiento de grandes gigas o teras de datos, que
difícilmente se pueden procesar de manera tradicional, ya que sobrepasan las capacidades
de los equipos estándares para su almacenaje, tratamiento y gestión.
Es pues entonces, una Arquitectura Big Data, un diseño de sistema(s) y modelo(s) para el
tratamiento de grandes datos y de diferentes orígenes con el fin de transformarlos en
información relevante que permita de mejor manera la toma de decisiones.
En otras palabras, es el diseño y mezcla de hardware y software que permita soportar

grandes niveles procesamiento, garantizando o al menos minimizando el riesgo de fallas,
caídas o estabilidad de la solución.
Para que una arquitectura de Big Data transmita confiabilidad y garantice cierto nivel de
estabilidad, se necesitan a lo menos 5 condiciones o características esenciales:
Escalabilidad: Esto implica que, de ser necesario, se pueda aumentar fácilmente la
capacidad de procesamiento y almacenamiento de datos, sin interrumpir el proceso.
1. Tolerancia a fallos: Idealmente, se debe garantizar la disponibilidad del sistema,

vale decir, que en caso de que una maquina falle, el servicio se siga entregando.

2. Datos distribuidos: Los datos se almacenan en diferentes máquinas y no se

concentra todo el volumen de datos en una sola máquina.
3. Procesamiento distribuido: El tratamiento de los datos, se efectúa entre varias y
distintas maquinas, así se reducen los tiempos de ejecución y se dota al sistema
de una posible escalabilidad (aumento de proceso y/o almacenaje).
4. Localidad del dato: Idealmente, los datos a procesar deben estar cerca, para evitar
con ello el uso y transmisión de estos a través de redes, lo que aumenta la latencia
y con ellos los tiempos de ejecución.
Finalmente, para el diseño de una arquitectura de Big Data, se deben considerar 3 “capas”
de operación:
1. Análisis y Visualización: Es la primera capa y se enfoca en la correcta
visualización de los datos para que sean fácilmente explorables y analizables, a
través de técnicas estadísticas, algoritmos de análisis predictivo, aprendizaje
mecánico (machine learning), etc.
2. Gestión de los datos: Siguiente capa que se enfoca en la integración, gobierno y
seguridad de la data, con tal de permitir la correcta elección de datos adecuados
que luego permitirán un procesamiento eficiente, que cuenten con la calidad
esperada y que se puedan proteger de manera adecuada, reduciendo los riesgos
de seguridad.
3. Almacenamiento y procesamiento: Tercera y última capa, enfocada en el
almacenaje de los datos obtenidos, así como su procesamiento eficaz y al mismo
tiempo eficiente, acorde con las necesidades de información de la organización.
MAP-REDUCE, HADOOP, SPARK
Para comprender de mejor manera la arquitectura de una solución de Big Data, es

importante conocer algunos elementos básicos, relacionados con la programación y manejo
de grandes datos.

Es aquí donde aparece a principios de este siglo (2004) un nuevo concepto denominado
Map Reduce, creado por 2 ingenieros, Dean, J., y S. Ghemawat, que en ese momento
trabajaban para Google, en donde hacen referencia a “un nuevo modelo de programación
que permite simplificar el procesamiento de grandes volúmenes de datos”
Figura 2
Distribución de trabajo a través del modelo MapReduce
Nota: Adaptado de Admin-magazine. El marco de MapReduce divide el procesamiento de

datos. El procesamiento es principalmente en paralelo en múltiples nodos de cómputo.
(2021). Tomado de https://www.admin-magazine.com/HPC/Articles/MapReduce-and-
Hadoop
Al demostrarse y validarse el modelo de programación, se comienzan a realizar nuevas

versiones Open Source (de código abierto), ganando popularidad una en particular: Apache
Hadoop, por supuesto, basada en Map Reduce. Sin embargo y por temas de rendimiento
y velocidad, unos años después aparece Spark, solución desarrolla el año 2009 en una
Universidad Estadounidense, mejorando problemas de velocidad de lectura escritura de
datos en disco, que presentaba Hadoop.
Estas 2 tecnologías, son de las más populares actualmente en la gestión de grandes

cantidades de datos, misma razón por la que se ocupan generalmente a hora de desarrollar
soluciones de Big Data.

BASES DE DATOS, DATA WAREHOUSE Y DATA

LAKES
Para comprender la gestión de grandes cantidades de datos, se hace necesario

comprender algunos conceptos claves en la informática de datos.
Lo primero es entender que es una base de datos: Es básicamente una tabla (con filas y
columnas como Excel) donde se almacena información estructurada.
Esto ocurre en un nivel básico de almacenamiento de datos.

En un nivel superior, encontramos los Data Warehouse (DWH) o almacén de datos, que
es un tipo de solución que se alimenta de varias bases de datos, extrae información de
éstas, las analiza, limpia los datos, los unifica, para posteriormente almacenarlos en otro
tipo de estructura conocida como OLAP (Online Analytical Processing) y así proveer de
data enriquecida a sistemas de Business Intelligence.
Hasta aquí, hemos visto soluciones que almacenan datos estructurados (que se pueden
organizar en filas, columnas, parámetros, etc.)
Con la aparición en los últimos años de nuevas tecnologías y soluciones conectadas a

internet, han surgido también cientos de nuevos tipos de datos NO estructurados: Posteos
o comentarios en redes sociales, imágenes, fotografías, videos, datos capturados por
sensores IoT (Internet of Things = Internet de las cosas), los que además tienen la
peculiaridad de ser gestionados en tiempos real.
Aquí es donde se hace necesario almacenar toda esta data y para ello, surge el concepto
de Data Lake o Lago de Datos, que pasa a ser un repositorio centralizado de datos,
estructurados y no estructurados, ya sea en tiempo real o no y en donde toda la data se
almacena tal cual proviene desde su origen sin análisis ni transformación alguna.

BUSINESS INTELLIGENCE: DEFINICIONES Y

PLATAFORMAS MAS USADAS
Lo primero que debemos distinguir entre las herramientas de analítica de datos y las
herramientas de consultas a bases de datos son sus distintos usos y características.
Mientras que la primera “captura” datos para procesarlos y analizarlos, con el fin de luego
construir reportes, dashboards o establecer relaciones entre datos, la segunda administra
los datos en bases a través de lenguajes, de tal manera de efectuar consultas o “querys”
de manera rápida y sistematizada.
En este sentido las más populares y utilizadas son:

Herramientas de análisis de datos:
 Power BI: Popular herramienta de Microsoft que en lo últimos años ha ganado
popularidad, principalmente por la construcción relativamente sencilla de
Dashboards.
 R: Lenguaje de Programación con enfoque en el análisis estadístico.
 SAS: Lenguaje de Programación, orientado al análisis de un dato, independiente de
su fuente. Se utiliza actualmente para predecir conductas de clientes y prospectos,
basados en sus perfiles de redes sociales.
 Python: Herramienta opensource (de código abierto a libre disposición de usuarios),
con lenguaje de scripts, orientado a objetos (ventanas, botones, acciones gráficas,
etc.).
 Excel: Aunque pueda no parecerlo, Excel es una potente herramienta de análisis
cuando se integran funciones DAX y de relacionamiento automático.
 Tableau Public: Software gratuito que permite la integración de datos entre distintas
fuentes tales como Microsoft Excel, Data Warehouse, web, etc., y permite la
creación de dashboards, mapas y visualizaciones con actualización en tiempo real
desde la web.

Herramientas de consulta o administración de bases de datos:

 MySQL: MySQL es una base de datos basada en servidor que permite a varios
usuarios acceder a múltiples bases de datos.
 Access: Es un sistema de base de datos personal de Microsoft.
 SQL Server: SQL Server es un servidor de base de datos a nivel empresarial
escalable.
 Oracle: La Oracle es otra base de datos escalable a nivel empresarial. La base de
datos de SQL soporta bases de datos corporativas distribuidas, que permiten al
usuario acceder a los datos de forma local o desde bases de datos remotas en una
transacción transparente.
PROCESO DE GESTIÓN DE INFORMACIÓN EN EL

BIG DATA: WEB SCRAPING, PROCESAMIENTO &
ANALÍTICA Y VISUALIZACIÓN
En la actualidad, la enormidad de sitios web, dispositivos, computadores y servidores que

diariamente nacen y generar nuevos datos es tan abismante como creciente.
Para lograr capturar data de tantas fuentes, existen variadas técnicas y estrategias que
permiten optimizar este proceso de captura de datos. Una de estas técnicas es el Web
Scraping, que básicamente es la programación de bots que extraen información de sitios
webs, simulando el tipo de navegación de un ser humano para luego vaciar data relevante
en una o varias bases de datos. Luego esos datos son procesados y analizados por otras
soluciones de Business Intelligence, las que luego se pueden visualizar en Dashboards,
gráficos o reportes, para su fácil comprensión por parte de los interesados en la información.

En este módulo hemos revisado cómo preparar los datos de una base con tal de poder
extraer información de manera confiable, rápida y segura. El propósito de este
modelamiento de datos es el de facilitar las búsquedas de datos en las consultas y así tener
información de calidad y oportuna.
Las herramientas de Big Data y Business intelligence ayudan y facilitan estas búsquedas,
al estar más preparadas para el manejo, análisis y presentación de datos, misma razón que
hace que hoy en día sean tendencia a la hora de utilizarlas para reportería.
La inmensa cantidad de datos que hoy se generan a partir de las redes sociales, video y
navegación web, y más aún desde los smartphones, dispositivos al alcance de la mano,
hace que la recopilación de datos sea una constante sobre la cual hay que tomar
decisiones, apoyándose en modelos estadísticos y predictivos.
A diferencia de los modelos convencionales que solo usaban bases de datos estructuradas,
el Big Data obtiene datos de diversas fuentes, ya sean estructuradas o no estructuradas.

BIBLIOGRAFÍA
́ s, D. (2019).
Rio
Big data: conceptos, tecnologías y aplicaciones. Madrid: Editorial CSIC
Bouza, C. (2002).
Estadística teoría básica y ejercicios. Ciudad de la Habana: Editorial Félix Varela.

Módulo I
ANÁLISIS Y TRÁFICO DE BIG DATA

Apunte Analisis y Trafico Big Data.

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Apunte Analisis y Trafico Big Data.

Caricato da

Copyright:

Formati disponibili

M1 | TRABAJANDO Y MODELANDO CON DATOS

ANÁLISIS Y TRÁFICO DE BIG DATA

1 | ANÁLISIS Y TRÁFICO DE BIG DATA

TRABAJANDO Y MODELANDO CON DATOS

INTRODUCCIÓN ................................................................ Error! Bookmark not defined.

2 | ANÁLISIS Y TRÁFICO DE BIG DATA

Vivimos en un mundo y una civilización hiperconectada gracias a los avances tecnológicos,

La constante y creciente demanda de datos en todo el quehacer cotidiano, tanto en la vida

Estas nuevas concepciones, son las que desarrollaremos en la presente unidad.

3 | ANÁLISIS Y TRÁFICO DE BIG DATA

CONCEPTOS DE BIG DATA Y BUSINESS

4 | ANÁLISIS Y TRÁFICO DE BIG DATA

El hecho de acceder y almacenar grandes cantidades de datos, en muchas ocasiones se

5 | ANÁLISIS Y TRÁFICO DE BIG DATA

Aunque suele asociarse al sector privado empresarial, el Business Intelligence aplica a

ROLES DEL BIG DATA Y DEL BUSINESS INTELLIGENCE EN LA GESTIÓN

6 | ANÁLISIS Y TRÁFICO DE BIG DATA

gestión de datos. Mientras que el Big Data se ocupa de la recolección, normalización y

BIG DATA: DEFINICIONES Y ARQUITECTURAS

Cuando se manejan, millones de datos de forma diaria, un computador o servidor

En otras palabras, es el diseño y mezcla de hardware y software que permita soportar

1. Tolerancia a fallos: Idealmente, se debe garantizar la disponibilidad del sistema,

7 | ANÁLISIS Y TRÁFICO DE BIG DATA

2. Datos distribuidos: Los datos se almacenan en diferentes máquinas y no se

MAP-REDUCE, HADOOP, SPARK

Para comprender de mejor manera la arquitectura de una solución de Big Data, es

8 | ANÁLISIS Y TRÁFICO DE BIG DATA

Nota: Adaptado de Admin-magazine. El marco de MapReduce divide el procesamiento de

Al demostrarse y validarse el modelo de programación, se comienzan a realizar nuevas

Estas 2 tecnologías, son de las más populares actualmente en la gestión de grandes

9 | ANÁLISIS Y TRÁFICO DE BIG DATA

BASES DE DATOS, DATA WAREHOUSE Y DATA

Para comprender la gestión de grandes cantidades de datos, se hace necesario

Esto ocurre en un nivel básico de almacenamiento de datos.

Con la aparición en los últimos años de nuevas tecnologías y soluciones conectadas a

10 | ANÁLISIS Y TRÁFICO DE BIG DATA

BUSINESS INTELLIGENCE: DEFINICIONES Y

En este sentido las más populares y utilizadas son:

11 | ANÁLISIS Y TRÁFICO DE BIG DATA

Herramientas de consulta o administración de bases de datos:

PROCESO DE GESTIÓN DE INFORMACIÓN EN EL

En la actualidad, la enormidad de sitios web, dispositivos, computadores y servidores que

12 | ANÁLISIS Y TRÁFICO DE BIG DATA

13 | ANÁLISIS Y TRÁFICO DE BIG DATA

14 | ANÁLISIS Y TRÁFICO DE BIG DATA

15 | ANÁLISIS Y TRÁFICO DE BIG DATA

Potrebbero piacerti anche