Sei sulla pagina 1di 79

TALLER DE BIG DATA

Rodrigo Rebolledo
rrebolledo@besmart.cl
13 de enero de 2017
Agenda

Definir Big Data

Soluciones de Big Data

Mejores prácticas
Discusión:
¿Qué es Big Data?
Big data: ¿necesidad o moda?
Big data: ¿necesidad o moda?
Lo “convencional”

Las tareas:

1. Capturar: ¿cómo ingresan los datos a nuestros sistemas?


2. Administrar: ¿cómo almacenamos y mantenemos ordenados los datos?
3. Procesar: ¿cómo calculamos reportes mensuales, evaluaciones de campañas,
indicadores de riesgo?

¡NO ESTÁ DEFINIDO POR NUEVAS SOLUCIONES DE NEGOCIO!


Big data: ¿necesidad o moda?
Lo “convencional”
¿Qué datos son “convencionales” de capturar?
¿Cuántos tiempo de ejecución es “convencional” en un proceso hoy?
¿Qué software y hardware es “convencional” hoy?

¿Cuántos datos son “convencionales” hoy?


Big data: ¿de dónde nace?

1881
El censo de Estados Unidos de 1880 impulsó la búsqueda de nuevas metodologías
para analizar los datos. Así, en 1881 Herman Hollerith inventó la “Tabuladora”.
Se usó exitosamente en el censo de 1890, tardando sólo 6 semanas en obtener
resultados. El censo anterior tardó 7 años.

Herman Hollerith y su invento “Electric Tabulating Machine" fueron parte de la


originación de IBM.
Big data: ¿de dónde nace?

1911
Fundación de International Business Machines Corp. (IBM).

1937
IBM proveyó servicios de tabulación censal para registrar a los judíos en la
Alemania nazi y Thomas Watson recibió la medalla del águila negra.
En 1941 Thomas Watson devolvió la medalla y terminó la prestación de servicios.
Big data: ¿de dónde nace?

1941
Las bibliotecas de las universidades se enfrentaron a un problema de
almacenamiento debido al rápido aumento de publicaciones e investigación.

Los académicos comenzaron a denominar a este increíble fenómeno como la


“explosión de la información”.
Big data: ¿de dónde nace?

1944
El bibliotecario Fremont Rider calculó que las bibliotecas de las universidades de
EE. UU. duplicaban su tamaño cada dieciseis años.

Rider calculó que, si la tasa de crecimiento se mantuviera, la biblioteca de Yale


tendría en el año 2040 “aproximadamente 200.000.000 de volúmenes, que
ocuparían 9656 km de estanterías y se necesitarían 6000 bibliotecarios”.
Big data: ¿de dónde nace?

Julio 1997
El término «Big Data» se empleó por primera vez en un artículo de la NASA:

“Los conjuntos de datos son generalmente bastante grandes, afectando las


capacidades de memoria principal, disco local e incluso disco remoto. A esto lo
llamamos el problema de big data”.

https://www.nas.nasa.gov/assets/pdf/techreports/1997/nas-97-010.pdf
Big data: ¿de dónde nace?

Febrero 2001
Gartner publicó un artículo definiendo las “tres V” de Big Data: volumen,
velocidad y variedad.

http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-
Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
Big data: ¿de dónde nace?

Febrero 2004
Netezza anunció el primer “data warehouse appliance” en la industria para
satisfacer la necesidad de almacenar y procesar grandes volúmenes de datos de
consumidores.
Big data: ¿de dónde nace?

2004
Google publicó su paper “Map Reduce”, en que define la operación de grandes
datos mediante computación paralela.

2005-2006
Un año después de la publicación de Google nació Hadoop: software para
implementar procesos en paralelo. Aquí es donde se inicia el proyecto clave en
lo que hoy llamamos “big data”.

http://static.googleusercontent.com/media/research.google.com/en/us/archive/mapreduce-osdi04.pdf
Big data: ¿de dónde nace?

2010
Se desarrolló y liberó “Spark”, un nuevo componente para el gran ecosistema
que se ha construido alrededor de Hadoop. Provee aún mejores niveles de
desempeño y la capacidad de desarrollar modelos analíticos, entre otras.
Big data: ¿de dónde nace?

Febrero 2010
El supercomputador Watson ganó el concurso Jeopardy!.
Hito para la nueva era cognitiva.

Watson es un sistema informático capaz de entender el lenguaje y ofrecer una


respuesta única y precisa a una pregunta.
Big data: ¿de dónde nace?

2013
IBM SPSS Modeler habilitó la conexión con fuentes de Hadoop mediante el nuevo
producto IBM SPSS Analytic Server.

Esta tecnología permite que los procesos se realicen completamente en el


ambiente de Hadoop, sin tener que transferir datos por las redes (idealmente).
Las V de Big Data
Las “tres V” originales y comúnmente aceptadas:

1. Volumen: el espacio de almacenamiento de datos.


2. Velocidad: la rápida aparición de nuevos datos, y la necesidad de operarlos.
3. Variedad: las diversas fuentes de datos y los formatos de éstos.

Actualmente han definido (ingeniosamente) hasta “siete V”:

4. Variabilidad
5. Veracidad
6. Visualización
7. Valor
Las V de Big Data: la velocidad
Las V de Big Data: el volumen
OK, OK, PERO ¿CUÁNTO VOLUMEN ES “BIG”?
Una empresa de telecomunicaciones puede tener alrededor de 400
millones de registros CDR al mes.

Los datos de transacciones bancarias o compras en el retail también


poseen centenas de millones de operaciones mensuales (Transbank,
Redbanc, internas de la empresa).

El transporte público: Metro en 2007 tuvo una afluencia anual de 600


millones de validaciones.

Llamados de un call center: reclamos en texto, voz grabada, etc.

Cada fila de estas fuentes contiene información como identificador


del lugar, origen, destino, unidades monetarias, duración, fecha de
inicio y término, entre otros.
Las V de Big Data: el volumen
TIPO DE BYTES
DATO APROX

bigint 8
date 8
varchar 255

En una tabla con muchos atributos, una fila podría ocupar 1 KB.

400 millones de transacciones ¡400 GB de datos al mes!


Las V de Big Data: la variedad

Datos estructurados
Son los tradicionales datos en forma de tabla que se pueden encontrar en
archivos CSV, planillas Excel, bases de datos relacionales.
Las V de Big Data: la variedad

DATOS SEMI-ESTRUCTURADOS:
XML, JSON.

https://graph.facebook.com/127708121003_10155025681531004?access_token=245031128840351|8d0cabbccbf6332ab099dd43.1-100002453978341|245031128840351|anT-byq2EUfRSAjTeeci2T3F1t0
Las V de Big Data: la variedad
Datos NO estructurados
Las V de Big Data: la velocidad
Velocidad en el almacenamiento del dato.
Ejemplo: Netezza almacena a 2TB/hora (estructurados)

Velocidad en la explotación del dato: real-time analytics.

Uso aplicado: banco monitoreando las redes sociales de la competencia.


Las V de Big Data: la velocidad
Con análisis de sentimientos en tiempo real es posible detectar
continuamente lo que está opinando la gente.
¿Dónde hay muchos datos?
Arquitectura de datos tradicional
Sistemas Integración y Operaciones y
transaccionales consolidación analítica
(OLTP)

CRM
Reportes Operativos y
Analíticos
Cubos
ERP

ETL
Modelamiento y
Web minería de datos
Channel
Datamart
ETL
Enteprise Data
Warehouse
ETL CRM
Call
Datamart Auditoría
Center

ERP
Arquitectura de datos tradicional
• El soporte de volúmenes de datos está
limitado a nivel de los sistemas OLTP.

• La integración y consolidación sería


compleja a través de procesos ETL.

• Tiene excesiva normalización y rigidez a


nivel de los esquemas de datos.
La arquitectura tradicional
no está preparada para la • No es compatible con la carga de fuentes de
transformación digital datos no estructuradas.

• No soporta naturalmente la implementación


de real-time analytics.

• Las capacidades de escalamiento y


elasticidad son limitados y de alto costo.
Arquitectura de Big Data

Interactivo Real-time Batch Analítico

Data Access APIs


OLTP OLTP OLTP

Otro

DM

EDW
Hadoop Distributed File System (HDFS)
DM

Fuentes de Datos No Estructuradas


Web Logs &
Documentos Social Cloud-based Sensors Geo-location
Click
y Correos Networks Services Data Data
Streams
Arquitectura de datos tradicional
Arquitectura de Big Data
Data Lake + Nuevas fuentes
Data warehouse offloading
Usos de Big Data: Digital Journey
El usuario se La aplicación le El usuario confirma su registro y ya
La aplicación
conecta a muestra sus datos, es “cliente registrado”. La
le indica que
www.caja.cl le solicita que aplicación le da la bienvenida y la
se registre
con sus ingrese su número indica que 36 de sus contactos en
de móvil, una clave Linkedin son afiliados a Caja Los
Web credenciales
segura y le envía por Andes y que 22 de ellos han usado
de Twitter /
Facebook o SMS un código de sus beneficios, mientras que 10
Linkedin enrolamiento para tienen créditos sociales,
su dispositivo. invitándolo a contratar dichos
productos
El usuario
selecciona Linkedin
y la aplicación
Red Social solicita permisos
para acceder a su
perfil y su lista de
contactos

El usuario recibe el
código de
Móvil enrolamiento para
confirmar su registro

El cliente recibe un correo de


bienvenida, con la misma
información de sus contactos
Email que está viendo en la
aplicación web y con la
invitación a seguir explorando
los productos de la Caja.
Usos de Big Data
Telecomunicaciones
Análisis en la predicción y prevención de pérdida de clientes y
campañas de venta proactiva.

Bancos y aseguradoras
Prevención de fraudes.
Predicción de comportamiento de pago de clientes.
Fuga (inactividad) en uso de tarjetas.

Manufactura
Temas de calidad en la línea de producción.

Los mismos problemas de negocio, sólo que esta vez se abordan


con nuevas herramientas que pueden manejar mayores volúmenes
y responder a mayor velocidad.
Soluciones Big Data
La estrella del Big Data
Hadoop: la estrella de Big Data
Apache Hadoop es un conjunto de programas de código abierto y métodos
estandarizados, usado para almacenamiento y procesamiento distribuido
de grandes volúmenes de datos.

Hadoop está diseñado para ejecutar en clústeres de computadores con


hardware genérico.

Un supuesto fundamental en todos los componentes de Hadoop es que las


fallas de hardware son comunes y deben ser resueltas automáticamente.
Hadoop: la estrella de Big Data
Hadoop está compuesto, en esencia, por dos elementos: HDFS y MapReduce.

HDFS (Hadoop Distributed File System) es el sistema de archivos de Hadoop


que se encarga de gestionar los archivos en el clúster. Cuando el usuario
escribe o lee un archivo desde Hadoop, no ve cómo se separa cada porción
en los diferentes nodos, sino que ve el archivo como uno íntegro (tal como
en nuestras carpetas habituales).
Hadoop: la estrella de Big Data
Hadoop está compuesto, en esencia, por dos elementos: HDFS y MapReduce.

MapReduce es un método de programación para resolver operaciones sobre


datos que están particionados y almacenados en diferentes nodos.
Hadoop: la estrella de Big Data
VENTAJAS DE USAR HADOOP

 Capacidad de almacenar grandes cantidades de datos.

 Capacidad de operar rápidamente.

 Tolerancia a fallos.

 Flexibilidad en el tipo de datos, gracias a componentes del ecosistema.

 Bajo costo.

 Escalabilidad.
Hadoop: la estrella de Big Data
ECOSISTEMA DE HADOOP
Por extensión, a todos los programas que se han desarrollado para ejecutar en
Hadoop se les considera “Hadoop”, lo que puede ser un poco confuso. En
realidad, son parte del “ecosistema” de programas que complementan al HDFS y
MapReduce.
Cassandra
Es una base de datos no relacional de almacenamiento <clave-valor>.

Chukwa
Diseñado para la colección y análisis a gran escala de logs.

HBase
Es una base de datos no relacional columnar que se ejecuta en HDFS. HBase no soporta SQL.
HBase permite que muchos atributos sean agrupados llamándolos familias de columnas.

Hive
Base de datawarehouse que facilita administrar grandes conjuntos de datos que se encuentran
almacenados en un ambiente distribuido. Hive tiene definido un lenguaje similar a SQL llamado
HQL.
La nueva chispa de Big Data
Spark: la nueva chispa de Big Data
Spark: la nueva chispa de Big Data

EL LADO ANALÍTICO DE SPARK

MLlib es un subproyecto de Spark que provee algoritmos de aprendizaje de


máquinas:

1. Clasificación: regresión logística, SVM lineal, Bayes naïve.

2. Regresión: modelos lineales generalizados.

3. Filtrado colaborativo: alternating least squares (ALS).

4. Segmentación: k-means.

5. Descomposición: singular value decomposition (SVD), principal component


analysis (PCA).
Spark: la nueva chispa de Big Data

EL LADO ANALÍTICO DE SPARK

El filtrado colaborativo se basa en


que si una persona A tiene la misma
opinión que una persona B sobre un
tema, entonces A es más probable
que tenga la misma opinión que B en
otro tema diferente que la opinión
que tendría una persona elegida
azar.
Spark: la nueva chispa de Big Data
PureData for Analytics
PureData for Analytics
 Data warehouse appliance pensado en resolver
rápidamente la carga y operación de grandes
volúmenes de datos relacionales.
 Incluye componentes de analytics como modelos
predictivos.

 Velocidad: 10-100x más rápido que los sistemas


tradicionales.
 Simplicidad: mínima administración y configuración.
 Escalabilidad: puede alcanzar petabytes de capacidad.
 Inteligente: analítica avanzada de alto desempeño.
PureData for Analytics

Slice of User Data


Disk Enclosures Swap and Mirror partitions
High speed data streaming

SQL Compiler
Query Plan
SMP Hosts
Optimize
Admin

S-Blades™
(with FPGA-based Processor &
Database Accelerator) streaming DB logic
High-performance database
engine streaming joins,
aggregations, sorts, etc.
PureData for Analytics
SPSS Analytic Server
SPSS Analytic Server
SPSS Analytic Server
Uno de los principales desafíos en la adopción de Hadoop es que en la
industria aún no hay suficientes personas expertas que puedan explotar los
datos del sistema.

SPSS Analytic Server facilita las operaciones gracias a que integra los
procesos de Hadoop con la intuitiva interfaz de SPSS Modeler.
SPSS Analytic Server
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning

Puntuación en tiempo real:


Nombre Juan Pérez
Meses en dirección actual 20
Meses de tenencia del celular 12
Ingresos diarios USD 64
Edad 50

PROPENSIÓN DE FUGA 87%


Watson Analytics
Watson Analytics
Gratuito Plus Profesional
Obtenga todos los características
Suba hojas de cálculo, obtenga
de la edición Gratuita más Obtenga todas las características
visualizaciones, descubra insights
almacenamiento y fuentes de de Plus más un acceso multi-
y construya dashboards de
datos extras, incluyendo usuarios para colaborar
instrumentos por su cuenta.
database y Twitter.
A partir de A partir de
US$000 US$3843 por usuario por mes US$10248 por usuario por mes

1 usuario 1 usuario 1 o más usuarios


100 GB de almacenamiento
1 MB de almacenamiento incluido 2 GB de almacenamiento incluido
incluido
30 días de prueba para usuario Añada almacenamiento extra de Añada almacenamiento extra de
Profesional 10 GB por una tarifa mínima 50 GB por una tarifa mínima
Obtenga acceso a bases de datos Obtenga acceso a bases de datos
relacionales,en las instalaciones relacionales,en las instalaciones
y en la nube y en la nube

Acceda a 18 conectores de datos Acceda a 19 conectores de datos

Acceda a los datos de Twitter Acceda a los datos de Twitter


Acceso limitado a ofertas de IBM Acceso total a ofertas y datos de Acceso total a ofertas y datos de
Analytics Exchange IBM Analytics Exchange IBM Analytics Exchange
Watson Analytics
Watson Analytics
Watson Analytics
Watson Analytics
Watson Analytics
Watson Analytics
Cómo usa IBM la tecnología
de Hadoop
Tealeaf on cloud usa Hadoop
Mejores prácticas:
Smart Marketing
Anexo
Arquitectura de Big Data
TALLER DE BIG DATA

Rodrigo Rebolledo
rrebolledo@besmart.cl
13 de enero de 2017

Potrebbero piacerti anche