Big Data v1

TALLER DE BIG DATA
Rodrigo Rebolledo
rrebolledo@besmart.cl
13 de enero de 2017
Agenda
Definir Big Data
Soluciones de Big Data
Mejores prácticas
Discusión:
¿Qué es Big Data?
Big data: ¿necesidad o moda?
Lo “convencional”
Las tareas:
1. Capturar: ¿cómo ingresan los datos a nuestros sistemas?

2. Administrar: ¿cómo almacenamos y mantenemos ordenados los datos?
3. Procesar: ¿cómo calculamos reportes mensuales, evaluaciones de campañas,
indicadores de riesgo?
¡NO ESTÁ DEFINIDO POR NUEVAS SOLUCIONES DE NEGOCIO!

Lo “convencional”
¿Qué datos son “convencionales” de capturar?
¿Cuántos tiempo de ejecución es “convencional” en un proceso hoy?
¿Qué software y hardware es “convencional” hoy?
¿Cuántos datos son “convencionales” hoy?

Big data: ¿de dónde nace?
1881
El censo de Estados Unidos de 1880 impulsó la búsqueda de nuevas metodologías
para analizar los datos. Así, en 1881 Herman Hollerith inventó la “Tabuladora”.
Se usó exitosamente en el censo de 1890, tardando sólo 6 semanas en obtener
resultados. El censo anterior tardó 7 años.
Herman Hollerith y su invento “Electric Tabulating Machine" fueron parte de la

originación de IBM.
1911
Fundación de International Business Machines Corp. (IBM).
1937
IBM proveyó servicios de tabulación censal para registrar a los judíos en la
Alemania nazi y Thomas Watson recibió la medalla del águila negra.
En 1941 Thomas Watson devolvió la medalla y terminó la prestación de servicios.
1941
Las bibliotecas de las universidades se enfrentaron a un problema de
almacenamiento debido al rápido aumento de publicaciones e investigación.
Los académicos comenzaron a denominar a este increíble fenómeno como la

“explosión de la información”.
1944
El bibliotecario Fremont Rider calculó que las bibliotecas de las universidades de
EE. UU. duplicaban su tamaño cada dieciseis años.
Rider calculó que, si la tasa de crecimiento se mantuviera, la biblioteca de Yale

tendría en el año 2040 “aproximadamente 200.000.000 de volúmenes, que
ocuparían 9656 km de estanterías y se necesitarían 6000 bibliotecarios”.
Julio 1997
El término «Big Data» se empleó por primera vez en un artículo de la NASA:
“Los conjuntos de datos son generalmente bastante grandes, afectando las

capacidades de memoria principal, disco local e incluso disco remoto. A esto lo
llamamos el problema de big data”.
https://www.nas.nasa.gov/assets/pdf/techreports/1997/nas-97-010.pdf
Febrero 2001
Gartner publicó un artículo definiendo las “tres V” de Big Data: volumen,
velocidad y variedad.
http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-
Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
Febrero 2004
Netezza anunció el primer “data warehouse appliance” en la industria para
satisfacer la necesidad de almacenar y procesar grandes volúmenes de datos de
consumidores.
2004
Google publicó su paper “Map Reduce”, en que define la operación de grandes
datos mediante computación paralela.
2005-2006
Un año después de la publicación de Google nació Hadoop: software para
implementar procesos en paralelo. Aquí es donde se inicia el proyecto clave en
lo que hoy llamamos “big data”.
http://static.googleusercontent.com/media/research.google.com/en/us/archive/mapreduce-osdi04.pdf
2010
Se desarrolló y liberó “Spark”, un nuevo componente para el gran ecosistema
que se ha construido alrededor de Hadoop. Provee aún mejores niveles de
desempeño y la capacidad de desarrollar modelos analíticos, entre otras.
Febrero 2010
El supercomputador Watson ganó el concurso Jeopardy!.
Hito para la nueva era cognitiva.
Watson es un sistema informático capaz de entender el lenguaje y ofrecer una

respuesta única y precisa a una pregunta.
2013
IBM SPSS Modeler habilitó la conexión con fuentes de Hadoop mediante el nuevo
producto IBM SPSS Analytic Server.
Esta tecnología permite que los procesos se realicen completamente en el

ambiente de Hadoop, sin tener que transferir datos por las redes (idealmente).
Las V de Big Data
Las “tres V” originales y comúnmente aceptadas:
1. Volumen: el espacio de almacenamiento de datos.

2. Velocidad: la rápida aparición de nuevos datos, y la necesidad de operarlos.
3. Variedad: las diversas fuentes de datos y los formatos de éstos.
Actualmente han definido (ingeniosamente) hasta “siete V”:
4. Variabilidad
5. Veracidad
6. Visualización
7. Valor
Las V de Big Data: la velocidad
Las V de Big Data: el volumen
OK, OK, PERO ¿CUÁNTO VOLUMEN ES “BIG”?
Una empresa de telecomunicaciones puede tener alrededor de 400
millones de registros CDR al mes.
Los datos de transacciones bancarias o compras en el retail también

poseen centenas de millones de operaciones mensuales (Transbank,
Redbanc, internas de la empresa).
El transporte público: Metro en 2007 tuvo una afluencia anual de 600

millones de validaciones.
Llamados de un call center: reclamos en texto, voz grabada, etc.
Cada fila de estas fuentes contiene información como identificador

del lugar, origen, destino, unidades monetarias, duración, fecha de
inicio y término, entre otros.
Las V de Big Data: el volumen
TIPO DE BYTES
DATO APROX
bigint 8
date 8
varchar 255
En una tabla con muchos atributos, una fila podría ocupar 1 KB.
400 millones de transacciones ¡400 GB de datos al mes!

Las V de Big Data: la variedad
Datos estructurados
Son los tradicionales datos en forma de tabla que se pueden encontrar en
archivos CSV, planillas Excel, bases de datos relacionales.
DATOS SEMI-ESTRUCTURADOS:
XML, JSON.
https://graph.facebook.com/127708121003_10155025681531004?access_token=245031128840351|8d0cabbccbf6332ab099dd43.1-100002453978341|245031128840351|anT-byq2EUfRSAjTeeci2T3F1t0
Datos NO estructurados
Velocidad en el almacenamiento del dato.
Ejemplo: Netezza almacena a 2TB/hora (estructurados)
Velocidad en la explotación del dato: real-time analytics.
Uso aplicado: banco monitoreando las redes sociales de la competencia.

Con análisis de sentimientos en tiempo real es posible detectar
continuamente lo que está opinando la gente.
¿Dónde hay muchos datos?
Arquitectura de datos tradicional
Sistemas Integración y Operaciones y
transaccionales consolidación analítica
(OLTP)
CRM
Reportes Operativos y
Analíticos
Cubos
ERP
ETL
Modelamiento y
Web minería de datos
Channel
Datamart
ETL
Enteprise Data
Warehouse
ETL CRM
Call
Datamart Auditoría
Center
ERP
• El soporte de volúmenes de datos está
limitado a nivel de los sistemas OLTP.
• La integración y consolidación sería

compleja a través de procesos ETL.
• Tiene excesiva normalización y rigidez a

nivel de los esquemas de datos.
La arquitectura tradicional
no está preparada para la • No es compatible con la carga de fuentes de
transformación digital datos no estructuradas.
• No soporta naturalmente la implementación

de real-time analytics.
• Las capacidades de escalamiento y

elasticidad son limitados y de alto costo.
Arquitectura de Big Data
Interactivo Real-time Batch Analítico
Data Access APIs

OLTP OLTP OLTP
Otro
DM
EDW
Hadoop Distributed File System (HDFS)
DM
Fuentes de Datos No Estructuradas

Web Logs &
Documentos Social Cloud-based Sensors Geo-location
Click
y Correos Networks Services Data Data
Streams
Data Lake + Nuevas fuentes
Data warehouse offloading
Usos de Big Data: Digital Journey
El usuario se La aplicación le El usuario confirma su registro y ya
La aplicación
conecta a muestra sus datos, es “cliente registrado”. La
le indica que
www.caja.cl le solicita que aplicación le da la bienvenida y la
se registre
con sus ingrese su número indica que 36 de sus contactos en
de móvil, una clave Linkedin son afiliados a Caja Los
Web credenciales
segura y le envía por Andes y que 22 de ellos han usado
de Twitter /
Facebook o SMS un código de sus beneficios, mientras que 10
Linkedin enrolamiento para tienen créditos sociales,
su dispositivo. invitándolo a contratar dichos
productos
El usuario
selecciona Linkedin
y la aplicación
Red Social solicita permisos
para acceder a su
perfil y su lista de
contactos
El usuario recibe el
código de
Móvil enrolamiento para
confirmar su registro
El cliente recibe un correo de

bienvenida, con la misma
información de sus contactos
Email que está viendo en la
aplicación web y con la
invitación a seguir explorando
los productos de la Caja.
Usos de Big Data
Telecomunicaciones
Análisis en la predicción y prevención de pérdida de clientes y
campañas de venta proactiva.
Bancos y aseguradoras
Prevención de fraudes.
Predicción de comportamiento de pago de clientes.
Fuga (inactividad) en uso de tarjetas.
Manufactura
Temas de calidad en la línea de producción.
Los mismos problemas de negocio, sólo que esta vez se abordan

con nuevas herramientas que pueden manejar mayores volúmenes
y responder a mayor velocidad.
Soluciones Big Data
La estrella del Big Data
Hadoop: la estrella de Big Data
Apache Hadoop es un conjunto de programas de código abierto y métodos
estandarizados, usado para almacenamiento y procesamiento distribuido
de grandes volúmenes de datos.
Hadoop está diseñado para ejecutar en clústeres de computadores con

hardware genérico.
Un supuesto fundamental en todos los componentes de Hadoop es que las

fallas de hardware son comunes y deben ser resueltas automáticamente.
Hadoop está compuesto, en esencia, por dos elementos: HDFS y MapReduce.
HDFS (Hadoop Distributed File System) es el sistema de archivos de Hadoop

que se encarga de gestionar los archivos en el clúster. Cuando el usuario
escribe o lee un archivo desde Hadoop, no ve cómo se separa cada porción
en los diferentes nodos, sino que ve el archivo como uno íntegro (tal como
en nuestras carpetas habituales).
Hadoop está compuesto, en esencia, por dos elementos: HDFS y MapReduce.
MapReduce es un método de programación para resolver operaciones sobre

datos que están particionados y almacenados en diferentes nodos.
VENTAJAS DE USAR HADOOP
 Capacidad de almacenar grandes cantidades de datos.
 Capacidad de operar rápidamente.
 Tolerancia a fallos.
 Flexibilidad en el tipo de datos, gracias a componentes del ecosistema.
 Bajo costo.
 Escalabilidad.
ECOSISTEMA DE HADOOP
Por extensión, a todos los programas que se han desarrollado para ejecutar en
Hadoop se les considera “Hadoop”, lo que puede ser un poco confuso. En
realidad, son parte del “ecosistema” de programas que complementan al HDFS y
MapReduce.
Cassandra
Es una base de datos no relacional de almacenamiento <clave-valor>.
Chukwa
Diseñado para la colección y análisis a gran escala de logs.
HBase
Es una base de datos no relacional columnar que se ejecuta en HDFS. HBase no soporta SQL.
HBase permite que muchos atributos sean agrupados llamándolos familias de columnas.
Hive
Base de datawarehouse que facilita administrar grandes conjuntos de datos que se encuentran
almacenados en un ambiente distribuido. Hive tiene definido un lenguaje similar a SQL llamado
HQL.
La nueva chispa de Big Data
Spark: la nueva chispa de Big Data
EL LADO ANALÍTICO DE SPARK
MLlib es un subproyecto de Spark que provee algoritmos de aprendizaje de

máquinas:
1. Clasificación: regresión logística, SVM lineal, Bayes naïve.
2. Regresión: modelos lineales generalizados.
3. Filtrado colaborativo: alternating least squares (ALS).
4. Segmentación: k-means.
5. Descomposición: singular value decomposition (SVD), principal component

analysis (PCA).
EL LADO ANALÍTICO DE SPARK
El filtrado colaborativo se basa en

que si una persona A tiene la misma
opinión que una persona B sobre un
tema, entonces A es más probable
que tenga la misma opinión que B en
otro tema diferente que la opinión
que tendría una persona elegida
azar.
PureData for Analytics
 Data warehouse appliance pensado en resolver
rápidamente la carga y operación de grandes
volúmenes de datos relacionales.
 Incluye componentes de analytics como modelos
predictivos.
 Velocidad: 10-100x más rápido que los sistemas

tradicionales.
 Simplicidad: mínima administración y configuración.
 Escalabilidad: puede alcanzar petabytes de capacidad.
 Inteligente: analítica avanzada de alto desempeño.
Slice of User Data

Disk Enclosures Swap and Mirror partitions
High speed data streaming
SQL Compiler
Query Plan
SMP Hosts
Optimize
Admin
S-Blades™
(with FPGA-based Processor &
Database Accelerator) streaming DB logic
High-performance database
engine streaming joins,
aggregations, sorts, etc.
SPSS Analytic Server
Uno de los principales desafíos en la adopción de Hadoop es que en la
industria aún no hay suficientes personas expertas que puedan explotar los
datos del sistema.
SPSS Analytic Server facilita las operaciones gracias a que integra los
procesos de Hadoop con la intuitiva interfaz de SPSS Modeler.
Watson Machine Learning
Puntuación en tiempo real:

Nombre Juan Pérez
Meses en dirección actual 20
Meses de tenencia del celular 12
Ingresos diarios USD 64
Edad 50
PROPENSIÓN DE FUGA 87%

Watson Analytics
Watson Analytics
Gratuito Plus Profesional
Obtenga todos los características
Suba hojas de cálculo, obtenga
de la edición Gratuita más Obtenga todas las características
visualizaciones, descubra insights
almacenamiento y fuentes de de Plus más un acceso multi-
y construya dashboards de
datos extras, incluyendo usuarios para colaborar
instrumentos por su cuenta.
database y Twitter.
A partir de A partir de
US$000 US$3843 por usuario por mes US$10248 por usuario por mes
1 usuario 1 usuario 1 o más usuarios

100 GB de almacenamiento
1 MB de almacenamiento incluido 2 GB de almacenamiento incluido
incluido
30 días de prueba para usuario Añada almacenamiento extra de Añada almacenamiento extra de
Profesional 10 GB por una tarifa mínima 50 GB por una tarifa mínima
Obtenga acceso a bases de datos Obtenga acceso a bases de datos
relacionales,en las instalaciones relacionales,en las instalaciones
y en la nube y en la nube
Acceda a 18 conectores de datos Acceda a 19 conectores de datos
Acceda a los datos de Twitter Acceda a los datos de Twitter

Acceso limitado a ofertas de IBM Acceso total a ofertas y datos de Acceso total a ofertas y datos de
Analytics Exchange IBM Analytics Exchange IBM Analytics Exchange
Watson Analytics
Watson Analytics
Watson Analytics
Watson Analytics
Watson Analytics
Watson Analytics
Cómo usa IBM la tecnología
de Hadoop
Tealeaf on cloud usa Hadoop
Mejores prácticas:
Smart Marketing
Anexo
TALLER DE BIG DATA
Rodrigo Rebolledo
rrebolledo@besmart.cl
13 de enero de 2017

Big Data v1

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Big Data v1

Caricato da

Copyright:

Formati disponibili

TALLER DE BIG DATA

Definir Big Data

Soluciones de Big Data

1. Capturar: ¿cómo ingresan los datos a nuestros sistemas?

¡NO ESTÁ DEFINIDO POR NUEVAS SOLUCIONES DE NEGOCIO!

¿Cuántos datos son “convencionales” hoy?

Herman Hollerith y su invento “Electric Tabulating Machine" fueron parte de la

Los académicos comenzaron a denominar a este increíble fenómeno como la

Rider calculó que, si la tasa de crecimiento se mantuviera, la biblioteca de Yale

“Los conjuntos de datos son generalmente bastante grandes, afectando las

Watson es un sistema informático capaz de entender el lenguaje y ofrecer una

Esta tecnología permite que los procesos se realicen completamente en el

1. Volumen: el espacio de almacenamiento de datos.

Actualmente han definido (ingeniosamente) hasta “siete V”:

Los datos de transacciones bancarias o compras en el retail también

El transporte público: Metro en 2007 tuvo una afluencia anual de 600

Llamados de un call center: reclamos en texto, voz grabada, etc.

Cada fila de estas fuentes contiene información como identificador

400 millones de transacciones ¡400 GB de datos al mes!

Velocidad en la explotación del dato: real-time analytics.

Uso aplicado: banco monitoreando las redes sociales de la competencia.

• La integración y consolidación sería

• Tiene excesiva normalización y rigidez a

• No soporta naturalmente la implementación

• Las capacidades de escalamiento y

Interactivo Real-time Batch Analítico

Data Access APIs

Fuentes de Datos No Estructuradas

El cliente recibe un correo de

Los mismos problemas de negocio, sólo que esta vez se abordan

Hadoop está diseñado para ejecutar en clústeres de computadores con

Un supuesto fundamental en todos los componentes de Hadoop es que las

HDFS (Hadoop Distributed File System) es el sistema de archivos de Hadoop

MapReduce es un método de programación para resolver operaciones sobre

 Capacidad de almacenar grandes cantidades de datos.

 Capacidad de operar rápidamente.

 Flexibilidad en el tipo de datos, gracias a componentes del ecosistema.

EL LADO ANALÍTICO DE SPARK

MLlib es un subproyecto de Spark que provee algoritmos de aprendizaje de

1. Clasificación: regresión logística, SVM lineal, Bayes naïve.

2. Regresión: modelos lineales generalizados.

3. Filtrado colaborativo: alternating least squares (ALS).

5. Descomposición: singular value decomposition (SVD), principal component

EL LADO ANALÍTICO DE SPARK

El filtrado colaborativo se basa en

 Velocidad: 10-100x más rápido que los sistemas

Slice of User Data

Puntuación en tiempo real:

PROPENSIÓN DE FUGA 87%

1 usuario 1 usuario 1 o más usuarios

Acceda a 18 conectores de datos Acceda a 19 conectores de datos

Acceda a los datos de Twitter Acceda a los datos de Twitter

Potrebbero piacerti anche