Sei sulla pagina 1di 90

SAS ARGENTINA

31 DE OCTUBRE DE 2014
IX Jornadas de Data Mining

BIG DATA ANALYTICS


QUE ES,
ES, PARA QUE SIRVE Y COMO TRABAJA
SAS SOBRE HADOOP

Sergio Uassouf
Lder de Prctica de
Gestin de Informacin e Infraestructura
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

v4.5 20141029

BIG DATA CASI TODOS HABLAN SOBRE QUE SE PUEDE HACER...


SAS SOBRE HADOOP PERO CASI NADA SOBRE COMO HACERLO

PRESENTACIONES DE NEGOCIOS
CON TENDENCIA AL VAPORWARE

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

BIG DATA NOSOTROS HABLAREMOS SOBRE QUE SE PUEDE HACER


SAS SOBRE HADOOP PERO TAMBIN SOBRE COMO HACERLO...

BIG DATA EN GENERAL

HADOOP COMO PLATAFORMA


PARA BIG DATA

SAS SOBRE HADOOP

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS NUESTRA EMPRESA

"With no shareholders
demanding short-term
returns, we are free to
invest in a sustainable
future. Thats why we
invest in a dedicated
workforce, sustainable
operations and a strong
community to make
everyone, not just SAS,
successful." Jim
Goodnight

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS NUESTRA EMPRESA

SOLUCIONES
ANALITICAS
LLAVE EN MANO

HERRAMIENTAS PARA
DESARROLLOS
ANALITICOS

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

PROACTIVO

TODAS LAS CAPACIDADES ANALTICAS PARA


TODOS LOS VOLMENES DE INFORMACIN

REACTIVO

CAPACIDADES ANALITICAS

SAS

MEDIANO A GRANDE

TAMAO DE DATOS

BIG DATA

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS

TODAS LAS OPCIONES EN TODOS LOS ASPECTOS


DE LA ANALTICA DE NEGOCIOS

Analtica
Desarrollos (modelizacin) visuales
Desarrollos por interfaz grfica
Desarrollos por cdigo
Informacin estructurada
Informacin no estructurada
Todos las bases de datos
Big data (Ya veremos)
Flujos contnuos (Streaming)

Plataformas
Grilla de servidores (Grid)
Big data (Ya veremos)
La nube

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

BIG DATA MODA O REALIDAD PERDURABLE?

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

FALSO DILEMA
PERO SE VE MUY FRECUENTEMENTE... CASI SIEMPRE
NEGOCIOS O TI?

Un negocio que no tenga


soporte tecnolgico?

O una tecnologa que no sirva


para generar negocios?

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

PONIENDONOS
HITOS IMPORTANTES DE LA INFORMATICA
EN CONTEXTO

La multiprogramacin y el spool de impresoras.


Los monitores de transacciones y el procesamiento online.
Las bases de datos relacionales.
La programacin orientada a objetos.
Una computadora en cada escritorio.
El protocolo IP = Internet.
El protocolo XML = HTML = World Wide Web.
Google.
Big Data?.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

BIG DATA
ALMACENAR Y ANALIZAR GRANDES VOLUMENES DE
SAS ON HADOOP
INFORMACION A BAJO COSTO
MPP

Si puede almacenar mucha ms informacin a un costo


mucho menor...
Y puede procesarla en un tiempo mucho menor.
Entonces no necesita armar modelos tomando slo un
subconjunto de los datos...
Y puede hacer todas las iteraciones que necesite.

Entonces puede almacenar y procesar la


informacin que antes no poda
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

NECESIDAD A ALMACENAR Y ANALIZAR GRANDES VOLUMENES DE


RESOLVER INFORMACION A BAJO COSTO

TODOS LOS
CALL DETAIL
RECORDS

TODAS LAS
TRANSACCIONES

Y ANALIZARLOS
EN SU TOTALIDAD...

TODAS LAS
SECUENCIAS DE
SITIOS WEB

EJECUTANDO
TODAS LAS
ITERACIONES QUE
NECESITE...

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

TODAS LAS
CONVERSACIONES
DE LOS CALL
CENTERS

A MUY BAJO
COSTO RELATIVO

PONIENDONOS
INTELIGENCIA O FUERZA BRUTA?
BRUTA?
EN CONTEXTO

Todos los modelos son incorrectos, pero algunos


son tiles (George Box, estadstico, 18 de Octubre
de 1919 28 de Marzo de 2013).

Todos los modelos son incorrectos, y cada vez ms


podemos tener xito sin ellos (Peter Norvig, director
de investigacin de Google, 14 de Diciembre de
1956).

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

CUIDADO CON
CORRELACION NO SIGNIFICA NECESARIAMENTE CAUSALIDAD
LAS APARIENCIAS

Gasto de U.S.A. en ciencia y tecnologa...


Correlacin 0.992082 con...
Suicidios por estrangulamiento, ahorcamiento y sofocacin

Fuente: Spurious Correlations; http://www.tylervigen.com/


Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

CUIDADO CON
CORRELACION NO SIGNIFICA NECESARIAMENTE CAUSALIDAD
LAS APARIENCIAS

Cantidad de gente que se ahoga nadando en una pileta...


Correlacin 0.901179 con...
Potencia generada por las plantas nucleares

Fuente: Spurious Correlations; http://www.tylervigen.com/


Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

CUIDADO CON
CORRELACION NO SIGNIFICA NECESARIAMENTE CAUSALIDAD
LAS APARIENCIAS

Consumo de queso per capita...


Correlacin 0.947091 con...
Muertes por enredo en la ropa de cama

Fuente: Spurious Correlations; http://www.tylervigen.com/


Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

PONIENDONOS
COMPONENTES BSICOS HACE 40 AOS
EN CONTEXTO

Desde los inicios de la informtica un computador, ya sea personal o


empresarial est compuesto de 3 componentes principales.

CPU

RAM

MEMORIA

Disk

UNIDADES DE
ALMACENAMIENTO
CPU

UNIDADES DE
PROCESAMIENTO

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

PONIENDONOS
COMPONENTES BSICOS EN LA ACTUALIDAD
EN CONTEXTO

Pero ahora...
en
Masivamente
!!!
Desde
los inicios
deProcesamiento
la informtica un
computador,Paralelo
ya sea personal
o
empresarial est compuesto de 3 componentes principales.

RAM

RAM

MEMORIA

UNIDADES
DE Disk
Disk
ALMACENAMIENTO

Disk

CPU

RAM

CPU

CPU CPU

CPU
UNIDADES
DE
PROCESAMIENTO

RAM

RAM

Disk

CPUCPU

Disk

CPU CPU

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

RAM
Disk

RAM
Disk

RAM
Disk

CPUCPU
CPU CPU
CPUCPU CPU

HADOOP CASOS DE USO

Proyecto Durkheim
Craig Venter, Celera Genomics
eBay
Aproximadamente 15 terabytes.
200.000.000 grabaciones por da.
Importaciones masivas (bulk load): 500.000.000 de filas en 30 minutos.
1,2 terabytes importados cada da.

Facebook
Almacenamiento de mensajes y sus ndices.
75.000.000.000 de lecturas/grabaciones por da.
En momentos pico 1.500.000 de operaciones por segundo.
2 petabytes en HBase.
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP TAMAOS EN PERSPECTIVA


TRANSACCIONES BANCARIAS
Bytes / Transaccin

Cien

Bytes en 1 TB

Un billn

Transacciones en 1 TB

Diez mil millones

A 300 Txs / Segundo

4 aos de transacciones
de das hbiles de 8 horas

SHORT MESSAGES SERVICES


Tamao mximo
Ciento sesenta caracteres
Tamao promedio

25

SMS promedio en 1 TB

Cuarenta mil millones

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP ECOSISTEMA HADOOP (COMPONENTES)

SISTEMA DE
ARCHIVOS
HDFS

MODELO DE
PROGRAMACION
MAP/REDUCE
(Y OTROS)
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

BIG DATA RELACION ENTRE HADOOP Y BIG DATA

Entonces Big Data...

Significa Procesamiento Masivamente Paralelo (MPP)...


Big Data necesariamente es Hadoop?.
Big Data es necesariamente HDFS?
Big Data es necesariamente MapReduce?

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

DIGRESION QUE ES UN FILE SYSTEM?

UN FILE SYSTEM NO
DETERMINA EL FORMATO DE
LO QUE ALMACENAMOS EN EL

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP PREMISAS FUNDAMENTALES DE DISEO

Concepto central: Distribuir los datos inicialmente a medida que van


siendo almacenados en el sistema.
Cada nodo trabaja con los datos locales de ese nodo.
Los datos son replicados mltiples veces en diferentes nodos.
Los clculos ocurren donde sea que estn almacenados los datos.

Los nodos intercambian entre ellos la menor cantidad de


informacin posible.
Arquitectura shared nothing.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HDFS UN PAR DE ESQUEMAS GRAFICO Y SEGUIMOS...


SEGUIMOS...
Los bloques son replicados en los nodos componentes del cluster.
Basados en un factor de replicacin (por defecto 3).
La replicacin no slo mejora la disponibilidad, sino la performance.
Mayores oportunidades para conseguir datos locales.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HDFS OTRO ESQUEMA GRAFICO

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HDFS MAS PREMISAS DE DISEO HADOOP

Almacenamiento redundante para volmenes masivos de informacin,


previendo alta cantidad de fallas de los componentes.
Utilizando hardware commodity que tienden a fallar frecuentemente.

Basado en Google File System.


Diseado para archivos terabytes o petabytes.

Enormes flujos de lecturas secuenciales.


Favorece un throughput muy elevado y sostenido sobre la baja latencia.
No hay acceso random competitivo contra los mtodos tradicionales
(transaccionales). Muchos proyectos en investigacin.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP/MAP-REDUCE Y ECOSISTEMA

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

MAP_REDUCE PROCESO DE CONTEO DE PALABRAS

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

MAP_REDUCE PROCESO DE JOIN SQL


Apareando la variable 3 del Input A con la variable 1 del Input B...
Informar la variable 2 del Input A y la variable 4 del input B.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

MAP_REDUCE

SOLO PARA ASUSTAR...


ASUSTAR... (DESPUES PASAR)
PASAR)
PROGRAMA MAP REDUCE DE SENTENCIA JOIN SQL

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

MAP_REDUCE PROCESO DE SUMA DE VARIABLES


Informar la suma de las variables del Input A y B cuyas claves apareen.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

MAP_REDUCE ENCADENAMIENTO DE PROGRAMAS MAP_REDUCE


Hay que disear el programa pensando en el paralelismo (analoga OOP).

Grfico tomado
de Oracle

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP ECOSISTEMA HADOOP (COMPONENTES)

Apache Hive
Apache Pig
Apache HBase
Apache Sqoop
Apache Flume
Apache Mahout

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP--HIVE PRINCIPALES CARACTERSTICAS


HADOOP

Lenguaje similar a SQL para acceder a


datos en HDFS.
Nacido en Facebook.
Se accede desde Hive Shell, como
instruccin de programa o herramientas
de terceros (Hue Cloudera).
Almacena sus metadatos en una base
local en el cliente (generalmente
mySQL).
Sus tablas son directorios de archivos
almacenados en HDFS.
Mencionar Impala
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP-HIVE JAVA MAP_REDUCE VS HIVE

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP--PIG PRINCIPALES CARACTERSTICAS Y SINTAXIS


HADOOP

Lenguaje de scripting (PigLatin) para acceder a datos en HDFS


Nacido en Yahoo.
Se accede desde Hive Shell, como instruccin de programa o herramientas
de terceros (Hue Cloudera).
Almacena sus metadatos en una base local en el cliente (generalmente
mySQL).
Sus tablas son directorios de archivos almacenados en HDFS.
stock = LOAD '/user/fred/stock' AS (id, item);
orders= LOAD '/user/fred/orders' AS (id, cost);
grpd = GROUP orders BY id;
totals = FOREACH grpd GENERATE group, SUM(orders.cost) AS t;
result = JOIN stock BY id, totals BY group;
DUMP result;
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP--PIG HIVE VS. PIG


HADOOP

Si se siente cmodo con SQL tender a usar Hive, si no Pig.


Pig es mejor para datos no estructurados. Hay quienes utilizan Pig para
darle estructura a datos no estructurados que luego procesan con Hive.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP INTEGRACION EN LA INFRAESTRUCTURA ACTUAL

FLUME
Servicio distribuido para mover grandes volmenes de datos en el mismo momento en
el que son generados.
Ideal para capturar logs desde mltiples sistemas e insertarlos en HDFS.

SQOOP
Aplicacin para transferir datos entre RDBMS y HDFS en varios formatos, Hive o HBase.
Algunos conectores: MS SQL Server, MySQL, Oracle, Teradata, Netezza.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

PARTE 3
HADOOP VERSION 2

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP HADOOP 1.0 REQUERIMIENTOS PARA HADOOP 2.0

Alta disponibilidad para el


NameNode HDFS.
NameNode federado para
mayor escalabilidad.
Acceso NFS para montar HDFS
como un file system estndar.
Encripcin de datos en trnsito.
Sistema YARN de
administracin de recursos.
Separacin de HDFS respecto
al modelo de programacin
MapReduce.
Grfico tomado
de Hortonworks

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP HADOOP 2.0

nico Uso
Aplicaciones Batch

Grfico tomado
de Hortonworks

Plataforma multi-propsito
Batch, Interactivo, Online, Streaming

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP HADOOP 2.0 MODELOS DE PROGRAMACION

Grfico tomado
de Hortonworks

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

HADOOP COMPARACION V1 VS. V2 (YARN)


RESOURCE MANAGEMENT MAPMAP-REDUCE

RESOURCE MANAGEMENT YARN

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SPARK (ON HADOOP) QUE ES SPARK?

Motor de ejecucin distribuido preferentemente en memoria.


Map_Reduce necesariamente utiliza discos para pasar los
resultados intermedios

RDD (Resilient Distributed Datasets)


Estructura de datos en memoria con interfaz API basada en
transformaciones y acciones.

Partitioning-aware para reducir shuffles por la red.


APIs nativas en Scala, Java y Python.
Ejecuta en modalidad stand-alone o sobre Hadoop.
Se lleva muy bien con Hadoop.
Compatible con las APIs de almacenamiento de Hadoop.
Compatible con YARN.
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

SPARK (ON HADOOP) CONTEO DE PALABRAS

50+ lneas en Map_Reduce

3 lneas en Spark

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SPARK (ON HADOOP) QUE ES SPARK?

Map-Reduce no se lleva bien con aplicaciones complejas.


Entonces comenzaron a aparecer aplicaciones especializadas

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SPARK (ON HADOOP) QUE ES SPARK?

Plataforma integrada para analtica sobre Hadoop

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SPARK (ON HADOOP) SPARK BUILDING BLOCKS

Resilient Distributed Datasets, Transformaciones y Acciones


map, filter, groupBy, sort,
union, join, leftOuterJoin,
rightOuterJoin, reduce,
count, fold,
reduceByKey,
groupByKey, cogroup,
cross, zip, sample, take,
first, partitionBy,
mapWith, pipe, save

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS EN HADOOP

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

NECESIDAD A
INTERACCION CON SAS CON HADOOP
RESOLVER

Si est planificando o comenzando a utilizar Hadoop


Si utiliza SAS como plataforma analtica y ahora quiere utilizarla
sobre Hadoop.
Si quiere utilizar Hadoop y no quiere agregar otra herramienta
analtica ms.
Si quiere hacer anlisis de datos en forma simultnea sobre
plataformas RDBMS y Hadoop.
Si no sabe como analizar los enormes volmenes de datos que
puede almacenar Hadoop.
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

TITULO
HADOOP COMO NUEVO ALMACENAMIENTO DE DATOS
SAS SOBRE HADOOP

http://blogs.sas.com/content/sascom/2014/10/13/adopting-hadoop-as-a-data-platform/
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

TITULO
HADOOP COMO INPUT AL DATA WAREHOUSE CORPORATIVO
SAS SOBRE HADOOP

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

TITULO HADOOP COMO BASE PARA


SAS SOBRE HADOOP BUSINESS INTELLIGENCE Y ANALTICA DE NEGOCIOS

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE
TODAS LAS MODALIDADES
HADOOP

Facilitando la implementacin y ejecucin de todas las


modalidades.
En forma progresiva o consolidada.
COMO REPOSITORIO DE
INFORMACION
+ PROCESAMIENTO EN PARALELO
MODALIDAD MAP-REDUCE
+ PROCESAMIENTO EN PARALELO
MODALIDAD IN-MEMORY

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS
EJECUCION DE THREADED KERNEL EN LOS APPLIANCES
PROCESAMIENTO
DE BASES DE DATOS Y CLUSTERS HADOOP
EN PARALELO
TK runs on Client (Old)

TK runs in Database (New)

SAS Server

SAS Server

SAS Procs

SAS Procs

TK

Database Appliance / Hadoop Cluster


Database Appliance / Hadoop Cluster
Database Appliance / Hadoop
ClusterKernel
Threaded
Database Appliance / Hadoop
Cluster
Threaded Kernel
(TK)

Database
Threaded Kernel
(TK)
Database
Threaded
Process Kernel
(TK)
Database
HPA LASR
Process (TK) EP
Database
EP
HPA LASR
Process
EP
HPA LASR
Process

Database Appliance

EP

Database
Process
Data

Data

Data

HPA

LASR

Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE HADOOP COMO


REPOSITORIO DE DATOS ANALITICOS

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

1A
A
SAS ININ-DATABASE HADOOP COMO REPOSITORIO DE DATOS ANALTICOS

SAS data sets

SAS Grid

SAN

SAN

SAN

SAN

Distributed
SAS Data Sets
Hadoop Cluster

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE HADOOP COMO REPOSITORIO DE DATOS ANALTICOS


HADOOP OPERACIONES PRIMARIAS CON SAS DATA INTEGRATION

Transferir y transformar tablas SAS desde y hacia


clusters Hadoop.
Delimitados por caracteres, XML, JSON, entre otros

Construir y ejecutar programas Map-Reduce.


Construir y ejecutar programas Pig.
Construir y ejecutar programas Hive.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE OPERACIONES HADOOP DESDE PROGRAMAS SAS


HADOOP PIG Y MAP-REDUCE

/*
Run PIG script
*/
filename cfg "C:\Sample_Data\hadoop_config.xml";
filename pigcode1 "C:\Sample_Data\pig_cd.txt";
proc hadoop options=cfg username="hadoop password="hadoop"
verbose;
pig code=pigcode1 ;
run;
El sgte. script PIG Latin script lee el archivo NYSE_dividendos desde HDFS y lo
agrupa por simbolo. Luego, calcula el promedio de dividendos de cada grupo y
lo almacena en la carpeta HDFS d_promedio_dividendos.
CD NYSE ;
d_dividendos = LOAD 'NYSE_dividendos' as (d_exchange, d_simbolo, d_fecha, d_dividendo_ind);
d_grouped = GROUP d_dividendos BY d_simbolo;
d_promedio = FOREACH d_grouped GENERATE group, AVG(d_dividendos.d_dividendo_ind);
STORE d_promedio INTO 'd_promedio_dividendos';

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE OPERACIONES HADOOP COMO CON CUALQUIER DB


HADOOP HIVE
LIBNAME cdh_hdp HADOOP PORT=10000 SERVER=sascldserv02 user=hadoop password=hadoop ;
/*
Create new table
*/
proc sql;
connect to hadoop(PORT=10000 SERVER=sascldserv02 USER=hadoop PASSWORD="hadoop");
exec( create table cars_prc (make string, model string, msrp double) ) by hadoop;
quit;
/*
Copy from another table
*/
proc sql;
insert into cdh_hdp.cars_prc
select make, model, msrp
from sashelp.cars ;
quit;
/*
List contents
*/
proc sql;
select * from cdh_hdp.cars_prc;
quit;

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE
BENEFICIOS
HADOOP

Beneficios
Sustanciales ahorros de costos de
almacenamiento
Mejora de performance
Sin lmite en el ancho de las tablas
soportadas (>2000 variables)
Optimizacin del costo de
proteccin de datos mediante la
replicacin HDFS
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE HADOOP


IN-DATABASE

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS ININ-DATABASE
MODALIDAD
SAS
NATIVA

HADOOP COMO REPOSITORIO


Y PARA PROCESAMIENTO MODALIDAD MAPMAP-REDUCE

DBMS

MODALIDAD
SAS
IN-DATABASE

Data

DBMS
Data

SAS

SAS

Modo tradicional de operacin SAS


Actividades que requieren entorno de ejecucin SAS
Que no pueden ser ejecutadas mediante SQL
Que ejecutan mejor en entornos nativos SAS
Soluciones SAS

SAS In-Database
Transformaciones de SAS Data Integration
Reportes basados en queries SQL
Lenguaje DS2
SAS Scoring Accelerator
SAS Data Quality Accelerator

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS ININ-DATABASE HADOOP COMO REPOSITORIO Y PARA PROCESAMIENTO


SOBRE HADOOP MODALIDAD MAPMAP-REDUCE

1A
A

SAS data sets

SAS Grid

SAS Embedded Process ofrece:

SAS Scoring Accelerator for Hadoop

SAN

SAN

SAN

Distributed
SAS Data Sets

SAS Code Accelerator for Hadoop


SAS Data Quality Accelerator for Hadoop

SAN

EP

Hadoop Cluster

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

FACILITANDO
SAS DATA LOADER FOR HADOOP
HADOOP
Business Users / Analysts

Preparacin y
Calidad de Datos

Self-service data manipulation in


Hadoop + Loading into distributed
SAS LASR Servers

On-Hadoop data processing


(Code Accelerator +
Data Quality Accelerator)

Exploracin, Visualizacin
y Analtica Avanzada

SAS Data Loader for


Hadoop

SAS Visual
Analytics / Statistics

SAS LASR
ANALYTIC
SERVER

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS DATA LOADER


FOR HADOOP 2.1

MENU PRINCIPAL

Autoservicio de
datos para los
usuarios
Sin necesidad
de codificacin
o scripting
Sin necesidad de
conocimientos
especializados en
Hadoop
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

SAS ININ-DATABASE
BENEFICIOS
SOBRE HADOOP

Beneficios
Grandes mejoras de performance
Gran crecimiento del poder de
cmputo basado en el
procesamiento en paralelo de
Hadoop
Significativa reduccin del
movimiento de datos

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE HADOOP


IN-MEMORY
HIGH-PERFORMANCE ANALYTICS

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SOLUCIONES
ANALTICAS

DIFERENCIADORES DE LOS
PRODUCTOS SAS:
PODER DE ANLISIS
INTERCATIVIDAD / CONCURRENCIA
DE MLTIPLES USUARIOS
FLEXIBILIDAD / FACILIDAD DE USO

Poder de Anlisis

PROCESAMIENTO
EN PARALELO
EN MEMORIA

MODULOS SAS
HIGH PERFORMANCE

High Perf.
Statistics
High Perf.
Data Mining
Batch

LASR SERVER

Visual
Statistics

IMSTAT for
Hadoop*

Visual
Analytics
Interactivo

Interactividad / Concurrencia de
Mltiples Usuarios

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

*SAS In-Memory Statistics for Hadoop

SAS SOBRE METODOS SAS NATIVOS


HADOOP AHORA EJECUTANDO EN MODALIDAD ININ-MEMORY

1A
A

SAS data sets

SAS Grid

SAN

SAN

SAN

SAN

SAS High Performance Analytics ofrece:


SAS High-Performance Statistics
SAS High-Performance Data Mining
SAS High-Performance Text Mining
SAS High-Performance Optimization
SAS High-Performance Econometrics
SAS High-Performance Forecasting

Distributed
SAS Data Sets
HPA

Hadoop Cluster

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE METODOS SAS NATIVOS


HADOOP AHORA EJECUTANDO EN MODALIDAD ININ-MEMORY

Sample

Explore

Modify

Model

Assess

1A
A

CASO DE USO

SAS data sets

Modelo de
propnsin a
compra en cadena
de hoteles;
Regresin logstica;
20 horas vs 20
minutos;
a igual inversin

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS SOBRE HADOOP


IN-MEMORY

- VISUAL ANALYTICS
- VISUAL STATISTICS
- IN-MEMORY STATISTICS FOR HADOOP
...TODOS BASADOS EN LASR SERVER
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

SOLUCIONES
ANALTICAS

DIFERENCIADORES DE LOS
PRODUCTOS SAS:
PODER DE ANLISIS
INTERCATIVIDAD / CONCURRENCIA
DE MLTIPLES USUARIOS
FLEXIBILIDAD / FACILIDAD DE USO

Poder de Anlisis

PROCESAMIENTO
EN PARALELO
EN MEMORIA

MODULOS SAS
HIGH PERFORMANCE

High Perf.
Statistics
High Perf.
Data Mining
Batch

LASR SERVER

Visual
Statistics

IMSTAT for
Hadoop*

Visual
Analytics
Interactivo

Interactividad / Concurrencia de
Mltiples Usuarios

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

*SAS In-Memory Statistics for Hadoop

SAS LASR SERVIDOR ANALTICO...


ANALTICO?
ANALYTICS SERVER QU ES UN SERVIDOR ANALTICO?
LASR ANALYTICS SERVER
SERVIDOR ANALTICO: SUS INSTRUCCIONES EJECUTAN DIRECTAMENTE FUNCIONES ANALITICAS (ACCIONES)
SOBRE TABLAS EN MEMORIA: SASIOLA ENGINE; EN MODALIDAD STATELESS
NOMINA DE ACCIONES
ADDTABLE, ADDTKHPSTABLE, APPENDTABLE, ASSESS, BOXPLOT, CLASSLEVELS, CLUSTER, COLUMNINFO, CONTOURPLOT,
COMPUTEDCOLUMN, CORRELATION, CROSSTAB, DECISIONTREE, DELETEROWS, DIRECTLOAD, DISTINCTCOUNT,
DISTRIBUTIONINFO, DROP, DROPTABLE, EXPORT, EXTERNAL, FETCHROWS, FITMODEL, FORECASTSERIES, FREQUENCY,
GROUPBY, HISTOGRAM, IMPORT, IMPORTCUBE, KERNELDENS, LIFETIME, LISTSORTS, MDSUMMARY, NUMROWS, OPTIMIZE,
PARALLELCOORDINATES, PARTITION, PARTITIONINFO, PERCENTILE, PROMOTE, PSPLINE, PURGETEMPTABLES, RANDOMFOREST,
REALSCATTER, RECOMMEND, REGCORR, REGRESSION, SAVETABLE, SCHEMA, SCORE, SERVERINFO, SERVERPARM,
SERVERVERSION, SETTABLES, SCATTERPLOT, SCATTERPLOTMATRIX, SORTORDER, SUMMARY, TABLEINFO, TERMINATE,
TEXTPARSE, TOPK, UPDATE

INTERFAZ CLIENTE JAVA: VISUAL ANALYTICS, VISUAL STATISTICS


INTERFAZ IMSTAT: PROGRAMACION SAS
INTERFACES PARTICULARES: VASMP, HPAML
INTERFAZ PROGRAMACION C

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS LASR HADOOP COMO REPOSITORIO Y


ANALYTICS SERVER PARA PROCESAMIENTO MODALIDAD ININ-MEMORY

1A
A

SAS data sets

SAS Grid

SAS LASR Server ofrece:

SAN

SAN

SAN

SAN

Distributed
SAS Data Sets

SAS Visual Analytics


SAS Visual Statistics

LASR

SAS In-Memory Statistics for Hadoop

Hadoop Cluster

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS LASR INTERFACES PARA LAS DIFERENTES NECESIDADES


ANALYTIC SERVER DE LOS DIFERENTES TIPOS DE USUARIOS
BUSINESS ANALYST
STATISTICIAN
DATA SCIENTIST /PROGRAMMER

GUI

GUI

PROGRAMMING

Visual
Analytics

Visual
Statistics

IMSTAT for
Hadoop**
Hadoop

Data
Manipulation

Exploration/
Visualization

Modeling

Deployment

*SAS In-Memory Statistics for Hadoop


Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

SAS VISUAL ANALISIS EXPLORATORIOS


ANALYTICS ESTADSTICA Y MINERA DE DATOS BSICAS
Central Entry Point

DATA BUILDER
Operaciones
relacionales desde
diversas fuentes
Creacin de columnas
calculadas
Carga de datos

Integration

ADMINISTRATOR

Monitor SAS LASR


Analytic server
Carga y descarga de
datos
Administracin de
seguridad

Role-based Views

EXPLORER

DESIGNER

MOBILE BI

Descubrimiento de
patrones y anlisis de
datos
Analtica avanzada

Creacin de reports
del tipo tablero de
control para
visualizarlos en la
Web o en dispositivos
mviles

Aplicaciones para iOS


y Android para
visualizacin
interactive de reportes

SAS LASR ANALYTIC SERVER


Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

SAS VISUAL
ALGUNAS DE LAS MEJORAS DE LA VERSION 7.1
ANALYTICS

Anlisis de Recorridos
Para analizar el flujo de navegacin de los usuarios sobre los sitios Web.

Bsqueda de Objetivos y Anlisis de Escenarios


Anlisis visual de escenarios de forecast, pudiendo modificar el objetivo para que
VA encuentre los parmetros a modificar para alcanzarlo.

Anlisis de Sentimientos
Sentimiento de los usuarios sobre temas especficos o documentos enteros.

Carga en paralelo
Desde Cloudera Impala, SAP HANA, Teradata, Greenplum and Oracle.

Compresin de datos en el servidor analtico LASR.


Reportes Administrativos Pre-Construdos
Para administrar en forma eficiente el entorno VA/LASR.
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

SAS VISUAL
ESTADSTICA Y MINERA DE DATOS AVANZADA
STATISTICS

Entorno totalmente interactive para el modelado estadstico en forma visual


Los modelos estadsticos ejecutan en SAS LASR Server
Misma interfaz de usuario que Visual Analytics

Funcionalidades principales
Mltiples usuarios concurrentes sobre copia nica de los datos.
Estadstica clsica: Regresiones multiples, Regresin logstica, Anlisis de varianza, Modelo
lineal generalizado, Clustering.
Estadstica moderna / Machine learning (rboles de decisin, Random forest, Clasificadores
de Bayes ingenuos).
Procesamiento GROUP BY en paralelo.
Descubrimiento visual de puntos crticos como outliers y puntos de influencia.
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

SAS ININ-MEMORY
ACCESO PROGRAMTICO
STATISTICS
A TODA LA FUNCIONALIDAD DEL LASR SERVER
FOR HADOOP

SAS WebOne HTML 5 Modern


Coding Environment
~ Happy Data Scientists & SAS
Analysts

SAS Server
~ BASE, ODS, Access to Hadoop ,LASR
12 bytes (IMSTAT, RECOMMEND Etc..)

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

LASR Analytic Server


on Hadoop

SAS ININ-MEMORY
STATISTICS
FOR HADOOP

Predictive Modeling

Data Manipulation

SAS Data Step


BALANCE
COLUMINFO
COMPUTE
DELETEROWS
DISTINCT
DROPTABLE
FETCH
GROUPBY
PARTITION
PROMOTE
PURGETEMPTABLES
SET
TABLE
UPDATE

DECISIONTREE
FORECAST
GENMODEL
GLM
RANDOMWOODS
ASSESSMENT

Descriptive Modeling
Data Exploration/
Visualization

BOXPLOT
CORR
CROSSTAB
CONTOURPLOT
DISTRIBUTIONINFO
FREQUENCY
HISTOGRAM
KDE
REPLAY
SUMMARY

CLUSTER
CLUSTER TF-IDF
ASSOCIATIONS
SVD

Miscellaneous

EXTERNAL (C API)
FREE
SAVE
STORE

Recommender
CLUSTER
KNN
ASSOCIATIONS
SVD

Text Analytics

PARSING
SVD

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

Deployment
SCORE

SAS LASR VISUAL ANALYTICS / VISUAL STATISTICS


ANALYTICS SERVER ININ-MEMORY STATISTICS FOR HADOOP

Caso Modelo Fraude


Alta Complejidad

Beneficios
Incremento masivo de la
performance
Simplificacin de la administracin
de recursos
Optimizacin del movimiento de
datos mediante gran paralelismo
Adaptado para desarrollar / ejecutar
todo tipo de modelos analticos

Clustering + Impacto + Tiempo + Secuencia

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS ON HADOOP NUESTRA VISIN...

SAS seguir siendo la empresa ms fuerte en analtica de


negocios sobre Hadoop, siendo sta su plataforma de
preferencia.
Su posicin podra ser amenazada por Apache Spark si SAS
no contina las mejoras constantes sobre su plataforma
(SAS MVA, SAS in-database, SAS LASR).
Cuales sern nuestros pasos en el futuro?.

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

LINEAMIENTOS PARA LA IMPLEMENTACION DE


UN LABORATORIO ANALITICO DE SAS SOBRE HADOOP

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

www.SAS.com

SAS LASR RELACION LASR SERVER CON


ANALYTIC SERVER LA ARQUITECTURA GENERAL DE SAS

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS LASR
DENTRO DE LOS SERVIDORES DEL LASR SERVER
ANALYTIC SERVER

FEATURE

CANTIDAD

PROCESADORES

2 x Intel E5-2665
(Total 16 cores)

RAM

256 GB

DISCO

3 x 1TB 7.2K
SAS HDDs

CONEXION A RED 4 X GbE


SOPORTE

3 aos 7 x 24

PRECIO DE
REFERENCIA

U$S 14K

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

SAS LASR PLAN TENTATIVO DE IMPLEMENTACION


ANALYTIC SERVER DE LABORATORIO ANALTICO SAS SOBRE HADOOP

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

BIG DATA
LE PROPONEMOS COMENZAR...
SAS SOBRE HADOOP

Big Data / Hadoop:


Nueva tecnologa para resolver grandes
problemas de negocio a bajo costo
SAS sobre Hadoop:
SAS adopta esta tecnologa en forma integral,
minimizando su dificultad de implementacin
SAS le propone comenzar su proyecto de Big
Data y crecer en forma incremental con SAS
sobre Hadoop
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.

GRACIAS POR LA INVITACION

Company Confidential - For Internal Use Only


Copyright 2012, SAS Institute Inc. All rights reserved.

www.SAS.com

Potrebbero piacerti anche