Sei sulla pagina 1di 43

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/311950584

BIG DATA: El Cambio en el Paradigma de la Información

Presentation · October 2013


DOI: 10.13140/RG.2.2.28929.66400

CITATIONS READS

0 1,858

1 author:

Renato R. González-Disla
Instituto Tecnológico de Santo Domingo
29 PUBLICATIONS   39 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

LA TECNOLOGIA DE BLOCKCHAINS, LAS CRIPTOMONEDAS Y LA DISRUPTION DEL SISTEMA MONETARIO View project

Un Modelo de Medición de la Complejidad y el Esfuerzo de Producción del Software basada Ciencia Cognitiva View project

All content following this page was uploaded by Renato R. González-Disla on 29 December 2016.

The user has requested enhancement of the downloaded file.


BIG DATA:
El Cambio en el Paradigma de
la Información
Por Renato R. González Disla
Para IEEE Subseccion Republica Dominicana
Octubre del 2013

Novus Pardigma SRL ® 1


Agenda
• Introducción
• Que es Big Data?
• Proyectos R&D Big Data
• Productos Basados en Big Data
• Las Tres V’s de Big Data
• Tecnologías de Big Data
– Tecnologías para la organización, acceso y
distribución de datos
– Tecnologías para el análisis y descubrimiento de
conocimiento
• Ejemplo App Big Data en RD:
DMRiSc
Novus Pardigma SRL ® 2
Introducción

• BIG DATA es el tema mas recurrido en los últimos


meses en seminarios, conferencias y publicaciones
Novus Pardigma SRL ® 3
Introducción
• Durante los últimos años el gran
crecimiento de las aplicaciones disponibles
en internet (geo posicionamiento, redes
sociales, buscadores, ecommerce, etc.) han
sido parte importante en las decisiones de
las empresas y los gobiernos.
• Ha habido un desarrollo y crecimiento
exponencial del uso del mobile computing
(tablet, smartphone, etc.) y su integración a
Internet.
• Por otra parte, el análisis y modelación de
algunos fenómenos de la naturaleza
conlleva el uso intensivo de grandes
volúmenes de información. Novus Pardigma SRL ® 4
Introducción
• Las empresas e instituciones
gubernamentales han
incrementado los volúmenes
de información transaccional
en sus operaciones de negocios
y de aplicación de las políticas
publicas.
• Era de esperarse un
crecimiento extraordinario de
la información disponible en la
red y los sistemas
empresariales,
gubernamentales y personales
(overloading of information)…
Pero no tanto!!!.
Novus Pardigma SRL ® 5
Introducción
• El Modelo de Generación vs. Consumo de
información ha cambiado
Viejo Modelo: Pocas empresas generaran información y los demás consumen la
misma

Nuevo Modelo: Todos nosotros estamos generando información y todos la


estamos consumiendo

Novus Pardigma SRL ® 6


Introducción
• Internet esta Growth of Internet Users (millions)
creciendo a una tasa http://www.internetworldstats.com/emarketing.htm

3,000
promedio trimestral
de un 4% en 2,500

cantidad de usuarios 2,000

1,500

1,000

500

0
Dec, 1995
Dec, 1998
July, 2000
June, 2001
July, 2002
Sept, 2003
Feb, 2004
Dec, 2004
Sept, 2005
March, 2006
Dec, 2006
Sept, 2007
June, 2008
Mar, 2009
Dec, 2009
Mar, 2011
Dec, 2011
Sept, 2012
Novus Pardigma SRL ® 7
Introducción
• World Wide
Web : existen mas
de 186 millones de
websites de los
cuales mas de 74.4
millones son activos

Novus Pardigma SRL ® 8


Introducción
• Estudio realizado por Cisco en el 2011, con
proyección al 2016:
– la cantidad de tráfico de datos móviles crecerá a una tasa
anual de 78%,
– el número de dispositivos móviles conectados a Internet
excederá el número de habitantes en el planeta.
– La ONU proyecta que la población mundial alcanzará los
7.5 billones para el 2016
– de tal modo que habrá cerca de 18.9 billones de
dispositivos conectados a la red a escala mundial,
– esto conllevaría a que el tráfico global de datos móviles
alcance 10.8 Exabytes mensuales o 130 Exabytes anuales.

Novus Pardigma SRL ® 9


Introducción
• Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 =
1,000,000,000,000,000,000
• Este volumen de tráfico previsto
para 2016 equivale a 33 billones
de DVDs anuales u 813
cuatrillones de mensajes de
texto.
• Mucha de esta Información es de
gran utilidad para los negocios, el
gobierno y las personas.

Novus Pardigma SRL ® 10


Introducción
• Crecimiento de la
información a lo
interno de los países
y las organizaciones
– Ver estadísticas de medios de
pagos, tarjetas de crédito y
debito para RD (fuentes
BCRD, VISA Int.).
– Estadísticas de la seguridad
social (Fuente TSS).
– Estadísticas de
Comunicaciones (Fuente
INDOTEL). Impacto en: El gran cuestionamiento
• TELCOs
• Negocios y la economía
es: Como administrarla y
como explotarla?
Novus Pardigma SRL ® 11
Que es Big Data?
• En términos generales, es la tendencia en el avance
de las tecnologías de gestión de la información que
ha abierto las puertas hacia un nuevo paradigma de
organización de datos, entendimiento, análisis y
toma de decisiones.
• Es utilizada para procesar enormes cantidades de datos que
tomaría demasiado tiempo y sería muy costoso e ineficiente
cargarlos a una base de datos relacional tradicional, para su
tratamiento, análisis y descubrimiento de conocimiento útil.

Novus Pardigma SRL ® 12


Que es Big Data?
• Big data puede
generar valores
financieros y
sociales a través
de los diferentes
sectores
• Mediante la
obtención de
conocimientos del
comportamiento
de los clientes, los
ciudadanos y los
mercados

Novus Pardigma SRL ® 13


Proyectos R&D Big Data
• Proyecto WMAP de la NASA
– Mapeo del patrón de pequeñas
fluctuaciones en el fondo cósmico
de microondas (CMB), denominado
“El Eco del Big Bang”.
– Estima, entre otras cosas, la edad
del Universo
• El Earthscope de la NSF es el
proyecto de ciencia más grande
del mundo
– Diseñado para rastrear la evolución
geológica de América del Norte, y
realizar predicción sísmica
– registra datos de más de 3,8
millones de kilómetros cuadrados,
– acumulando 67 terabytes de datos
por periodo Novus Pardigma SRL ® 14
Proyectos R&D Big Data
• Lineberger
Comprehensive Cancer
Center - Bioinformatics
Group
– utiliza tecnología Hadoop y
Hbase
– analiza datos producidos por
los investigadores de The
Cancer Genome
Atlas(TCGA) para
investigaciones relacionadas
con el cáncer.
Novus Pardigma SRL ® 15
Proyectos R&D Big Data
• La Universidad de
Maryland colabora en la
iniciativa académica de
cómputo en la nube de
IBM/Google.
– Incluyen proyectos en
lingüística computacional
(machine translation) y
modelado del lenguaje,
– bioinformática,
– análisis de correo electrónico
y procesamiento de
imágenes.
Novus Pardigma SRL ® 16
Productos Basados en Big Data
• Shazam: para búsqueda
de contenido musical
• Waze: para enrutamiento
y guía de viajeros
• Big Data Solutions:
aplicaciones de promoción
publicitaria de marcas por
medios digitales,
smartphones, TV, etc.

Novus Pardigma SRL ® 17


Las Tres V’s de Big Data
• Big data es data que excede la capacidad de
procesamiento y almacenamiento de los sistemas y
bases de datos convencionales usada para el análisis y
predicción .
• Los datos son demasiado voluminosos, muy variados y
se mueven demasiado rápidos.
• Para obtener valor de negocios y social de esta data, se
debe elegir una alternativa tecnológica para:
– almacenarla,
– accederla,
– distribuirla y
– analizarla.

Novus Pardigma SRL ® 18


Las Tres V’s de Big Data

Novus Pardigma SRL ® 19


Las Tres V’s de Big Data
• La velocidad de ocurrencia es demasiado rápida para
lograr obtener la información correcta en el momento
preciso.
• Se generan Volúmenes Exponenciales de Información.

Novus Pardigma SRL ® 20


Variedad de Información: Tipos de Datos
• Además del gran volumen y la velocidad de la
información, ésta existe en una gran variedad de
formas y fuentes que pueden ser representadas y
almacenadas de diversas maneras.
Estructurados
• los sistemas transaccionales
tradicionales, como son los sistemas
de pagos, CRM, ERP, etc.
Semi estructurados
Email, dispositivos móviles, sistemas GPS,
No-estruturados
– audio, video, chat, forum, etc.
– incontables sensores digitales en
equipos industriales, automóviles,
medidores eléctricos, veletas,
anemómetros, etc. Novus Pardigma SRL ® 21
Variedad de Información: Tipos de Datos

Novus Pardigma SRL ® 22


Variedad de Información: Complejidad

• La
complejidad
de la
información
se incrementa
con el tipo, el
volumen y la
variedad de
datos

Novus Pardigma SRL ® 24


Variedad de Información: Complejidad
• ¿Qué tipos de datos debo explorar?
– ¿Que tan suficiente es la información de manera
que sea elegible para ser procesada y analizada
utilizando Big Data?
– El cuestionamiento debería estar enfocado hacia:
¿qué problema es el que se está tratando de
resolver?.
– La escala, el tipo de información y las
herramientas tecnológicas a ser usadas dependen
de la respuesta a lo anterior.

Novus Pardigma SRL ® 25


Retos: Privacidad vs. Accesibilidad
• Las empresas de servicios de
datos, transaccionales,
ecommerce y social media se
han convertido en grandes
concentradores de
información.
• De quien es la información,
del negocio o del
cliente/ciudadano?
– El problema “Total
Information Awareness
(TIA)”, “Sigint Enabling
Project”, Snowden y la NSA
Novus Pardigma SRL ® 26
Tecnologías de Big Data
Dos tipos de
Tecnologías de Tecnologias
Big Data: BIG DATA
• Fast data:
Organización, acceso
y distribución de
datos; Hadoop,
Cassandra
• Big Analytics:
Fast Data Big Analytics
Análisis y
descubrimiento de
conocimiento; Data
Mining, Computational
Intelligence, Pattern
Recognition, Visual
Computer

Novus Pardigma SRL ® 27


Novus Pardigma SRL ® 28
FastData: Tecnologías para la organización,
acceso y distribución de datos
• Plataforma de código
abierto Apache Hadoop.
– Hadoop está inspirado en
el proyecto de Google File
System (GFS) y en el
paradigma de
programación MapReduce
basado en Java.
– Hadoop está compuesto
de tres piezas:
• Hadoop Distributed File
System (HDFS),
• Hadoop MapReduce y
• Hbase
http://hadoop.apache.org/

Novus Pardigma SRL ® 29


FastData: Tecnologías para la organización,
acceso y distribución de datos
• Plataforma Apache
Hadoop, NoSQL
systems:
– HDFS y Hbase: Es
distribuida en nodos de la
red, llamados bloques de
datos, de proceso
paralelo
– Primer proceso Map:
acceso directo a los nodos
o bloques de datos
– Reduce: hace
combinación de datos
mediante claves o
tuplas (pares de
Novus Pardigma SRL ® 30
llave/valor)
Tecnologías para el análisis y
descubrimiento de conocimiento
• Machine Learning and Pattern
Recognition
Se refiere al diseño y desarrollo
de algoritmos que permiten a
las máquinas mejorar su
rendimiento en el tiempo (para
aprender), basado en datos,
tales como los datos de
sensores o bases de datos y
mediante patrones de
reconocimiento.

Novus Pardigma SRL ® 31


Tecnologías para el análisis y
descubrimiento de conocimiento
• Computational
Intelligence:
– Es el estudio y las aplicaciones
computacionales de los
mecanismos de adaptación en
sistemas complejos.
• Visual Analytics:
– Combina las fortalezas de la
visualización gráfica computacional
con el poder de la inteligencia
analítica y el descubrimiento de
conocimiento en ambientes Big
Data.
Novus Pardigma SRL ® 32
Tecnologías de Big Data
Growth of Internet Users (millions)
http://www.internetworldstats.com/em
Computational arketing.htm

3,000
Intelligence, 2,000
1,000
0
Machine Learning

March,…
Dec, 1995
Dec, 2000

Dec, 2004
June, 2006
Mar, 2008
Dec, 2009
Mar, 2012
and Visual Analytics,
Aplicaciones:
• Network Analysis
• Sentiment
Analysis
• Computer and
network
surveillance
Novus Pardigma SRL ® 33
Tecnologías para el análisis y
descubrimiento de conocimiento
• Data Mining?
Es el proceso computacional de descubrir patrones
en grandes conjuntos de datos (Big Data) aplicando
algoritmos de machine learning y modelos
estadísticos multivariados.
– El objetivo consiste en
extraer conocimiento
oculto y transformarlo
en una estructura
analítica comprensible
para su aplicación a los
negocios.
Novus Pardigma SRL ® 34
Ejemplo App Big Data en RD:
DMRiSc
• DMRisc es un modelo y sistema de gestión y predicción de riesgos de
clientes y portafolio de asegurados de una empresa aseguradora (ARS,
Vehículos, etc.)
– basado en teoría estadística de riesgos actuariales y minería de datos
– clasifica el portafolio por medio de un índice o score de siniestralidad
– realizar análisis y predicciones de su comportamiento en respuesta a
las cuestiones claves del negocio.

Novus Pardigma SRL ® 35


Componentes de DMRiSc

Generador RISC
Siniestralidad

Analisis de
Comportamien Prediccion de
to de RISC RISCore

Generador Modelo
Predictor DM
Siniestralidad

Novus Pardigma SRL ® 36


Generador Predictor DMRiSc
• Se basa en la aplicación de algoritmos de aprendizaje predictivos de
Minería de Datos para la creación de modelos que permiten realizar la
estimación de riesgo de siniestralidad de potenciales afiliados del seguro
(nuevos o traspasos), a partir de los datos históricos de las reclamacioness
(frecuencia y montos).

– El algoritmo
predictivo se
selecciona a partir
de la prueba de
precisión arrojada
por SPSS Modeler:
– Los mas usados son:
• Regresión logística
• Redes bayesianas
• SVM
• C5 y CHAID
Novus Pardigma SRL ® 37
Generador Predictor DMRiSc
• El proceso de aprendizaje y predicción está
basado en los factores explicativos demográficos,
de comportamiento y técnicos de cada póliza
que determinan el RISCore.
Se seleccionan de
acuerdo a su nivel de
significación, basados en
índices de correlación y
pruebas de hipótesis
estadísticas realizadas
mediante SPSS Modeler
y SPSS Statistics. Novus Pardigma SRL ® 38
Como Aprende y Predice DMRiSc
Learning
Algorithms
BD
Portafolio

Generador
Inducción Predictor DM
Siniestralidad
Data de entrenamiento RisScore
DM Model

BD Prediccion
Deducción
Portafolio de RISCore

Clasificación

Novus Pardigma SRL ® 39


Datos potenciales Pólizas
Análisis de Comportamiento DMRiSc
• Análisis de Desviación y Reentrenamiento del Modelo
– RISC y RiScore pueden ser analizados al final del ciclo de negocios para
medir el comportamiento de los asegurados y las predicciones de riesgo de
nuevas pólizas vs. el resultado del riesgo observado, produciendo alertas
de desviaciones y esquemas de revalorización de riesgo.
– Al final del periodo se procede o no a reentrenar el modelo a partir de las
pruebas de significación de los resultados de las desviaciones.

Analisis de BD
Desviacion Portafolio
RISC

Novus Pardigma SRL ® 40


Análisis de Comportamiento DMRiSc
• Análisis RiScore vs. Factores Explicativos:
– Con el objetivo de aplicar políticas y planes de
mercadeo en la cartera actual y potencial
• Estos factores pueden ser extendidos a:
• Tipo de plan de salud
• Tipo de servicio de salud
• Tipo de PSS
• Tipo de afiliado
Creando relaciones múltiples entre ellos,
agrupación y segmentación

Novus Pardigma SRL ® 41


Bibliografía
Gracias
• Mis contactos

– renatogonzalez2000@novusparadigma.com
– Tel. 809 566 6353
– Cel. 809 383 8090

Novus Pardigma SRL ® 43


View publication stats

Potrebbero piacerti anche