Sei sulla pagina 1di 15

www.pwc.

com/ve

Lagos de Datos Empresariales:


Como lograr una mayor integracin y
un mejor anlisis de nuestros datos
Boletn de
Servicios
de Asesora en
Riesgos
No. 1 - 2015

 Inicio

Boletn de Servicios de Asesora en Riesgos - No. 1 - 2015


Contenido

Contenido
Haga click en los enlaces para navegar a travs del documento
4 Lagos de Datos: Un enfoque emergente
4 Por qu un lago de datos?
4 Factores de motivacin detrs de la adopcin
de lagos de datos
4 Flujo de datos en el Lago de Datos
4 Cmo madura un lago de datos?
4 Madurez y Gobernabilidad
4 Lecciones iniciales aprendidas y obstculos a
evitar
4 Referencias
4 Crditos / Suscribirse

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

No. 1 - 2015
Contenido

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Lagos de Datos:
Un enfoque emergente
Los lagos de datos son un enfoque emergente
y poderoso para abordar el desafo que
presenta la integracin de datos, a medida
que las empresas aumentan su exposicin a
las aplicaciones mviles, a las aplicaciones
basadas en la nube, al Internet of things, y a
otros aspectos de lo que PwC llama La nueva
plataforma de TI. 1
Un ejemplo de implementacin de lagos
de datos es el de un hospital en los Estados
Unidos que mantiene millones de registros, de
ms de un milln de pacientes, que incluyen
imgenes de radiologa y otros reportes
semiestructurados, notas no estructuradas de
los mdicos, as como amplios volmenes de
datos en hojas de clculo. Para abordar el reto
que represent el almacenamiento, integracin
y accesibilidad de estos datos, el hospital cre
un lago de datos basado en la arquitectura
Hadoop2, la cual permite el procesamiento
distribuido de big data haciendo uso de
estndares de software abierto ampliamente
aceptados, as como procesamiento

masivamente paralelo, utilizando hardware


comercial genrico o estndar3. En la Figura 1 se

presenta una visin grfica de lo que es un lago


de datos.

Qu es un lago de datos?
Es un repositorio de grandes cantidades y variedades de datos, tanto estructurados como no estructurados
Los generalistas y
programadores de datos
pueden acceder el flujo
de datos para realizar
anlisis en tiempo real

Cientficos de datos utilizan el


lago para el descubrimiento y la
generacin de ideas

El lago puede servir como un rea


de montaje para el data warehouse,
la locacin para datos tratados ms
cuidadosamente para reporte y
anlisis por lote

El lago de datos acepta entradas


desde varias fuentes y puede
preservar tanto la fidelidad como
la procedencia de las transformaciones de datos. Los modelos
de datos emergen con el uso a lo
largo del tiempo, en lugar de ser
impuestos desde el inicio
Los lagos de datos usan tcnicas de cluster computing para el almacenamiento
masivamente escalable, de bajo costo de archivos de data de cualquier formato
Figura 1: Visin grfica de un lago de datos

No. 1 - 2015
Contenido

Cerrar

Pgina
anterior

Imprimir

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Lagos de Datos:
Un enfoque emergente (cont.)
hacerlo en caso de utilizar un data warehouse
En el caso citado, Hadoop permite que los
ejemplo de una arquitectura Hadoop bsica para
diversos registros del hospital sean almacenados relacional5. En la figura 2 se presenta un
una infraestructura de lago de datos escalable.
en sus formatos nativos para su posterior
anlisis, en lugar de forzar una integracin
Arquitectura bsica Hadoop para infraestructura escalable de lago de datos
todo o nada desde un inicio, como sera el
caso al hacer uso de un data warehouse. El
Sistema de Archivo Distribuido (HDFS)
preservar el formato nativo tambin ayuda a
mantener la procedencia y la fidelidad de los
Con YARN , ahora
Haddood almacena
Haadop soporta
datos, de forma que puedan ser realizados
Archivo
Archivo
y preserva los datos
varios modelos de
de entrada
de salida
en cualquier
programacin, as
diferentes anlisis utilizando diferentes
formato a lo largo
como salidas por
de
un
cluster
de
lote casi en
contextos.
6

servidores estndar

El lago de datos ha hecho viable diferentes tipos


de proyectos de anlisis de datos, incluyendo la
posibilidad de predecir la probabilidad de que
ocurran readmisiones de pacientes, permitiendo
a su vez tomar acciones que permitan
prevenirlas4.
Tal como el hospital, diversas empresas en
diversos sectores estn comenzando a extraer y
colocar datos para su anlisis en un repositorio
nico basado en Hadoop, sin necesidad de
transformar los datos, como tendran que

tiempo real

Tarea Mapa
El sistema separa
los trabajos,
distribuye procesos
y los recombina a
travs de un cluster
que puede escalar
a miles de nodos
de servidores

Split 1

Entrada

Split 2
Split 3
Split 4

Entrada
Mapear( )
Particionar( )
Combinar( )

Split 5

Job tracker

Tarea reducida

Ordenar( )
Reducir( )

Regin 1
Regin 2

Salida

Regin 3

Figura 2: Ejemplo de arquitectura Hadoop. Fuente: Electronic Design, 2012, y Hortonworks, 2014

No. 1 - 2015
Contenido

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Lagos de Datos:
Un enfoque emergente (cont.)
El concepto bsico que soporta Hadoop
fue ideado por Google para cubrir sus
necesidades de un modelo flexible
y efectivo, en trminos de costo, de
procesamiento de datos que pudiese escalar
a medida que los volmenes de datos
crecan ms rpido que nunca.
Yahoo, Facebook, Netflix, y otros cuyos
modelos de negocio tambin estn basados
en gestionar enormes volmenes de datos,
rpidamente adoptaron mtodos similares.
Un factor importante para su adopcin fue
los ahorros en trminos de costos, dado
que Hadoop puede ser entre 10 y 100 veces
menos costoso que desplegar cualquiera de
los data warehouses tradicionales.
Sin embargo, otro factor que impuls su
adopcin ha sido la oportunidad de aplazar
las actividades de depuracin de datos y

Por qu un lago de datos?


el desarrollo de esquemas de datos (que
por lo general demandan un alto grado
de esfuerzo) hasta que la organizacin
haya identificado una clara necesidad
de negocio. A su vez, los lagos de datos
son ms convenientes para los datos
menos estructurados que estas compaas
necesitaban procesar.
Hoy en da, las empresas en todos los
sectores se encuentran en un punto similar
de necesidad; por ejemplo, las empresas
que deben utilizar enormes volmenes
y mltiples variedades de datos para
responder a las presiones regulatorias y
competitivas estn adoptando lagos de
datos.

Los lagos de datos pueden ayudar a resolver


el problema persistente de la accesibilidad
y la integracin de datos. Usando
infraestructuras de big data, las empresas
estn empezando a agrupar crecientes
volmenes de datos para su anlisis o
simplemente para almacenarlos para su
uso futuro indeterminado. (Ver en pgina
siguiente el recuadro Definiendo a los
Lagos de datos).
Enfoques previos para una amplia
integracin de datos han forzado a todos
los usuarios a un esquema predeterminado
comn, o modelo de datos. A diferencia
de esta visin monoltica de un modelo
de datos nico a lo largo de la empresa, el
lago de datos flexibiliza la estandarizacin
y aplaza el modelado, resultando en
un potencial casi ilimitado para el
descubrimiento de datos y la comprensin
operacional.

No. 1 - 2015
Contenido

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Por qu un lago de datos? (cont.)
Definiendo a Lagos de datos
Muchas personas han escuchado nombrar los lagos

de datos, pero al igual que el trmino big data, las


diversas definiciones varan. Los cuatro criterios que se
mencionan a continuacin son vitales para una buena
definicin:
Tamao y bajo costo: Los lagos de datos
son grandes. Pero no son solo grandes, sino
econmicos; pueden ser un orden de magnitud
menos caros de configurar y mantener que un
data warehouse, medidos terabyte a terabyte. Con
Hadoop, volmenes de datos a escala de petabytes
no son ni costosos ni complicados de construir
y mantener. Algunos proveedores que abogan
por el uso de Hadoop afirman que el costo por
terabyte para data warehouses puede llegar a ser
de 250.000 dlares americanos, versus entre 2500
y 1000 dlares americanos con un clster Hadoop.
Otros proveedores que abogan por el uso de data
warehouses e infraestructuras de almacenamiento
tradicionales, disputan estas afirmaciones y hacen
una distincin entre el costo de almacenar terabytes
de datos y el costo de escribir, o de terabytes escritos*

Fidelidad: Los lagos de datos basados en Hadoop


preservan los datos en su formato original y
capturan los cambios que se hagan a los datos y a la
semntica contextual a lo largo del ciclo de vida de
los datos. Este enfoque es especialmente til para
temas de cumplimiento y de auditora interna. Si
los datos han sufrido transformaciones, adiciones
y actualizaciones, la mayora de las organizaciones
generalmente sufrirn para organizar los datos
cuando la necesidad surja y tendrn poca esperanza
de determinar claramente su origen.
Facilidad de acceso: La accesibilidad es simple
en los lagos de datos, lo cual es uno de los beneficios
de preservar los datos en su formato original. Ya sea
que se trate de datos estructurados, no estructurados
o semi estructurados, stos son cargados y
almacenados tal como son, para ser transformados
posteriormente. Datos operativos, de cliente y/o
de proveedores son consolidados por los dueos
de los datos sin mayor esfuerzo, lo cual elimina
barreras internas tecnolgicas, e incluso polticas,
incrementando la capacidad de compartir los datos.

Pre-requisitos tradicionales, como el conocer


los requerimientos detallados del negocio o
desarrollar un modelado de datos minuciosos no
son pre-requeridos bajo este enfoque.
Enlace tardo: Hadoop se presta a la
estructuracin flexible y orientada a la tarea y no
requiere de modelos de datos por adelantado

Para ms informacin con relacin a la accesibilidad


de los datos, costo de lagos de datos y refinamiento
de metadatos, incluyendo tecnologa de seguimiento
de la procedencia de los datos, ver la entrevista a Mike
Lang, Haciendo Hadoop viable para la ciencia de datos
empresarial en www.pwc.com/technologyforecast/mikelang. Para ms informacin con relacin a la estimacin
de costos ver: Loraine Lawson, Cul es el costo de un
Terabyte? ITBusinessEdge, Mayo 17, 2013, en http://
www.itbusinessedge.com/blogs/integration/whats-thecost-of-a-terabyte.html.

No. 1 - 2015
Contenido

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Por qu un lago de datos? (cont.)
A medida que los volmenes de datos,
variedad de datos y riqueza de los
metadatos crece, de la misma forma crece
el beneficio que se puede obtener.
Actualmente, las compaas son capaces de
crear colaborativamente modelos o vistas
de los datos y luego gestionar mejoras
incrementales a los metadatos. Estos datos,
y sus metadatos, son colocados en HDFS, el
cual almacena partes de archivos a lo largo
de un clster distribuido de servidores en la
nube, donde stos son accesibles y pueden
ser refinados colaborativamente.
Los anlisis extrados de los lagos se
vuelven cada vez ms valiosos a medida
que los metadatos que describen diferentes
vistas de los datos se acumulan.
Cada industria tiene un caso de uso
potencial para los lagos de datos. Un

lago de dato puede ser una va para


obtener mayor visibilidad o poner fin a los
denominados silos de datos (datos que se
mantienen aislados de otras reas de la
organizacin). Numerosas compaas ven
los lagos de datos como una oportunidad
de capturar una vista de 360 grados de sus
clientes o de analizar tendencias de medios
sociales.
En la industria de servicios financieros,
donde la regulacin Dodd-Frank7 es
relevante, una institucin ha empezado
a centralizar mltiples data warehouses
en una repositorio comparable a un lago
de datos, pero que est estandarizado
utilizando XML.
Esta institucin est moviendo
reconciliaciones, acuerdos y reportes
Dodd-Frank a esta nueva plataforma. Para
este caso, este enfoque reduce los gastos

generales de integracin debido a que los


datos son comunicados y almacenados en
un formato estndar, pero a la vez flexible,
adecuado para datos menos estructurados.
El sistema a su vez provee una vista
consistente de los clientes a lo largo de las
funciones operativas, funciones de negocio
y productos. Algunas compaas han
construido entornos limitados o sandboxes
de big data para su anlisis por parte de
cientficos de datos. Estos sandboxes son,
de cierta forma, similares a lagos de datos,
aunque ms limitados en su alcance y
propsito.
PwC, por ejemplo, construy un sandbox
de medios sociales para ayudar a clientes a
monitorear la salud de su marca mediante
su aplicacin SocialMind8.

No. 1 - 2015
Contenido

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Factores de motivacin detrs de la
adopcin de lagos de datos
Los data warehouses relacionales y sus
rangos de precio ms alto, han dominado
por largo tiempo las actividades de anlisis
complejo, reporte y operaciones de datos.
(El hospital descrito anteriormente, por
ejemplo, primero implement un data
warehouse).
Sin embargo, sus modelos de datos poco
giles y la rigidez de sus esquemas de
integracin no son adecuados para soportar
altos volmenes y variedad de big data. La
gran mayora de estos sistemas tambin
hacen al usuario de negocio dependiente
de TI incluso para las ms pequeas
mejoras que se puedan querer realizar,
sobre todo por su diseo poco elstico, por
la complejidad del sistema y por la baja
tolerancia al error humano. El enfoque del
lago de datos evita estos problemas.

Libertad de los grilletes que representa


tener un gran y nico modelo de datos
La primera actividad a realizar en un
proyecto de lago de datos es el de compilar
todos los datos en un nico repositorio, a
la vez que se le brinda la mnima atencin
a crear esquemas que definan puntos de
integracin entre sets de datos dispares. Este
enfoque facilita el acceso, sin embargo, el
trabajo requerido para convertir esos datos
en informacin procesable es un desafo
substancial. Aun cuando la integracin de
los datos se realiza en la capa de Hadoop, la
contextualizacin de los metadatos se realiza
al momento de crear los esquemas de datos.
El integrar los datos involucra menos pasos
dado que los lagos de datos no promueven
un esquema de metadatos rgido, como si lo
requieren los data warehouses relacionales.

En su lugar, los lagos de datos soportan


un concepto conocido como enlace tardo
o esquema al leer, en el cual los usuarios
construyen esquemas personalizados en
sus consultas. Los datos estn atados a un
esquema dinmico creado al momento de la
ejecucin de la consulta.
El principio de enlace tardo transforma el
proceso de modelado de datos, pasando de
equipos y administradores centralizados de
bases de datos y data warehouses, quienes
generalmente se encuentran en una locacin
distinta a donde se encuentran las fuentes
de los datos, a equipos locales de analistas
de negocio y cientficos de datos, quienes
pueden ayudar a crear contextos flexibles,
especficos para cada dominio en particular.

No. 1 - 2015
Contenido

Boletn de Servicios de Asesora en Riesgos

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Factores de motivacin detrs de la
adopcin de lagos de datos (cont.)
Para aquellos acostumbrados a SQL, este
cambio abre todo un nuevo mundo de
posibilidades. En este enfoque, mientras
ms se conozca sobre los metadatos, es ms
sencillo el realizar las consultas.
Los datos pre-etiquetados ofrecen un
punto de partida y son muy tiles en
implementaciones con poca variedad
de datos. En la mayora de los casos,
sin embargo, los datos pre-etiquetados
representan una pequea porcin de los
formatos de datos entrantes.

No. 1 - 2015
Cerrar

Contenido

Imprimir

Pgina
anterior

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Flujo de datos en el Lago de Datos
El lago de datos carga los extractos de datos,
independientemente de su formato, en
un gran almacn de datos. Los metadatos
son desasociados de sus datos subyacentes
y almacenados independientemente,
ofreciendo flexibilidad para mltiples
perspectivas de usuarios finales y un
desarrollo incremental del nivel de madurez
de la semntica.
En la figura 3 se presenta una descripcin
grfica del flujo de datos en el lago de datos.

Flujo de datos en el lago de datos


El lago de datos ofrece una oportunidad nica
para obtener perspectivas de big data flexibles,
evolutivas y maduras

Analistas de datos y
de negocios
seleccionan y reportan
datos de dominios
especficos

Metadatos crecen y maduran a


travs del tiempo, gracias a la
interaccin de los usuarios

Etiquetados, sinnimos, vinculacin


Usuarios colaboran para identificar, organizar y
dar sentido a los datos en el lago de datos
Etiquetado y vinculacin de metadatos

Extractos
de datos
ascendentes

Un repositorio de big data


XML
almacena los datos originales
.xls
cargando los datos existentes y
aceptando nueva informacin
etc.
regularmente

Cientficos de datos y
de negocios
seleccionan y reportan
sobre datos de
dominios especficos

Mquinas ayudan a
descubrir patrones y a
crear vistas de datos

Nuevos datos ingresan al lago

Nuevas acciones (i.e. campaas a


clientes) basadas en la
informacin obtenida de los datos

Anlisis de datos entre dominios

Figura 3: Descripcin grfica del flujo de datos en un lago de datos

No. 1 - 2015
Contenido

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Cmo madura
un lago de datos?
La incorporacin de nuevos datos en el lago
de datos puede ocurrir gradualmente y no
tendr un impacto en modelos existentes.
El lago inicia con datos en bruto, y va
madurando a medida que ms datos
ingresan, a medida que los usuarios y
las mquinas construyen metadatos, y la
adopcin de los usuarios incrementa.
Los trminos ambiguos y que pudiesen
solaparse, eventualmente convergirn a un
entendimiento comn (eso es, semntica)
dentro y a lo largo de los dominios del
negocio. La madurez de los datos resulta
del crecimiento natural de la interaccin
y retroalimentacin de los usuarios,
en la capa de gestin de los metadatos
(interaccin que continuamente refina el
lago y mejora la discoveribilidad).

Madurez y Gobernabilidad
Con el lago de datos, los usuarios pueden
tomar aquello que les sea relevante y dejar
el resto. Dominios individuales del negocio
pueden madurar independientemente y
gradualmente. La clasificacin perfecta
de los datos no es requerida. Los usuarios
a lo largo de la empresa pueden obtener
informacin de todas las disciplinas, sin
estar limitados por silos organizacionales o
esquemas rgidos.

Muchas de las personas que escuchan el


trmino lago de datos, podran asociar el
concepto con un gran sandbox de datos,
pero el rango de los potenciales casos de
uso para lagos de datos es mucho ms
amplio. Las empresas visualizan depsitos
al estilo lago de datos, como reas de
montaje, como alternativas a los almacenes
de datos, o incluso como centros de datos
operacionales, asumiendo las tecnologas y
casos de uso apropiados.
Un componente clave es Hadoop, as como
muchas de las tecnologas de anlisis de
datos asociadas con l. Lo que comenz
como un medio de anlisis por lotes
ad hoc en Hadoop y MapReduce, est
evolucionando rpidamente con la ayuda
de YARN y Storm9 para ofrecer analticas
distribuidas de propsito general, as como
capacidades de procesamiento en tiempo
real.

No. 1 - 2015
Contenido

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Madurez y Gobernabilidad (cont.)
Al menos un proveedor ha estado ejecutando
un clster Hadoop de ms de 2.000 nodos
para soportar las aplicaciones de anlisis de
comportamiento de 8 clientes10.
A pesar de estos avances, las empresas an
siguen preocupadas con el riesgo que existe
alrededor de la implementacin de lagos de
datos, especialmente en esta etapa inicial
de desarrollo. Cmo pueden las empresas
mitigar el riesgo y gestionar un lago basado
en Hadoop para exploraciones de amplio
rango?
Los lagos pueden proveer beneficios
nicos con respecto a los mtodos de
gestin de datos tradicionales a un costo
substancialmente ms bajo, pero requieren
de muchas consideraciones prcticas y
un enfoque reflexivo con respecto a la
gobernabilidad, particularmente en sectores
altamente regulados.

Las reas a considerar incluyen:


Complejidad de datos heredados:
Muchos sistemas heredados contienen
un amasijo de parches de seguridad,
workarounds y diseo deficiente. Como
resultado, los datos en bruto podran
proveer un valor limitado fuera de su
contexto heredado. El lago de datos
funciona ptimamente cuando es
alimentado con datos inalterados desde
sistemas fuente, y luego complementado
con metadatos.
Gestin de metadatos: Los lagos de datos
requieren de una avanzada gestin de
metadatos, incluyendo caracterizaciones
de archivos de datos, anlisis asistidos
por computadoras y seguimiento de
la procedencia de los datos para cada
transformacin. La definicin del
esquema de datos al momento de la
lectura debera ser la regla, y los esquemas
predefinidos la excepcin? Depende de

las fuentes. El primer caso es ideal para


trabajar con estructuras de datos que
cambian rpidamente, mientras que el
ltimo es mejor para dar respuesta, en
fracciones de segundos, a consultas sobre
datos altamente estructurados.
Madurez del lago:
Los cientficos de datos tomarn la
delantera en el uso y maduracin de los
lagos de datos. Las organizaciones podrn
incorporar las necesidades de otros que se
podran beneficiar tambin de la iniciativa
dentro del contexto de los procesos
organizacionales, sistemas y controles
existentes.
reas de montaje o zona bfer:
El lago puede servir como un lugar
efectivo en trminos de costos para colocar
datos y realizar anlisis previos que
pudiesen ser prohibitivamente costosos
de analizar en data warehouses u otros
sistemas.

No. 1 - 2015
Contenido

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Boletn de Servicios de Asesora en Riesgos

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Lecciones iniciales aprendidas y
obstculos a evitar
Algunas iniciativas de lagos de datos no han
sido exitosas, produciendo en su lugar ms
silos o sandboxes vacos. Dado este riesgo,
las empresas estn abordndolo con mucha
precaucin. Vemos a nuestros clientes
crear cementerios de big data, colocando
todos sus datos en HDFS con la esperanza
de lograr algo eventualmente. Pero luego
simplemente pierden la pista de lo que han
colocado ah dice Sean Martin, CTO de
Cambridge Semantics, un proveedor de
herramientas de gestin de datos.

lograr cambios significativos como Hadoop


y las bases de datos de tipo NoSQL (No slo
SQL, por sus siglas en ingls) especialmente
cuando pueden habilitar un repositorio
nico, para toda la empresa, y proveer
acceso a datos que anteriormente se
encontraban atrapados en silos. El mayor
reto no es crear un lago de datos per se, sino
el tomar ventaja de las oportunidades que
presenta. Un medio para crear, enriquecer
y gestionar metadatos semnticos de forma
incremental es esencial.

Las Compaas pueden evitar la creacin


de cementerios de big data mediante el
desarrollo y ejecucin de un slido plan
estratgico que aplique la tecnologa y
mtodos adecuados al problema.

Como se ha observado a lo largo de este


boletn, las empresas cada vez ms se
podrn beneficiar de la capacidad de
integrar cualquier dato, desde cualquier
fuente, en cualquier formato, a cualquier
momento. Un aspecto clave de este
proceso, generalmente delegado a las
organizaciones de TI, es que sea realizado

Pocas soluciones tecnolgicas en tiempos


recientes han tenido tanto potencial de

manteniendo la seguridad de los datos pero


a su vez facilitando el acceso a personal clave
con una reducida dependencia de TI.
PwC puede ayudar a las organizaciones a
definir estrategias de integracin y hojas
de rutas bien definidas, as como una
arquitectura de integracin segura que
permita que el ecosistema de la Compaa
pueda manejar tecnologas nuevas y
emergentes junto con tecnologas ya
establecidas, mientras integra de forma
segura y transparente servicios soportados
localmente y servicios ubicados en la nube.
PwC a su vez puede apoyar en la evaluacin
del modelo de seguridad requerido para
soportar esta arquitectura, as como en el
mejoramiento del control interno apoyado
por procesos ms eficientes, ms accesibles y
ms seguros.

No. 1 - 2015
Contenido

Boletn de Servicios de Asesora en Riesgos

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Lagos de Datos Empresariales: Mayor integracin y mejor anlisis de nuestros datos


Referencias
1

Para ms informacin, ver: http://www.pwc.com/us/en/


increasing-it-effectiveness/new-it-platform.jhtml

Apache Hadoop es una coleccin de tecnologa de


estndar abierto que permiten a los usuarios almacenar
y procesar datos de dimensiones petabyte a travs de
clsteres de computadores comerciales en la nube.
Para ms informacin, ver Making sense of Big Data,
PwC Technology Forecast 2010, Issue 3 en http://www.
pwc.com/us/en/technology-forecast/2010/issue3/
index.jhtml.

Para ms informacin sobre procesamiento


masivamente paralelo utilizando hardware estndar,
ver: http://www.sandia.gov/~rbbrigh/papers/cplantjournal.pdf

4 UC Irvine Health does Hadoop, Hortonworks, http://


hortonworks.com/customer/uc-irvine-health/.
5 The end of data standardization, Marzo 20, 2014,
http://usblogs.pwc.com/emerging-technology/the-endof-datastandardization/
6 YARN es el centro arquitectnico de Hadoop que
permite a motores de procesamiento de mltiples
datos, como SQL interactivo, el poder manejar datos
almacenados en una nica plataforma, permitiendo
todo un nuevo enfoque para la analtica, http://
hortonworks.com/hadoop/yarn/

Ley de Reforma de Wall Street y Proteccin al


Consumidor Dodd-Frank. Para ms detalle, ver: http://
www.banking.senate.gov/public/_files/070110_Dodd_
Frank_Wall_Street_Reform_comprehensive_summary_
Final.pdf

Para ms informacin de SocialMind y de otras


aplicaciones de anlisis que PwC ofrece, ver http://
www.pwc.com/us/en/analytics/analytics-applications.
jhtml

Storm es un sistema de computacin en tiempo real


distribuido que es utilizado para procesar grandes
volmenes de datos a gran velocidad. Ms informacin
en: http://hortonworks.com/hadoop/storm/

10 Timothy Prickett Morgan, Cluster Sizes Reveal Hadoop


MaturityCurve, Enterprise Tech: Systems Edition,
8 de Noviembre, 2013. http://www.enterprisetech.
com/2013/11/08/cluster-sizesreveal-hadoop-maturitycurve/

No. 1 - 2015
Contenido

Cerrar

Imprimir

Pgina
anterior

Pgina
siguiente

Crditos
Contactos de este boletn:
Gustavo Pulgar
gustavo.a.pulgar@ve.pwc.com
+58 (241) 824 23 21
ve.linkedin.com/in/gpulgar

Jos Miguel Chirinos


jose.chirinos@ve.pwc.com
+58 (212) 700 62 46

Para suscribirse al Boletn


Consultora

Sganos en

@PwC_Venezuela

pwcVenezuela

pwc-Venezuela

pwcvenezuela

Editado por Espieira, Pacheco y Asociados


Telfono master: (58-212) 700 6666

Este boletn es de carcter informativo y no expresa opinin de la Firma. Si bien se han tomado todas las precauciones del caso en la preparacin de este material, Espieira, Pacheco y Asociados no asume ninguna
responsabilidad por errores u omisiones; tampoco asume ninguna responsabilidad por daos y perjuicios resultantes del uso de la informacin contenida en el presente documento. Las marcas mencionadas son propiedad de
sus respectivos dueos. PwC niega cualquier derecho sobre estas marcas
2015. Espieira, Pacheco y Asociados (PricewaterhouseCoopers). Todos los derechos reservados. PwC se refiere a la firma venezolana Espieira, Pacheco y Asociados (PricewaterhouseCoopers) y en ocasiones podra
referirse a la red de firmas miembro de PwC. Cada firma miembro es una entidad legal separada. Para ms detalles visite www.pwc.com/ve R.I.F.: J-00029977-3

Potrebbero piacerti anche