Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Resumen
Hadoop es una herramienta utilizada actualmente por companas y desarrolladores para el manejo de BigData. Big Data
representa un conjunto de datos enormes, que pueden ser
manejados mediante un clster. El manejo de este tipo de
datos grandes, permite su anlisis y entendimiento. En este
paper se abordarn los temas correspondientes a la relacin
entre Hadoop + BigData + manejo de imgenes. Index Terms
Palabras clave: Hadoop, BigData, imgenes, clster.
Abstract
Hadoop is a tool currently used by companies and developers to manage BigData. Big Data represents an enormous
set of data that can be handled by a cluster. The handling
of such large data enables analysis and understanding. In this
paper relevant to the relationship between Hadoop + BigData
+ image management issues will be addressed.
Keywords: Hadoop, BigData, images, cluster.
I. O BJETIVOS
A. Objetivo General
B. Objetivos Especificos
II. I NTRODUCCIN
Lejos de toda duda, vivimos en la era de la informacin,
las empresas tienen un gran desconocimiento sobre lo que
significa Big Data; Las Empresas no saben cmo administrar
grandes volmenes de datos e informacin almacenada en
diferentes medios o bases de datos, llegando a ser de gran
importancia. El aumento de informacin electrnica en el
mundo pone en peligro nuestra capacidad de procesar la
misma.
Los datos tradicionales y el procesamiento de la informacin
se revelan como procedimientos insuficientes para a hacer
frente a este fenmeno.
A. BigData
Para presentar algunas definiciones sobre el trmino Big
Data, del cual existen innumerables definiciones, entre ellas
se tienen:
Segn Norberto Figuerola en su libro Que hay detras de
big data[1], el trmino aplica a la informacin que no puede
ser procesada o analizada mediante procesos tradicionales.
Para [2], Big Data son cantidades masivas de datos que se
acumulan con el tiempo que son difciles de analizar y manejar utilizando herramientas comunes de gestin de bases de
datos, y para [3], Big Data se refiere al tratamiento y anlisis
de enormes repositorios de datos, tan desproporcionadamente
grandes que resulta imposible tratarlos con las herramientas
de bases de datos y analticas convencionales.
Por su parte, el analista Dan Kusnetzky, del Grupo Kusnetzky, seala que La frase Big Data se refiere a las herramientas, procesos y procedimientos que permitan a una organizacin crear, manipular y administrar grandes conjuntos de
datos e instalaciones de almacenamiento [4]. En Big Data El
Rastro Digital De Nuestros Clientes (J. Giner) [5],Forrester
define Big Data como las tcnicas y tecnologas que hacen que
sea econmico hacer frente a los datos a una escala extrema.
Big Data trata basicamente de 1) Las tcnicas y la tecnologa.
Por ejemplo, significa que una empresa la cual tenga gran
representacin y anlisis de datos para tener un valor agregado
con informacin que no ha sido manejada, debe poseer los
medios necesarios para manejar dicha informacin de manera
precisa y posible en cuanto a facilidades y tecnologas se
refiere as como las formas de hacerlo. 2) Escala extrema de
datos que supera a la tecnologa actual debido a su volumen,
velocidad y variedad. 3) El valor econmico, haciendo que
las soluciones sean asequibles y ayuden a la inversin de
los negocios. Las herramientas, los procesos y procedimientos
que permitan a una organizacin crear, manipular y gestionar
conjuntos de datos muy grandes y las instalaciones de almacenamiento.
[6]Gartner define el Big Data como un gran volumen,
velocidad o variedad de informacin que demanda formas
costeables e innovadoras de procesamiento de informacin
que permitan ideas extendidas, toma de decisiones y automatizacin del proceso.
2) Velocidad: Aunque los ciclos de negocio se han acelerado, no todos los datos de una organizacin tienen la misma
urgencia de anlisis asociada. La clave para entender en qu
punto del espectro de la velocidad es necesario trabajar (desde
el procesado en lote hasta el flujo de datos continuo) est
asociada a los requerimientos de los procesos y los usuarios.
Contribuir a una mayor velocidad de procesamiento, es la
naturaleza en tiempo real de la creacin de datos. La velocidad
afecta a la latencia: el tiempo de espera entre el momento en
el que se crean los datos, el momento en el que se captan
y el momento en el que estn accesibles. Hoy en da, los
datos se generan de forma continua a una velocidad a la que
a los sistemas tradicionales les resulta imposible captarlos,
almacenarlos y analizarlos.
3) Variedad: A medida que se multiplican los canales de
interaccin con clientes, empleados, proveedores y procesos de
negocio, la informacin de valor es cada vez ms el resultado
de la combinacin de datos de mltiple origen y tipologa,
esto es: la existencia de diferentes tipos y fuentes de datos.
La variedad tiene que ver con gestionar la complejidad de
mltiples tipos de datos. Aqu se generan presentan innumerables formas entre las que se incluyen texto, datos web, tuits,
datos de sensores, audio, vdeo, secuencias de clic, archivos
de registro y mucho ms.
4) Valor y Veracidad:
Valor
Veracidad
D. Arquitectura de BigData
En el mundo tecnolgico existen varios modelos de arquitecturas de Big Data:
1) Recoleccin o Recopilacin o Fuentes de datos de Big
Data: Pginas Web.Puede ser registrar las huellas en pginas
web, con el seguimiento de clics, que realice el usuario .[10]
Redes sociales. De medios o redes como: Facebook, Twitter,
LinkedIn y blogs. Por ejemplo, como se menciona en [10]
Muchas compaas de seguros ahora utilizan los medios
sociales para investigar las denuncias. Sin embargo, la mayora
de los reguladores todava no permiten a las aseguradoras a
usar los medios sociales para establecer las tasas de poltica
durante el proceso de suscripcin. Por ejemplo, si una aseguradora de vida que ve el perfil de Facebook de un solicitante
indica que ella es una estudiante de aviacin, la aseguradora no
puede usar ese conocimiento para aumentar sus primas debido
a que podra ser considerado un alto riesgo.
2) Carga de datos de Big Data: En esta etapa los datos
se cargan aplicando el concepto de metadatos (datos que
describen otros datos). Adems, de la carga como tal, es la
primera vez que los datos se estructuran [8]. Es de aclarar que
los metadatos son informacin que describe caractersticas de
cualquier dato, como el nombre, la ubicacin, la importancia
percibida, la calidad y sus relaciones con otros objetos de
datos que la empresa considere digno de la gestin [8]. La
siguiente tarea, es la capacidad de usar metadatos, bibliotecas
semnticas, y datos maestros. Se busca vincular los datos entre
el conjunto de datos estructurados y no estructurados con
metadatos y datos maestros. Se debe transformar los datos
no estructurados en datos estructurados. Es importante acudir
a la integridad referencial, la cual ayuda inicialmente con la
clave principal y las dems relaciones en una base de datos
tradicional.
E. Tecnologas de big data
Las caractersticas especficas del Big data requiere innovaciones tecnolgicas en todos los mbitos del tratamiento
de la informacin. Consecuentemente, nuevas herramientas en
lo referente a la captura, almacenamiento, acceso, anlisis y
gestin de los datos que manejamos.
[?]Big data se orientan al tratamiento paralelo de la
informacin. Sobre todas ellas, destaca Apache Hadoop, una
solucin de software libre diseada para el tratamiento de hasta
exabytes de datos distribuidos en mltiples nodos. Hadoop se
ha convertido en un estndar de facto sobre el que se desarrollan herramientas comerciales por compaas tradicionales. La
Hadoop genera dos elementos principales que son fundamentales para su operacin: MapReduce y HDFS (sistema
de archivos distribuidos de Hadoop). MapReduce es una
herramienta que permite crear algoritmos para el anlisis de
datos y obtener resultados y HDFS trabaja con base de datos
que admite errores pero tiene alta disponibilidad.
Una de las ventajas principales al usar Hadoop, es que
proporciona estas dos funciones que superan a las plataformas
alternas, y es una solucin rentable al momento de trabajar con
Big Data (gran cantidad de datos) y para crear clsters no se
requiere de supercomputadoras.
Se presenta como una solucin para los programadores
sin experiencia en desarrollo de aplicaciones para entornos
distribuidos, dado que oculta la implementacin de detalles
propios de estos sistemas: paralelizacin de tareas, administracin de procesos, balanceo de carga y tolerancia a fallos.
[11]
Su avance es indudable que ahora es usado por empresas
grandes que manejan la ms alta tecnologa, as como tambin
grandes cantidades de datos, como Yahoo! y Facebook, pero
tambin tiene alcance en el mundo de las finanzas, tecnologa,
telecomunicaciones, entretenimiento, entre otras. Hadoop fue
diseado para que sea veloz y fiable en el anlisis de datos, es
muy til al momento de trabajar en proyectos que requieren
escalabilidad como los mencionados anteriormente.
Desde la primera arquitectura de Hadoop contaba con los
siguientes componentes considerados sus pilares fundamentales:
Sistema de ficheros: Hadoop se apoya para su funcionamiento en un sistema de ficheros distribuidos, denominado HDFS [11]
Hadoop MapReduce: el motor de Hadoop consta de un
planificador de trabajo MapReduce, as como de una serie de
nodos encargados de llevarlos a cabo.[11]
Hadoop Common: conjunto de utilidades que posibilitan la
integracin de subproyectos de Hadoop. [11]
Hadoop tiene la capacidad de ejecutarse en modo local
que por defecto est configurado para ejecutarse en modo no
distribuido y como proceso aislado de Java. Tambin puede
ejecutarse en modo pseudo-distribuido donde cada Hadoop se
ejecuta individualmente. El ltimo modo es distribuido, este
es el modo que usa todos los recursos de Hadoop (disponibles
en el clster) ya que mejora el paralelismo de los procesos.
El sistema HDFS funciona con dos elementos en la arquitectura: el NameNode que se encuentra en el nodo master para
mantener indexados los datos y el DataNode que estn con los
esclavos para almacenar los datos.
A. Framework Hadoop
Hadoop est constituido por subproyectos que complementan y mejoran su funcionabilidad, existen inumerables
proyectos para cada necesidad, algunas son desarrolladas por
empresas privadas aunque siguen siendo dirigidos por Apache.
Lo ms importantes proyectos son: ambari, avro, cassandra,
chukwa, hbase, hive, mahout, pig, spark, zookeeper.
C. Hadoop 2.0
En versiones anteriores solo se admitia un paradigma de
programacin (MapReduce). En esta versin, se incorpora una
nueva herramienta llamada YARN, que es un subproyecto de
Hadoop. YARN permite mas modelos de programacin para
analizar los datos en el mismo sistema HDFS, tambin separa
las gestiones como indica la imagen.
Transparencia en el acceso
Transparencia en la localizacin
Transparencia en la concurrencia
Transparencia ante las fallas
Hterogeneidad
Escalabilidad
Transparencia en la replicacin
Transparencia en la migracin
Tolerante a la particin de red
V. MAPREDUCE
Es un proceso que apareci por parte de Google a finales
del 2004 con el objetivo de crear un framework para que
trabaje con grandes cantidades de datos sin que tenga que
usar supercomputadoras. Es un modelo sencillo que requiere
B. Conceptos Generales
1) Imagen 2D: Una imagen en 2D se puede definir como
una imagen expresada sobre los ejes X e Y del plano cartesiano, y que no permiten comportamientos propios de cuerpos
en el espacio. [A]
Una grfica 2D tiene dos ejes (X e Y). La mayora de
los dibujos, fotografas, pinturas y libros de formato de la
imagen son de dos dimensiones. Las animaciones 2D son
planas, aunque se puede crear la sensacin de profundidad
en algunos de los elementos que usan luz y sombra. Los
dibujos animados como "Scooby-Doo" y "Los Picapiedra" son
ejemplos de animacin 2D. Las pelculas estndar son 2D;
hay una impresin de profundidad, ya que se registran en
el mundo real, pero la imagen aparece plana en la pantalla.
[B] Los trminos "2D" o "bidimensional" se pueden utilizar
metafricamente para referirse a un elemento de trabajo o de
un trabajo que carece de sustancia, matiz o ideas suficientes.
[B] Un personaje de ficcin que est mal escrito y carece de
personalidad puede ser descrito como de dos dimensiones o,
ms informalmente, 2D.
2) Imagen en 3D: Resultado final del proceso de renderizado de un modelo en 3D. Una imagen en 3D, en definitiva,
es una imagen en dos dimensiones que simula las tres dimensiones, pero proviene de un mundo conceptual en 3D.
Ese mundo en 3d permite que puedan generarse mltiples
imgenes en 3D desde diferentes perspectivas. Una imagen
en 3D puede almacenarse en cualquier formato grfico rster.
Mltiples imgenes en 3D constituyen una animacin 3d. El
proceso de la creacin de grficos tridimensionales comienza
con un grupo de frmulas matemticas y se convierte en un
grfico en 3D. Las frmulas matemticas (junto con el uso de
objetos externos, como imgenes para las texturas) describen
objetos poligonales, tonalidades, texturas, sombras, reflejos,
transparencias, translucidez, refracciones, iluminacin (directa,
indirecta y global), profundidad de campo, desenfoques por
movimiento, ambiente, punto de vista, etc. Toda esa informacin constituye un modelo en 3D.
10
Configuracin nodo
Figure 14. Esquema HIPI
D. Casos de Uso
Unos de los casos ms conocidos en los cuales ha funcionado el esquema de computacin distribuida es en The New
York Times, el cual utiliza Hadoop y EC2 (Amazon Elastic
Compute Cloud) para convertir 4 Tera bytes de imgenes TIFF
en imgenes PNG de 800 KB para ser mostradas en la Web
en 36 horas [21].
Un caso de implementacin de Hadoop propuesto por la
Facultad de Ciencias Fsicas y Matemticas de la Universidad
de Chile con el fin de paralelizar un algoritmo para la deteccin
de cmulos de galaxias. Como antecedente se da a conocer
que existe un algoritmo de deteccin que funciona de manera
secuencial y por lo tanto sera de gran utilidad implementarlo
de forma de paralela [22]. De la Escuela Politcnica del Litoral
(ESPOL) se conocen varias implementaciones de Hadoop para
analizar imgenes. Una de estas implementaciones habla de
procesamiento de imgenes producto de una investigacin
sobre bacterias y su comportamiento. En dicho trabajo se
pretende encontrar las paredes de clulas epiteliales de plantas
de tipo Arabidopsis Thaiana, para este caso se desarroll
un algoritmo que ayuda a detectar estructuras curvilneas,
desarrollado en C++ [23]. En otro caso de uso de Hadoop de
las misma ESPOL es usado para la creacin de un Mdulo de
11
#
#
#
#
cd / o p t /
ls
t a r z x f j d k 8u45l i n u x x64 . t a r . gz
mv j d k 1 . 8 . 0 _45 j d k
# s u hadoop
# j a v a v e r s i o n
8) Establecer las variables ambientales editando el siguiente fichero: En el nodo maestro y en el esclavo ingresamos
los siguientes comandos
# nano / e t c / b a s h r c
Al final del archivo copiamos las siguiente lineas.
e x p o r t JAVA_HOME= / o p t / j d k
e x p o r t JRE_HOME= / o p t / j d k / j r e
e x p o r t PATH=$PATH : / o p t / j d k / b i n : / o p t / j d k /
j r e / bin
a l i a s l l = l s l c o l o r
a l i a s cp = cp i
a l i a s mv= mv i
a l i a s rm = rm i
9) Comprobacion: Compruebe que todo este bien
# source / etc / bashrc
# e c h o $JAVA_HOME
10) Instalacin y configuracin de hadoop 2.6.0: Copiar y
desempaquetar hadoop.
Al igual java copiamos el archivo hadoop-2.6.0.tar.gz al
directorio /opt. En master ingresamos los siguientes comandos:
# cp hadoop 2 . 6 . 0 . t a r . gz / o p t /
Ahora procedemos a desempaquetar Hadoop.
12
# t a r z x f hadoop 2 . 6 . 0 . t a r . gz
# rm hadoop 2 . 6 . 0 . t a r . gz
# mv hadoop 2 . 6 . 0 hadoop
11) Copiamos /opt/hadoop a los nodos esclavos: En master
ingresamos el siguiente comando:
# s c p r hadoop nodo : / o p t
12) Editamos el fichero .bashrc en todos los nodos: En el
nodo master y el esclavo ingresamos los siguientes comandos:
# nano / home / hadoop / . b a s h r c
Y agregamos las siguientes lineas al final del archivo que
se abrira.
export
export
export
export
export
export
HADOOP_PREFIX= / o p t / hadoop
HADOOP_HOME=$HADOOP_PREFIX
HADOOP_COMMON_HOME=$HADOOP_PREFIX
HADOOP_HDFS_HOME=$HADOOP_PREFIX
HADOOP_MAPRED_HOME=$HADOOP_PREFIX
HADOOP_YARN_HOME=$HADOOP_PREFIX
<property >
<name> d f s . namenode . d a t a . d i r < / name>
< v a l u e > / home / hadoop / namenode < / v a l u e >
# nano / o p t / hadoop / e t c / hadoop / c o r e s i t e . xml </ p r o p e r t y >
chown
chgrp
mkdir
chown
chgrp
hadoop / o p t / hadoop / R
hadoop / o p t / hadoop / R
/ home / hadoop / d a t a n o d e
hadoop / home / hadoop / d a t a n o d e /
hadoop / home / hadoop / d a t a n o d e /
18) Editar
mapred-site.xml:
Edite
/opt/hadoop/etc/hadoop/mapred-site.xml. En el nodo master y
el esclavo se deberan ejecutar los comandos:
En esta parte no vamos a encontrar el archivo mapredsite.xml solamente encontraremos uno con la extensin
mapred-site.xml.template por lo que crearemos un nuevo
archivo mapred-site.xml copiando lo del template al nuevo
archivo creado. Ejecutando la siguiente lnea de comando:
# cp / o p t / hadoop / e t c / hadoop / mapred s i t e .
xml . t e m p l a t e / o p t / hadoop / e t c / hadoop /
mapred s i t e . xml
A continuacion vamos a editar nuestro archivo
(/opt/hadoop/etc/hadoop/mapred-site.xml)
aadimos
las
siguientes lneas. # nano /opt/hadoop/etc/hadoop/mapredsite.xml.
Aadimos las siguientes lneas al archivo.
<property >
<name> m a p r e d u c e . f r a m e w o r k . name < / name>
< v a l u e > y a r n < / v a l u e > <!and n o t l o c a l (!)>
</ p r o p e r t y >
DESDE ESTE PASO HASTA EL FINAL, LOS COMANDOS LOS VAMOS A REALIZAR SOLO EN EL NODO
MASTER.
# nano / o p t / hadoop / e t c / hadoop / h d f s s i t e . xml
19) Editar yarn-site.xml : Editar el siguiente archivo
Y modificar las siguientes lineas:
/opt/hadoop/etc/hadoop/yarn-site.xml
<property >
<name> d f s . r e p l i c a t i o n < / name>
< v a l u e >1 </ v a l u e >
</ p r o p e r t y >
<property >
<name> d f s . p e r m i s s i o n s < / name>
13
</ p r o p e r t y >
<property >
<name> y a r n . n o d e m a n a g e r . hostname < / name>
< v a l u e > m a s t e r < / v a l u e > <! o r nodo >
</ p r o p e r t y >
<property >
<name> y a r n . n o d e m a n a g e r . auxs e r v i c e s < / name>
<value >mapreduce_shuffle </ value >
</ p r o p e r t y >
$ which a n t
/ usr / l o c a l / bin / ant
# nano / e t c / s y s c t l . c o n f
$ g i t c l o n e g i t @ g i t h u b . com : u v a g f x / h i p i . g i t
s u hadoop
h d f s namenode f o r m a t
s t a r t d f s . s h
s t a r t y a r n . s h
Para comprobar si hemos hecho bien el proceso de instalacin probamos ingresando jps . en donde tanto en hmaster
como esclavo se visualizaran las herramientas propias de cada
uno, ingresando en el siguiente link : http://master:50070/ .
Vemos que el nodo principal se compone de un ResourceManager, NodeManager (HILO), NameNode y DataNode
(HDFS). Un nodo esclavo acta como un NodeManager y un
DataNode.
git
14
D. Instalacion de Ganglia
1) Descargar : Ganglia de la pgina web oficial
http : / / sourceforge . net / projects / ganglia /
f i l e s / 3 . 6 . 0 / g a n g l i a 3 . 6 . 0 . t a r . gz
Para esto, se lo hace directamente con una lnea de comando
desde el terminal:
# wget h t t p : / / s o u r c e f o r g e . n e t / p r o j e c t s /
ganglia / f i l e s / 3 . 6 . 0 / ganglia 3.6.0. t a r .
gz
Nos mostrar el progreso en pantalla as como el estado en
porcentaje y la velocidad de descarga.
2) Habr que instalar dependencias: Instalar las dependencias
# yum i n s t a l l f r e e t y p e d e v e l rpmb u i l d
php h t t p d l i b p n g d e v e l l i b a r t l g p l
devel python devel pcre devel autoconf
automake l i b t o o l e x p a t d e v e l r r d t o o l
d e v e l a p r d e v e l g c c c ++ make p k g c o n f i g
y
3) Se procede a instalar libconfuse: Instalar libconfuse
# yum i n s t a l l h t t p s : / / d l . f e d o r a p r o j e c t .
o r g / pub / e p e l / 6 / x86_64 / l i b c o n f u s e d e v e l
2.7 4. e l 6 . x86_64 . rpm
# v i / e t c / g a n g l i a / gmetad . c o n f
Buscar la lnea:
d a t a _ s o u r c e my c l s t e r l o c a l h o s t
y reemplazarla por
data_source "[ nombre_de_cluster ]" 1 master
7) Edita el archivo gmond.conf: Editar gmond.conf
# v i / e t c / g a n g l i a / gmond . c o n f
Buscar las lneas:
cluster {
name = " u n s p e c i f i e d "
owner = " u n s p e c i f i e d "
latlong = " unspecified "
url = " unspecified "
}
reemplazarlas por:
cluster {
name = " [ n o m b r e _ d e _ c l u s t e r ] "
owner = " u n s p e c i f i e d "
latlong = " unspecified "
url = " unspecified "
}
Buscar dos lneas:
15
mcast_join = 239.2.11.71
y modificarlas de la siguiente manera
# mcast_join = 239.2.11.71
Ahora hay que configurar el gmond.conf en los nodos :
Se hace un ssh al nodo:
# s s h [ nombre_nodo ]
Modificar el archivo
# v i / e t c / g a n g l i a / gmond . c o n f
En el parmetro de nombre de clster, modificar la misma
lnea que en el master:
name = u n s p e c i f i e d
por:
name = [ n o m b r e _ c l u s t e r ]
y la lnea
mcast_join = 239.2.11.71
por
# mcast_join = 239.2.11.71
Adicionalmente se deben invalidar todas las lneas que se
muestran a continuacin, aadiendo el smbolo # en el
interior de los corchetes:
udp_recv_channel {
( aadir corchetes a las l n e a s aqu dentro )
}
Y tambin las de:
tcp_accept cannel {
( aadir corchetes a las l n e a s aqu dentro )
}
Salir de la conexin con el nodo
# exit
8) Instalar Ganglia-Web: Primero descargarla desde la
lnea de comandos
# wget h t t p : / / d o w n l o a d s . s o u r c e f o r g e . n e t /
p r o j e c t / g a n g l i a /3.1.1%20%28 Wien %29/
g a n g l i a web 3 . 1 . 1
Entrar a la carpeta donde se descarg
# cd / r o o t / Downloads / g a n g l i a
y poner
# yum i n s t a l l g a n g l i a web 3 .1 .1 1 . n o a r c h .
rpm y
Para asegurarse de que los servicios se inicien en el booteo,
hay que usar las siguientes lneas desde el master:
#
#
#
#
#
#
c h k c o n f i g h t t p d on
c h k c o n f i g gmetad on
c h k c o n f i g gmond on
service httpd s t a r t
s e r v i c e gmetad s t a r t
s e r v i c e gmond s t a r t
Igualmente en el nodo:
# s s h [ nombre_nodo ]
# c h k c o n f i g gmond on
# s e r v i c e gmond s t a r t
Y cerrar la conexin con el nodo:
# exit
9) Fin de instalacin:: Ahora se puede entrar desde el
navegador (Firefox) y poner directamente en la barra de
direcciones:
master / ganglia
y mostrar ganglia ejecutndose.
R EFERENCES
[1] N. Figuerola, Que hay detras de big data. [Online]. Available: https://articulosit.files.wordpress.com/2013/03/que-hay-detrc3a1sde-big-data1.pdf
[2] M. P. Marques, Big Data Tecnicas herramientas y aplicaciones.
[Online]. Available: http://directa.org.mx/cr-por-nestor-marquez/
[3] R. Bollatti, BigData en la educacion, p. 3. [Online].
Available: http://universoup.es/5/explorandoelhorizonte/los-big-data-enla-educacion/
[4] J. G. Cantero, Como la avalancha de datos se ha
convertido en un importante beneficio, p. 21. [Online].
Available: https://boscolg.wordpress.com/2012/11/16/big-data-como-laavalancha-de-datos-se-ha-convertido-en-un-importante-beneficio/
[5] J. L. C. Giner. Big data el rastro digital de nuestros
clientes. [Online]. Available: http://www.esade.edu/web/esp/aboutesade/today/news/viewelement/311123/1/big-data,-el-rastro-digital-denuestros-clientes
[6] Reporte
de
gartner
analiza
big
data
alrededor
de
tecnologia
de
datos.
[Online].
Available:
http://searchdatacenter.techtarget.com/es/noticias/2240171952/Reportede-Gartner-analiza-big-data-alrededor-de-tecnologia-de-datos
[7] D. Remnitz, Encuesta Global de Analisis Forense de Datos 2014.
[Online]. Available: http://www.ey.com
[8] Big
data
desafios
y
aplicaciones
OVH.
[Online].
Available:
http://www.cioal.com/2015/03/09/ibm-conecta-servidoresopenpower-la-nube-de-softlayer/
[9] Conceptos de sistemas de archivos distribuidos. [Online]. Available:
http://www.eslared.org.ve
[10] Google
abre
la
puerta
a
potenciar
a
las
redes
sociales
en
sus
busquedas
ABCes.
[Online].
Available:
http://www.abc.es/tecnologia/redes/20150205/abci-google-plustwitter-facebook-linkedin-youtube-201502051014.html
[11] M.
Rodriguez,
Herramientas
para
big
data
entorno
hadoop,
pp.
59,60,65,66,67,73.
[Online].
Available:
http://repositorio.bib.upct.es:8080/jspui/bitstream/10317/4402/1/tfg482.pdf
[12] L. M. Gracia, Que es HDFS. [Online]. Available:
https://unpocodejava.wordpress.com/2013/07/24/que-es-hdfs/
[13] EcuRed. Cluster computadoras EcuRed. [Online]. Available:
www.ecured.cu
[14] Clusters
definiciones.
[Online].
Available:
http://clusterfie.epn.edu.ec/clusters/Definiciones/definiciones.html
[15] Carlos Gomez Martinez, Tratamiento de imagenes con Hadoop, in
Procesamiento de grandes volumenes de datos en entornos Cloud
Computing utilizando Hadoop MapReduce, Almeria, Apr. 2013, p. 135,
universidad de Almeria.
[16] Emmanuel Barajas Gonzalez, HDFS, in Diseno de una arquitectura
para procesamiento paralelo y distribuido de conjuntos masivos de datos
no estructurados para el proyecto de Smarter Traffic de CUCEA e IBM,
Guadalajara, 2013, p. 11, universidad de Guadalajara.
[17] Carlos Gomez Martinez, Formatos de Archivos de Entrada, in Procesamiento de grandes volumenes de datos en entornos Cloud Computing
utilizando Hadoop MapReduce, Almeria, Apr. 2013, p. 122, en Universidad de Almeria.
[18] Gomez Martinez Carlos, Salida Formatos de Archivos, in Procesamiento de grandes volumenes de datos en entornos Cloud Computing
utilizando Hadoop MapReduce, Almeria, Apr. 2013, p. 124, universidad
de Almeria.
16