Sei sulla pagina 1di 10

Hadoop

Apache Hive
Hadoop

Concepto:
• (Apache) Hadoop es un framework de software libre con una
licencia Apache Commons.

• Hadoop es un marco de código abierto para almacenar y


procesar grandes datos en un entorno distribuido. El proyecto
consta de dos módulos, uno de ellos es MapReduce y otra es
Hadoop Distributed File System (HDFS).
MapReduce

Concepto:

Es un modelo de programación paralela para


procesar grandes cantidades de estructurados,
semiestructurados y sin estructurar datos sobre
grandes grupos de hardware de productos básicos.
HDFS

Concepto:

Es un modelo de programación paralela para


procesar grandes cantidades de estructurados,
semiestructurados y sin estructurar datos sobre
grandes grupos de hardware de productos básicos.
El Hadoop es un ecosistema contiene diferentes sub-
proyectos (herramientas) como Sqoop, pig
, y Hive que se usan para ayudar a Hadoop módulos.

•Sqoop:se utiliza para importar y exportar datos de un


lado a otro .

•Pig: es un lenguaje de procedimientos plataforma


utilizada para crear un script para operaciones de
MapReduce.

•Hive: es una plataforma que se utiliza para desarrollar


tipo SQL scripts para hacer operaciones de MapReduce.
Hive

Concepto:
Es una infraestructura de almacenamiento de datos de proceso de datos
estructurados en Hadoop. Se encuentra en la parte superior de Hadoop para
resumir grandes datos y facilita consultar y analizar fácil.

Hive fue inicialmente desarrollado por Facebook, después, la Apache Software


Foundation ha desarrollado aún más y como un código fuente abierto bajo el
nombre Apache Hive. Es utilizado por diferentes empresas. Por ejemplo,
Amazon utiliza en Amazon Elastic MapReduce.
Hive no es

•Una base de datos relacional


•Un diseño para OnLine Transaction Processing (OLTP)
•UN idioma en tiempo real las consultas y
actualizaciones a nivel de fila
Características de Hive

•Esquema que almacena en una base de datos y se procesan


los datos en HDFS.
•Está diseñado para OLAP.
•Proporciona tipo SQL lenguaje de consulta o pedido HiveQL
HQL.
•Es familiar, rápido, escalable y extensible.
Arquitectura de Hive
El siguiente diagrama de componentes muestra la arquitectura de separación:
Nombre de Funcionamiento
la unidad

Interfaz de Sección es una infraestructura de almacenamiento de


usuario datos software que puede crear interacción entre usuario
y HDFS. Las interfaces de usuario que son Hive Hive es
compatible con interfaz Web, línea de comandos y Hive
HD Insight (en Windows).

Meta Hive elige respectivos servidores de bases de datos para


Almacenar almacenar el esquema o metadatos de tablas, bases de
datos, las columnas de una tabla, sus tipos de datos y
cartografía HDFS.

Motor de HiveQL es similar a SQL para realizar consultas de


Procesos información sobre el esquema Metastore. Es uno de los
HiveQL sustitutos del enfoque tradicional de MapReduce
programa. En lugar de escribir MapReduce programa en
Java, se puede escribir una consulta de MapReduce
trabajo y proceso.

Motor de La conjunción de proceso HiveQL Motor y MapReduce es


ejecución Hive Motor de ejecución. Motor de ejecución procesa la
consulta y genera los resultados de la misma como
MapReduce resultados. Utiliza el sabor de MapReduce.

HDFS o Hadoop distributed file system o HBASE son el


HBASE almacenamiento de datos técnicas para almacenar datos
en sistema de archivos.
Hive de trabajo
Paso Funcionamiento
No.
1 Ejecutar consulta La Hive interfaz como línea de comandos o
El siguiente diagrama muestra el flujo de trabajo interfaz de usuario Web consulta envía al controlador
(controlador de base alguna, como JDBC, ODBC, etc. ) para que
entre Hive y Hadoop. se ejecute.

2 Obtener Plan El conductor tiene la ayuda de consulta


compilador que analiza la consulta para verificar la sintaxis y
plan de consulta o la exigencia de consulta.

3 Obtener metadatosEl compilador envía solicitud de metadatos


Metastore (cualquier base de datos).

4 Enviar MetadatosMetastore envía los metadatos, como una


respuesta para el compilador.

5 Enviar PlanEl compilador comprueba el requisito y vuelve el


plan al conductor. Hasta aquí, el análisis y elaboración de una
consulta es completa.

6 Ejecutar PlanEl controlador envía el plan a ejecutar el motor de


ejecución.
7 Ejecutar trabajoInternamente, el proceso de ejecución se trata
de un trabajo de MapReduce. El motor de ejecución envía el
trabajo a JobTracker, que está a nombre nodo y asigna este
trabajo a TaskTracker, que es en nodo de datos. Aquí, la
consulta se ejecuta trabajos MapReduce.

7.1 Metadatos PoMientras tanto en la ejecución, el motor de


ejecución puede ejecutar las operaciones de metadatos con
Metastore.

8 Buscar resultadosEl motor de ejecución reciba los resultados


de nodos de datos.
9 Enviar ResultadosEl motor de ejecución envía los valores
resultantes para el conductor.
10 Enviar ResultadosEl controlador envía los resultados a Hive
Interfaces.

Potrebbero piacerti anche