Topicos Base Datos

Hadoop
Apache Hive
Hadoop
Concepto:
• (Apache) Hadoop es un framework de software libre con una
licencia Apache Commons.
• Hadoop es un marco de código abierto para almacenar y

procesar grandes datos en un entorno distribuido. El proyecto
consta de dos módulos, uno de ellos es MapReduce y otra es
Hadoop Distributed File System (HDFS).
MapReduce
Concepto:
Es un modelo de programación paralela para

procesar grandes cantidades de estructurados,
semiestructurados y sin estructurar datos sobre
grandes grupos de hardware de productos básicos.
HDFS
Concepto:
Es un modelo de programación paralela para

procesar grandes cantidades de estructurados,
semiestructurados y sin estructurar datos sobre
grandes grupos de hardware de productos básicos.
El Hadoop es un ecosistema contiene diferentes sub-
proyectos (herramientas) como Sqoop, pig
, y Hive que se usan para ayudar a Hadoop módulos.
•Sqoop:se utiliza para importar y exportar datos de un

lado a otro .
•Pig: es un lenguaje de procedimientos plataforma

utilizada para crear un script para operaciones de
MapReduce.
•Hive: es una plataforma que se utiliza para desarrollar

tipo SQL scripts para hacer operaciones de MapReduce.
Hive
Concepto:
Es una infraestructura de almacenamiento de datos de proceso de datos
estructurados en Hadoop. Se encuentra en la parte superior de Hadoop para
resumir grandes datos y facilita consultar y analizar fácil.
Hive fue inicialmente desarrollado por Facebook, después, la Apache Software

Foundation ha desarrollado aún más y como un código fuente abierto bajo el
nombre Apache Hive. Es utilizado por diferentes empresas. Por ejemplo,
Amazon utiliza en Amazon Elastic MapReduce.
Hive no es
•Una base de datos relacional

•Un diseño para OnLine Transaction Processing (OLTP)
•UN idioma en tiempo real las consultas y
actualizaciones a nivel de fila
Características de Hive
•Esquema que almacena en una base de datos y se procesan

los datos en HDFS.
•Está diseñado para OLAP.
•Proporciona tipo SQL lenguaje de consulta o pedido HiveQL
HQL.
•Es familiar, rápido, escalable y extensible.
Arquitectura de Hive
El siguiente diagrama de componentes muestra la arquitectura de separación:
Nombre de Funcionamiento
la unidad
Interfaz de Sección es una infraestructura de almacenamiento de

usuario datos software que puede crear interacción entre usuario
y HDFS. Las interfaces de usuario que son Hive Hive es
compatible con interfaz Web, línea de comandos y Hive
HD Insight (en Windows).
Meta Hive elige respectivos servidores de bases de datos para

Almacenar almacenar el esquema o metadatos de tablas, bases de
datos, las columnas de una tabla, sus tipos de datos y
cartografía HDFS.
Motor de HiveQL es similar a SQL para realizar consultas de

Procesos información sobre el esquema Metastore. Es uno de los
HiveQL sustitutos del enfoque tradicional de MapReduce
programa. En lugar de escribir MapReduce programa en
Java, se puede escribir una consulta de MapReduce
trabajo y proceso.
Motor de La conjunción de proceso HiveQL Motor y MapReduce es

ejecución Hive Motor de ejecución. Motor de ejecución procesa la
consulta y genera los resultados de la misma como
MapReduce resultados. Utiliza el sabor de MapReduce.
HDFS o Hadoop distributed file system o HBASE son el

HBASE almacenamiento de datos técnicas para almacenar datos
en sistema de archivos.
Hive de trabajo
Paso Funcionamiento
No.
1 Ejecutar consulta La Hive interfaz como línea de comandos o
El siguiente diagrama muestra el flujo de trabajo interfaz de usuario Web consulta envía al controlador
(controlador de base alguna, como JDBC, ODBC, etc. ) para que
entre Hive y Hadoop. se ejecute.
2 Obtener Plan El conductor tiene la ayuda de consulta

compilador que analiza la consulta para verificar la sintaxis y
plan de consulta o la exigencia de consulta.
3 Obtener metadatosEl compilador envía solicitud de metadatos

Metastore (cualquier base de datos).
4 Enviar MetadatosMetastore envía los metadatos, como una

respuesta para el compilador.
5 Enviar PlanEl compilador comprueba el requisito y vuelve el

plan al conductor. Hasta aquí, el análisis y elaboración de una
consulta es completa.
6 Ejecutar PlanEl controlador envía el plan a ejecutar el motor de

ejecución.
7 Ejecutar trabajoInternamente, el proceso de ejecución se trata
de un trabajo de MapReduce. El motor de ejecución envía el
trabajo a JobTracker, que está a nombre nodo y asigna este
trabajo a TaskTracker, que es en nodo de datos. Aquí, la
consulta se ejecuta trabajos MapReduce.
7.1 Metadatos PoMientras tanto en la ejecución, el motor de

ejecución puede ejecutar las operaciones de metadatos con
Metastore.
8 Buscar resultadosEl motor de ejecución reciba los resultados

de nodos de datos.
9 Enviar ResultadosEl motor de ejecución envía los valores
resultantes para el conductor.
10 Enviar ResultadosEl controlador envía los resultados a Hive
Interfaces.

Topicos Base Datos

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Topicos Base Datos

Caricato da

Copyright:

Formati disponibili

Hadoop

• Hadoop es un marco de código abierto para almacenar y

Es un modelo de programación paralela para

Es un modelo de programación paralela para

•Sqoop:se utiliza para importar y exportar datos de un

•Pig: es un lenguaje de procedimientos plataforma

•Hive: es una plataforma que se utiliza para desarrollar

Hive fue inicialmente desarrollado por Facebook, después, la Apache Software

•Una base de datos relacional

•Esquema que almacena en una base de datos y se procesan

Interfaz de Sección es una infraestructura de almacenamiento de

Meta Hive elige respectivos servidores de bases de datos para

Motor de HiveQL es similar a SQL para realizar consultas de

Motor de La conjunción de proceso HiveQL Motor y MapReduce es

HDFS o Hadoop distributed file system o HBASE son el

2 Obtener Plan El conductor tiene la ayuda de consulta

3 Obtener metadatosEl compilador envía solicitud de metadatos

4 Enviar MetadatosMetastore envía los metadatos, como una

5 Enviar PlanEl compilador comprueba el requisito y vuelve el

6 Ejecutar PlanEl controlador envía el plan a ejecutar el motor de

7.1 Metadatos PoMientras tanto en la ejecución, el motor de

8 Buscar resultadosEl motor de ejecución reciba los resultados

Potrebbero piacerti anche