Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Hadoop
Big Data
Acceder a Hortonworks
Al hacer clic en el botn Examinar de datos nos permitir ver los datos y en
este momento la tabla est vaca. Este es un buen ejemplo de la sensacin
interactiva que se obtiene con el uso de Hive.
Ahora que hemos ledo los datos en que pueden empezar a trabajar con l.
La siguiente cosa que queremos hacer extraer los datos. As que primero
vamos a escribir en una consulta para crear una nueva tabla llamada bateo
para contener los datos. Esa mesa tendr tres columnas para player_id, el
ao y el nmero de carreras
Ejecutar la consulta y mirar la tabla de bateo. Usted debe ver los datos que
se parece a esto.
Ahora tenemos que volver y conseguir la player_id (s) as que sabemos que
fue el jugador (s). Sabemos que para un ao determinado podemos utilizar
las pistas para encontrar el jugador (s) para ese ao. As que podemos
tomar la consulta anterior y unirlo con los registros de bateo para llegar a la
mesa final.
Ahora, vamos a cargar los archivos de datos anteriores en HDFS y crear dos
mesas de la colmena mediante los pasos siguientes.
Vamos a nombrar las tablas como por los nombres de archivo csv: hvac y
building.
Una vez que se especifica archivo, podrs ver los nombres de columna y el
mapeo de datos de la siguiente manera. Es posible que tenga que
desplazarse hacia abajo poco.
Paso 2:
Tenga en cuenta que Hive est ejecutando utilizando MapReduce Framework
de la salida de registro en la pantalla.
Paso 3:
Ahora podemos permitir que Hive en la ejecucin Tez y aprovechar las
Dirigido acclicos Grfico (DAG) de ejecucin que representa la consulta en
lugar de mltiples etapas del programa de MapReduce que participan una
gran cantidad de sincronizacin, las barreras y los gastos generales de IO.
Esta mejora en Tez, escribiendo establecidos en la memoria en lugar del
disco duro los datos intermedios.
Utiliza el siguiente paso para configurar el motor de ejecucin de Tez:
Paso 4:
Ejecutar la misma consulta que nos haban acabado anteriormente en el
paso 2, para ver si la velocidad ha mejorado o no.
Paso 5:
Ahora vamos a volver a ejecutar la misma consulta del paso 2 o el paso 4.
Una vez ms, debe correr ms rpido, ya que utilizar recipientes calientes
producidos en el paso 4, ya se est ejecutando en la misma sesin de
cliente Hive.
Aqu est el resultado.
Paso 6:
Usted puede seguir su subrbol en empleos Tez en HDP Sandbox Web UI
tambin. Por favor, vaya a: http://127.0.0.1:8088/cluster y el seguimiento de
sus puestos de trabajo durante la ejecucin o publicarlos para ver los
detalles.
Paso 1:
Paso 2:
Ejecute la siguiente instruccin para permitir Tez.
Paso 3:
Ejecute la siguiente consulta.
Paso 4
Ahora vamos a ejecutar la siguiente consulta SQL:
Paso 5:
Ahora vamos a ejecutar los siguientes pasos para habilitar la vectorizacin:
Esta vez que se ejecuta con un plan de consulta vectorizado, que escala
muy bien sobre todo con grandes conjuntos de datos.
Paso 6:
Echemos un vistazo al plan de "explain" para confirmar que est de hecho
utilizando un plan de consulta vectorizado: