Acerca de este curso
Este curso se centra en Apache Hive y Cloudera Impala, y tiene como objetivo enseñar a los alumnos a aplicar análisis de datos tradicionales y obtener la habilidad de gestionar las herramientas de inteligencia de negocio para el Big Data. Cloudera presenta los datos de las herramientas que los profesionales necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting similares.
Apache Hive hace que los datos multi-estructurados sean accesibles a para los analistas, administradores de bases de datos, y otras personas sin conocimientos de programación Java. Cloudera Impala permite, en tiempo real, el análisis interactivo de los datos almacenados en Hadoop a través de un entorno de SQL nativo.
PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
Curso dirigido a analistas de datos, especialistas en inteligencia de negocio, desarrolladores, arquitectos de sistemas y administradores de bases de datos. Se requieren conocimientos de SQL y estar familiarizado con comandos de Linux. Aunque no es obligatorio, se recomienda el manejo de algún lenguaje de scripting (Bash scripting, Perl, Python, Ruby). No son necesarios conocimientos de Hadoop.
Objetivos del curso
Al finalizar la formación, el participante sabrá:
- La manera en la que el ecosistema open source de herramientas Big Data aborda desafíos que no pueden abarcar los RDBMSs tradicionales.
- Uso de Apache Hive y Apache Impala para proporcionar acceso mediante el uso de SQL a los datos.
- La sintaxis y los formatos de datos que utilizan Hive e Impala, incluyendo las funciones y las subconsultas.
- Crear, modificar y borrar tablas, vistas y bases de datos; cargar datos; y guardar los resultados en consultas.
- Crear y usar particiones y diferentes tipos de archivos.
- Combinar dos o más datasets con el uso de JOIN o UNION, según sea conveniente.
- Comprensión detallada de las funciones analíticas y las funciones de ventana y uso de ambas.
- Almacenar y consultar estructuras de datos complejas o anidadas.
- Procesar y analizar datos semi-estructurados o no estructurados.
- Técnicas para la optimización de las consultas en Hive e Impala.
- Extender las capacidades de Hive e Impala con la utilización de parámetros, formatos personalizados de archivos, SerDes y scripts externos.
- Determinar si Hive, Impala, un RDBMS o una combinación de todos ellos es lo mejor para una tarea determinada.
Contenidos
Introducción
Fundamentos Hadoop
- ¿Por qué Hadoop?
- Aspectos generales de Hadoop
- Almacenamiento de datos: HDFS
- Procesamiento de datos distribuidos: YARN, MapReduce, y Spark
- Procesamiento y análisis de datos: Hive, e Impala
- Integración de datos: Sqoop
- Otras herramientas de datos de Hadoop
- Explicación del escenario con ejercicios
Introducción a Hive e Impala
- ¿Qué es Hive?
- ¿Qué es Impala?
- ¿Por qué utilizar Hive e Impala?
- Schema y almacenamiento de datos
- Comparación entre Hive y bases de datos tradicionales
- Casos de uso
Consultas con Hive e Impala
- Tablas y bases de datos
- Sintaxis básica en consultas Hive e Impala
- Tipos de datos
- Empleo de Hue para ejecutar consultas
- Empleo de Beeline (la Shell de Hive)
- Empleo de la Shell de Impala
Operadores comunes y funciones integradas
- Operadores
- Funciones escalares
- Funciones de agregación
Administración de datos
- Almacenamiento de datos
- Creación de bases de datos y tablas
- Carga de datos
- Alteración de bases de datos y tablas
- Simplificación de consultas con vistas
- Almacenamiento de resultados de consultas
Almacenamiento de datos y rendimiento
- Partición de tablas
- Carga de datos en tablas particionadas
- Cuándo utilizar el particionamiento
- Elección del formato de archivo
- Uso de los formatos de archivo Avro y Parquet
Trabajando con múltiples Datasets
- UNION y Joins
- Manejo de valores NULL en Joins
- Joins avanzados
Funciones analíticas y funciones de ventana
- Utilización de funciones analíticas comunes
- Otras funciones analíticas
- Ventanas deslizantes
Datos complejos
- Datos complejos con Hive
- Datos complejos con Impala
Análisis de texto
- Empleo de expresiones regulares
- Procesamiento de texto con SerDes en Hive
- Análisis de Sentiment y n-grams
Optimización Hive
- Rendimiento de las consultas
- Bucketing
- Indexación de datos
- Hive en Spark
Optimización de Impala
- Ejecución de consultas
- Mejorar el rendimiento de Impala
Extendiendo Hive e Impala
- Customizar SerDes y formatos de archivo en Hive
- Transformación de datos con Scripts personalizados en Hive
- Funciones definidas por el usuario
- Consultas parametrizadas
Elección de la mejor opción
- Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
- ¿Cuál elegir?
Conclusión
Apache Kudu
- ¿Qué es Kudu?
- Tablas Kudu
- Uso de Impala con Kudu