Acerca de este curso
Esta formación enseña a sus participantes los conceptos básicos de Apache Kudu, un sistema de almacenamiento de datos para la plataforma de Hadoop que está optimizado para consultas analíticas. El curso cubre casos de uso comunes y la arquitectura Kudu.
Este curso permite a sus participantes crear, administrar y consultar tablas Kudu, y desarrollar aplicaciones Spark que usan Kudu.
Después de la formación, los participantes estarán preparados para diferenciar Kudu con otros sistemas de almacenamiento, casos de uso en los que Kudu es la solución más óptima, diseño de tablas para almacenar datos de la manera más optimizada, las principales técnicas de la administración de datos, desarrollar aplicaciones Apache Spark con Kudu.
PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
Esta formación está diseñada para personas involucradas con el desarrollo del software y el análisis de datos, desarrolladores de software, ingenieros de datos, DBA, científicos de datos y analistas de datos.
- Los estudiantes deben saber SQL.
- Se recomienda cierta familiaridad con Impala, pero no es obligatorio.
- Los estudiantes también deben saber cómo desarrollar aplicaciones Apache Spark utilizando Python o Scala.
- Se espera experiencia básica de Linux.
Objetivos del curso
Mediante explicaciones completes y ejercicios prácticos los participantes aprenderán:
- Una explicación de alto nivel de Kudu.
- ¿Cómo se compara con otros sistemas de almacenamiento relevantes y qué casos de uso se implementarían mejor con Kudu?.
- Aprende sobre la arquitectura de Kudu y sobre cómo diseñar tablas que almacenarán datos para un rendimiento óptimo.
- Aprender técnicas de gestión de datos sobre cómo insertar, actualizar o eliminar registros de tablas Kudu utilizando Impala, así como métodos de carga masiva.
- Desarrollar aplicaciones Apache Spark con Apache Kudu.
Contenidos
Introducción
Descripción general y arquitectura
- ¿Qué es Kudu?
- ¿Por qué usar Kudu?
- Casos de uso de Kudu
- Descripción general de la arquitectura
- Herramientas Kudu
- Puntos esenciales
Tablas Apache Kudu
- Tablas Kudu
- Opciones de almacenamiento de datos
- Diseñando esquemas
- Tablas de particionamiento para un mejor rendimiento
- Uso de herramientas Kudu con tablas
- Puntos esenciales
Uso de Apache Kudu con Apache Impala
- Descripción general de Apache Impala
- Creación y consulta de tablas
- Eliminar tablas
- Cargando y modificando datos en tablas Kudu
- Definición de la estrategia de particionamiento
- Puntos esenciales
Desarrollo de aplicaciones Apache Spark con Apache Kudu
- Apache Spark y Apache Kudu
- Kudu, Spark SQL y DataFrames
- Gestión de datos de tablas Kudu con Scala
- Creación de tablas Kudu con Scala
- Puntos esenciales
Conclusión