Acerca de este curso
Este curso para el diseño y construcción de aplicaciones Big Data prepara al alumno para analizar y resolver problemas del mundo real utilizando Apache Hadoop y herramientas asociadas al centro de datos empresariales. Este curso forma parte de la ruta de aprendizaje desarrollador.
Usted va a trabajar a través de todo el proceso de diseño y construcción de soluciones, incluyendo los datos de ingestión, determinar el formato de archivo adecuado para el almacenamiento, el procesamiento de los datos almacenados, y presentar los resultados al usuario final en una forma fácil de interpretar. Irá más allá de MapReduce para utilizar elementos adicionales del centro de datos empresarial y desarrollar aplicaciones de convergencia que son altamente relevantes para el negocio.
PUE es Strategic Partner de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
Los participantes ya deben haber asistido a Cloudera Desarrollador Formación para Apache Hadoop o tener experiencia profesional equivalente. Se requiere un buen conocimiento de Java y conocimientos básicos de Linux. También será recomendable tener experiencia de manejo básico de SQL.
Objetivos del curso
Al finalizar la formación, el participante sabrá:
- Creación de un conjunto de datos con el SDK de Kite
- Desarrollar componentes personalizados Flume para la ingestión de datos
- La gestión de un flujo de trabajo de varias etapas con Oozie
- Análisis de los datos con Crunch
- Escritura de funciones definidas por el usuario para Hive e Impala
- Transformar datos con Morphlines
- Indexación de datos con Cloudera Search
Contenidos
Introducción
Arquitectura de Aplicaciones
- Definición del entorno
- Entender el entorno de desarrollo
- La identificación y recolección de datos de entrada
- Selección de herramientas para análisis de datos
- La presentación de resultados al usuario
Definición y empleo de grupos de datos
- Administración de metadatos
- ¿Qué es Apache Avro?
- Avro Schemas
- Evolución de Avro Schema
- Selección de formato de archivos
- Consideraciones sobre rendimiento
Empleo del módulo de datos Kite SDK
- ¿Qué es el Kite SDK?
- Conceptos fundamentales de módulos de datos
- Creación de grupos de datos empleando el Kite SDK
- Carga, acceso y eliminación de grupos de datos
Importación de datos relacionales con Apache Sqoop
- ¿Qué es Apache Sqoop?
- Principales importaciones
- Limitar los resultados
- Mejora del rendimiento de Sqoop
- Sqoop 2
Captura de datos con Apache Flume
- ¿Qué es Apache Flume?
- Arquitectura básica de Flume
- Recursos Flume
- Flume Sinks
- Configuración de Flume
- Registro de eventos de aplicación en Hadoop
Desarrollo personalizado de componentes Flume
- Flujo de datos Flume y Common Extension Points
- Recursos personalizados en Flume
- Desarrollo de código de consulta Flume
- Desarrollo de código Flume Event•Driven
- Interceptores personalizados en Flume
- Desarrollo de una cabecera de Interceptores de modificación de Flume
- Desarrollo de un filtro interceptor en Flume
- Escribiro objetos interceptores Avr con canal de flujo personalizados
Administración de flujos de trabajo con Apache Oozie
- La necesidad de gestión de flujo de trabajo
- ¿Qué es Apache Oozie?
- El flujo de trabajo Oozie
- Validación, empaquetamiento y despliegue
- Ejecución y seguimiento de flujos de trabajo empleando CLI
- Hue UI para Oozie
Procesamiento de Pipelines de datos con Apache Crunch
- ¿Qué es Apache Crunch?
- Entender Crunch Pipeline
- Comparación entre Crunch y Java MapReduce
- Trabajo con proyectos Crunch
- Lectura y escritura de datos en Crunch
- APIs de colecciones de datos
- Funciones
- Clases de servicios públicos en la API Crunch
Trabajos con tablas en Apache Hive
- ¿Qué es Apache Hive?
- Acceso Hive
- Sintaxis de consultas básicas
- Crear y llenar tablas Hive
- Cómo Hive lee datos
- Empleo de RegexSerDe en Hive
- Esquema del curso: Diseño y construcción de Aplicaciones Big Data
Desarrollo de funciones predefinidas por usuarios
- ¿Qué son las funciones predefinidas por usuarios?
- Implementación de funciones predefinidas por usuarios
- Desarrollo de librerías configurables en Hive
- Registo de funciones predefinidas por usuarios
Ejecución de consultas interactivas con Impala
- ¿Qué es Impala?
- Comparación entre Hive e Impala
- Ejecución de consultas en Impala
- Soporte para funciones predefinidas por usuarios
- Gestión de datos y metadatos
Acercamiento a Cloudera Search
- ¿Qué es Cloudera Search?
- Arquitectura Search
- Formato de documentos soportados
Indexación de datos con Cloudera Search
- Administración de colecciones y Schemas
- Morphlines
- Indexación de datos en modo Batch
- Indexación de datos próxima al tiempo real
Presentación de resultados a usuarios
- Sintaxis de consultas Solr
- Construcción de Search UI con Hue
- Acceso a Impala a través de JDBC
- Alimentación de una aplicación Web personalizada con Impala y Search
Conclusión