Designing and Building Big Data Applications

Presencial / Live Virtual Class

28 horas

1840.00 €

Solicitar Info

Actualmente no existen convocatorias programadas para estos cursos

Acerca de este curso

Este curso para el diseño y construcción de aplicaciones Big Data prepara al alumno para analizar y resolver problemas del mundo real utilizando Apache Hadoop y herramientas asociadas al centro de datos empresariales. Este curso forma parte de la ruta de aprendizaje desarrollador.

Usted va a trabajar a través de todo el proceso de diseño y construcción de soluciones, incluyendo los datos de ingestión, determinar el formato de archivo adecuado para el almacenamiento, el procesamiento de los datos almacenados, y presentar los resultados al usuario final en una forma fácil de interpretar. Irá más allá de MapReduce para utilizar elementos adicionales del centro de datos empresarial y desarrollar aplicaciones de convergencia que son altamente relevantes para el negocio.

PUE es Strategic Partner de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Los participantes ya deben haber asistido a Cloudera Desarrollador Formación para Apache Hadoop o tener experiencia profesional equivalente. Se requiere un buen conocimiento de Java y conocimientos básicos de Linux. También será recomendable tener experiencia de manejo básico de SQL.

Objetivos del curso

Al finalizar la formación, el participante sabrá:

Creación de un conjunto de datos con el SDK de Kite
Desarrollar componentes personalizados Flume para la ingestión de datos
La gestión de un flujo de trabajo de varias etapas con Oozie
Análisis de los datos con Crunch
Escritura de funciones definidas por el usuario para Hive e Impala
Transformar datos con Morphlines
Indexación de datos con Cloudera Search

Contenidos

Introducción

Arquitectura de Aplicaciones

Definición del entorno
Entender el entorno de desarrollo
La identificación y recolección de datos de entrada
Selección de herramientas para análisis de datos
La presentación de resultados al usuario

Definición y empleo de grupos de datos

Administración de metadatos
¿Qué es Apache Avro?
Avro Schemas
Evolución de Avro Schema
Selección de formato de archivos
Consideraciones sobre rendimiento

Empleo del módulo de datos Kite SDK

¿Qué es el Kite SDK?
Conceptos fundamentales de módulos de datos
Creación de grupos de datos empleando el Kite SDK
Carga, acceso y eliminación de grupos de datos

Importación de datos relacionales con Apache Sqoop

¿Qué es Apache Sqoop?
Principales importaciones
Limitar los resultados
Mejora del rendimiento de Sqoop
Sqoop 2

Captura de datos con Apache Flume

¿Qué es Apache Flume?
Arquitectura básica de Flume
Recursos Flume
Flume Sinks
Configuración de Flume
Registro de eventos de aplicación en Hadoop

Desarrollo personalizado de componentes Flume

Flujo de datos Flume y Common Extension Points
Recursos personalizados en Flume
Desarrollo de código de consulta Flume
Desarrollo de código Flume Event•Driven
Interceptores personalizados en Flume
Desarrollo de una cabecera de Interceptores de modificación de Flume
Desarrollo de un filtro interceptor en Flume
Escribiro objetos interceptores Avr con canal de flujo personalizados

Administración de flujos de trabajo con Apache Oozie

La necesidad de gestión de flujo de trabajo
¿Qué es Apache Oozie?
El flujo de trabajo Oozie
Validación, empaquetamiento y despliegue
Ejecución y seguimiento de flujos de trabajo empleando CLI
Hue UI para Oozie

Procesamiento de Pipelines de datos con Apache Crunch

¿Qué es Apache Crunch?
Entender Crunch Pipeline
Comparación entre Crunch y Java MapReduce
Trabajo con proyectos Crunch
Lectura y escritura de datos en Crunch
APIs de colecciones de datos
Funciones
Clases de servicios públicos en la API Crunch

Trabajos con tablas en Apache Hive

¿Qué es Apache Hive?
Acceso Hive
Sintaxis de consultas básicas
Crear y llenar tablas Hive
Cómo Hive lee datos
Empleo de RegexSerDe en Hive
Esquema del curso: Diseño y construcción de Aplicaciones Big Data

Desarrollo de funciones predefinidas por usuarios

¿Qué son las funciones predefinidas por usuarios?
Implementación de funciones predefinidas por usuarios
Desarrollo de librerías configurables en Hive
Registo de funciones predefinidas por usuarios

Ejecución de consultas interactivas con Impala

¿Qué es Impala?
Comparación entre Hive e Impala
Ejecución de consultas en Impala
Soporte para funciones predefinidas por usuarios
Gestión de datos y metadatos

Acercamiento a Cloudera Search

¿Qué es Cloudera Search?
Arquitectura Search
Formato de documentos soportados

Indexación de datos con Cloudera Search

Administración de colecciones y Schemas
Morphlines
Indexación de datos en modo Batch
Indexación de datos próxima al tiempo real

Presentación de resultados a usuarios

Sintaxis de consultas Solr
Construcción de Search UI con Hue
Acceso a Impala a través de JDBC
Alimentación de una aplicación Web personalizada con Impala y Search

Conclusión

Próximas convocatorias

Actualmente no existen convocatorias programadas para estos cursos

Para más información:

training@pue.es

BCN: (+34) 93 206 02 49

¿Dónde estamos?