Cloudera

DOPS-242: Ingesting with Cloudera DataFlow

Presencial / Live Virtual Class     28 horas       1840.00 €   1288.00€

Acerca de este curso

Una de las funciones más críticas de una empresa impulsada por datos es la capacidad para gestionar la ingesta y el flujo de datos en ecosistemas complejos. ¿Tiene su equipo las herramientas y conjuntos de habilidades necesarios para tener éxito?

Apache NiFi y este curso proporcionan los conceptos fundamentales y la experiencia necesaria para automatizar la ingesta, el flujo, la transformación y la salida de datos utilizando NiFi.

El curso también abarca el ajuste, la solución de problemas y la monitorización del proceso de flujo de datos, así como la integración de un dataflow dentro del ecosistema híbrido Cloudera CDP con sistemas externos.

A quién va dirigido

Este curso está diseñado para desarrolladores, ingenieros de datos, administradores y otros perfiles con interés en aprender el enfoque innovador sin código y gráfico de NiFi para la ingesta de datos.

Prerrequisitos

Aunque no se requiere experiencia en programación, se presume conocimientos básicos de Linux y la exposición previa a conceptos y aplicaciones de big data es útil.

Objetivos del curso

Los asistentes que completen con éxito este curso serán capaces de:

  • Definir, configurar, organizar y gestionar dataflows.
  • Transformar y rastrear datos mientras fluyen hacia su destino.
  • Hacer un seguimiento de los cambios en los dataflows con NiFi Registry.
  • Utilizar el lenguaje de expresión de NiFi para controlar dataflows.
  • Optimizar dataflows para un mejor rendimiento y mantenimiento.
  • Conectar dataflows con otros sistemas, como Apache Kafka, Apache Hive, y HDFS.
  • Utilizar el Data Flow Service.

Contenidos

Introducción a Cloudera Flow Management

  • Descripción general de Cloudera Data-In-Motion
  • Interfaz de Usuario de NiFi
  • Catálogo de Dataflow
  • ReadyFlows
  • Demostración guiada por el instructor: Interfaz de Usuario de NiFi
  • Ejercicio Práctico: Construye tu primer Dataflow

Procesadores

  • Descripción general de los Procesadores
  • Panel de Superficie del Procesador
  • Panel de Configuración del Procesador
  • Ejercicio Práctico: Comenzar a Construir un Dataflow Utilizando Procesadores

Conexiones

  • Descripción general de las Conexiones
  • Configuración de la Conexión
  • Menú Contextual del Conector
  • Ejercicio Práctico: Conectar Procesadores en Dataflow

Flujos de Datos

  • Comando y Control de un Dataflow
  • Relaciones del Procesador
  • Contrapresión
  • Priorizadores
  • Etiquetas
  • Ejercicio Práctico: Construir un Dataflow Más Complejo
  • Ejercicio Práctico: Crear una Bifurcación Utilizando Relaciones
  • Ejercicio Práctico: Establecer Umbrales de contrapresión

Grupos de Procesadores

  • Anatomía de un Grupo de Procesadores
  • Puertos de Entrada y Salida
  • Ejercicio Práctico: Simplificar Dataflows Utilizando Grupos de Procesadores

Proveniencia del FlowFile

  • Eventos de Data Provenance
  • Linaje del FlowFile
  • Reproducción de un FlowFile
  • Ejercicio Práctico: Utilizar Data Provenance

Parámetros

  • Contextos de Parámetros
  • Referencias a Parámetros
  • Gestión de Parámetros
  • Migración desde Variables
  • Ejercicio Práctico: Crear, Utilizar y Gestionar Parámetros

Definiciones de Flujo y Plantillas

  • Descripción General de la Definición de Flujo
  • Creación de una Definición de Flujo
  • Importación y Despliegue de un Flujo
  • Uso de (migración desde) Plantillas
  • Ejercicio Práctico: Crear, Utilizar y Gestionar Definiciones de Flujo

Registro de Apache NiFi

  • Descripción General del Registro de Apache NiFi
  • Uso del Registro
  • Ejercicio Práctico: Versionar Flujos Utilizando el Registro de NiFi

Atributos del FlowFile

  • Descripción General de los Atributos del FlowFile
  • Enrutamiento en Atributos
  • Ejercicio Práctico: Trabajar con Atributos del FlowFile

Lenguaje de Expresión de NiFi

  • Descripción General del Lenguaje de Expresión de NiFi
  • Sintaxis
  • Editor de Lenguaje de Expresión
  • Establecer Valores Condicionales
  • Ejercicio Práctico: Utilizar el Lenguaje de Expresión de NiFi

Servicios de Control

  • Descripción General de los Servicios de Control
  • Servicios de Control Comunes
  • Ejercicio Práctico: Agregar un Controlador de Apache Hive

Componentes Basados en Registros

  • Datos orientados a registros
  • Procesadores basados en registros
  • Registro del Esquema Avro
  • Formato del Esquema

Lectura y Escritura de Datos de Registro

  • Consulta de Datos de Registro
  • Procesador QueryRecord
  • Escritura de Datos de Registro
  • Ejercicio Práctico: Pendiente de Determinar (¿Crear una función para leer y escribir datos?)

Enriqueciendo Datos de Registro

  • Operaciones ETL
  • Procesador Split and Join
  • Procesadores Update Record
  • Procesadores Wait and Notify

Arquitectura de NiFi

  • Descripción General de la Arquitectura de NiFi
  • Arquitectura de NiFi en la Cloud Pública
  • Arquitectura de NiFi en la Cloud Privada

Funciones del Dataflow

  • Descripción General
  • Funciones Serverless
  • Demostración: Desplegar una Definición de Flujo como Función

Optimización del Dataflow

  • Descripción General de la Optimización del Dataflow
  • Tasa de Control
  • Gestión de Recursos
  • Ejercicio Práctico: Construir un Dataflow Optimizado

Monitorización, Informes y Solución de Problemas

  • Monitorización desde NiFi
  • Informes
  • Ejemplos de Tareas Comunes de Informes
  • Ejercicio Práctico: Monitorización e Informes

Seguridad de NiFi

  • Visión general de la seguridad en NiFi
  • Asegurando el acceso a la interfaz de usuario de NiFi
  • Gestión de metadatos

Integración de NiFi

  • Arquitectura de integración de NiFi
  • ReadyFlows disponibles
  • Un vistazo más cercano a NiFi y Apache Hive

Próximas convocatorias