Google Cloud

Serverless Data Processing with Dataflow

21 horas
1380,00 €
Presencial o Live Virtual Class
Presencial o Live Virtual Class

Acerca de este curso

TASTE OF TRAINING

Esta capacitación está dirigida a los profesionales de big data que desean profundizar su comprensión de Dataflow para avanzar en sus aplicaciones de procesamiento de datos.

Comenzando con los fundamentos, esta capacitación explica cómo Apache Beam y Dataflow trabajan juntos para satisfacer sus necesidades de procesamiento de datos sin el riesgo de quedar atrapado por el proveedor. La sección sobre desarrollo de canalizaciones cubre cómo convertir su lógica empresarial en aplicaciones de procesamiento de datos que se pueden ejecutar en Dataflow.

Esta capacitación culmina con un enfoque en las operaciones, que revisa las lecciones más importantes para operar una aplicación de datos en Dataflow, incluido el monitoreo, la resolución de problemas, las pruebas y la confiabilidad.

A quién va dirigido

Esta clase está destinada a los siguientes roles laborales:

  • Ingenieros de datos
  • Analistas de datos y científicos de datos que aspiran a desarrollar habilidades de ingeniería de datos

Para aprovechar al máximo este curso, los participantes deben tener alguna experiencia laboral previa con Dataflow.

Objetivos del curso

Este curso enseña a los participantes las siguientes habilidades:

  • Demuestre cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de su organización.
  • Resuma los beneficios del marco de portabilidad de Beam y habilítelo para sus canalizaciones de Dataflow.
  • Habilite Shuffle y Streaming Engine, para canalizaciones por lotes y de transmisión, respectivamente, para obtener el máximo rendimiento.
  • Habilite la programación flexible de recursos para un rendimiento más rentable.
  • Seleccione la combinación correcta de permisos de IAM para su trabajo de Dataflow.
  • Implemente las mejores prácticas para un entorno de procesamiento de datos seguro.
  • Seleccione y ajuste la E / S de su elección para su canalización de Dataflow.
  • Utilice esquemas para simplificar su código de Beam y mejorar el rendimiento de su canalización.
  • Desarrolle una canalización de Beam utilizando SQL y DataFrames.
  • Realice tareas de supervisión, resolución de problemas, pruebas y CI / CD en las canalizaciones de Dataflow.

Contenidos

Módulo 1: Introducción

  • Introducción de los objetivos del curso.
  • Demuestre cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de su organización.

Módulo 2: Beam Portability

  • Resuma los beneficios del Beam Portability Framework.
  • Personalice el entorno de procesamiento de datos de su canalización utilizando contenedores personalizados.
  • Revise los casos de uso para las transformaciones entre idiomas.
  • Habilite el marco de portabilidad para sus canalizaciones de Dataflow.

Módulo 3: Separación de computación y almacenamiento con Dataflow

  • Habilite Shuffle y Streaming Engine para canalizaciones por lotes y de transmisión, respectivamente, para obtener el máximo rendimiento.
  • Habilite la programación flexible de recursos para un rendimiento más rentable.

Módulo 4: IAM, cuotas y permisos

  • Seleccione la combinación correcta de permisos de IAM para su trabajo de Dataflow.
  • Determina tus necesidades de capacidad al inspeccionar las cuotas relevantes para tus trabajos de Dataflow.

Módulo 5: Seguridad

  • Seleccione su estrategia de procesamiento de datos zonal con Dataflow, según las necesidades de la localidad de sus datos.
  • Implemente las mejores prácticas para un entorno de procesamiento de datos seguro.

Módulo 6: Beam Concepts Review

  • Revise los conceptos principales de Apache Beam (Pipeline, PCollections, PTransforms, Runner, lectura / escritura, Utility PTransforms, entradas laterales), paquetes y DoFn Lifecycle.

Módulo 7: Windows, Watermarks, Triggers

  • Implemente lógica para manejar sus datos retrasados.
  • Revise los diferentes tipos de desencadenantes.
  • Revise los conceptos básicos de transmisión (PCollections ilimitadas, Windows).

Módulo 8: Fuentes y sumideros

  • Escriba la E/S de su elección para su canalización de Dataflow.
  • Ajuste su transformación de fuente / sumidero para obtener el máximo rendimiento.
  • Cree fuentes y receptores personalizados con SDF.

Módulo 9: Esquemas

  • Introduzca esquemas, que brindan a los desarrolladores una forma de expresar datos estructurados en sus canalizaciones de Beam.
  • Utilice esquemas para simplificar su código de Beam y mejorar el rendimiento de su canalización.

Módulo 10: Estado y temporizadores

  • Identificar casos de uso para implementaciones de API de temporizador y estado.
  • Seleccione el tipo de estado y temporizadores adecuados para su canalización.

Módulo 11: Mejores prácticas

  • Implementa las mejores prácticas para las canalizaciones de Dataflow.

Módulo 12: Dataflow SQL y DataFrames

  • Desarrolle una canalización de Beam utilizando SQL y DataFrames.

Módulo 13: Portátiles Beam

  • Crea un prototipo de tu canalización en Python con los cuadernos de Beam.
  • Utilice la magia de Beam para controlar el comportamiento de la grabación de la fuente en su computadora portátil.
  • Inicie un trabajo en Dataflow desde una computadora portátil.

Módulo 14: Monitoreo

  • Navegue por la IU de detalles del trabajo de Dataflow.
  • Interprete gráficos de métricas de trabajo para diagnosticar regresiones de canalización.
  • Establezca alertas en trabajos de Dataflow mediante Cloud Monitoring.

Módulo 15: Registro e informes de errores

  • Use los widgets de diagnóstico y registros de Dataflow para solucionar problemas de canalización.

Módulo 16: Solución de problemas y depuración

  • Usa un enfoque estructurado para depurar tus canalizaciones de Dataflow.
  • Examine las causas comunes de fallas en las tuberías.

Módulo 17: Desempeño

  • Comprenda las consideraciones de rendimiento de las canalizaciones.
  • Considere cómo la forma de sus datos puede afectar el rendimiento de la canalización.

Módulo 18: Pruebas y CI / CD

  • Probar enfoques para su canalización de Dataflow.
  • Revise los marcos y las funciones disponibles para optimizar su flujo de trabajo de CI / CD para las canalizaciones de Dataflow.

Módulo 19: Fiabilidad

  • Implemente las mejores prácticas de confiabilidad para sus canalizaciones de Dataflow.

Módulo 20: Plantillas Flex

  • Uso de plantillas flexibles para estandarizar y reutilizar el código de canalización de Dataflow.

Módulo 21: Resumen

  • Resumen.

Convocatorias abiertas