Serverless Data Processing with Dataflow

Presencial / Live Virtual Class

21 horas

1380.00 €

Solicitar Info

Actualmente no existen convocatorias programadas para estos cursos

Acerca de este curso

TASTE OF TRAINING

Esta capacitación está dirigida a los profesionales de big data que desean profundizar su comprensión de Dataflow para avanzar en sus aplicaciones de procesamiento de datos.

Comenzando con los fundamentos, esta capacitación explica cómo Apache Beam y Dataflow trabajan juntos para satisfacer sus necesidades de procesamiento de datos sin el riesgo de quedar atrapado por el proveedor. La sección sobre desarrollo de canalizaciones cubre cómo convertir su lógica empresarial en aplicaciones de procesamiento de datos que se pueden ejecutar en Dataflow.

Esta capacitación culmina con un enfoque en las operaciones, que revisa las lecciones más importantes para operar una aplicación de datos en Dataflow, incluido el monitoreo, la resolución de problemas, las pruebas y la confiabilidad.

A quién va dirigido

Esta clase está destinada a los siguientes roles laborales:

Ingenieros de datos
Analistas de datos y científicos de datos que aspiran a desarrollar habilidades de ingeniería de datos

Para aprovechar al máximo este curso, los participantes deben tener alguna experiencia laboral previa con Dataflow.

Objetivos del curso

Este curso enseña a los participantes las siguientes habilidades:

Demuestre cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de su organización.
Resuma los beneficios del marco de portabilidad de Beam y habilítelo para sus canalizaciones de Dataflow.
Habilite Shuffle y Streaming Engine, para canalizaciones por lotes y de transmisión, respectivamente, para obtener el máximo rendimiento.
Habilite la programación flexible de recursos para un rendimiento más rentable.
Seleccione la combinación correcta de permisos de IAM para su trabajo de Dataflow.
Implemente las mejores prácticas para un entorno de procesamiento de datos seguro.
Seleccione y ajuste la E / S de su elección para su canalización de Dataflow.
Utilice esquemas para simplificar su código de Beam y mejorar el rendimiento de su canalización.
Desarrolle una canalización de Beam utilizando SQL y DataFrames.
Realice tareas de supervisión, resolución de problemas, pruebas y CI / CD en las canalizaciones de Dataflow.

Contenidos

Módulo 1: Introducción

Introducción de los objetivos del curso.
Demuestre cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de su organización.

Módulo 2: Beam Portability

Resuma los beneficios del Beam Portability Framework.
Personalice el entorno de procesamiento de datos de su canalización utilizando contenedores personalizados.
Revise los casos de uso para las transformaciones entre idiomas.
Habilite el marco de portabilidad para sus canalizaciones de Dataflow.

Módulo 3: Separación de computación y almacenamiento con Dataflow

Habilite Shuffle y Streaming Engine para canalizaciones por lotes y de transmisión, respectivamente, para obtener el máximo rendimiento.
Habilite la programación flexible de recursos para un rendimiento más rentable.

Módulo 4: IAM, cuotas y permisos

Seleccione la combinación correcta de permisos de IAM para su trabajo de Dataflow.
Determina tus necesidades de capacidad al inspeccionar las cuotas relevantes para tus trabajos de Dataflow.

Módulo 5: Seguridad

Seleccione su estrategia de procesamiento de datos zonal con Dataflow, según las necesidades de la localidad de sus datos.
Implemente las mejores prácticas para un entorno de procesamiento de datos seguro.

Módulo 6: Beam Concepts Review

Revise los conceptos principales de Apache Beam (Pipeline, PCollections, PTransforms, Runner, lectura / escritura, Utility PTransforms, entradas laterales), paquetes y DoFn Lifecycle.

Módulo 7: Windows, Watermarks, Triggers

Implemente lógica para manejar sus datos retrasados.
Revise los diferentes tipos de desencadenantes.
Revise los conceptos básicos de transmisión (PCollections ilimitadas, Windows).

Módulo 8: Fuentes y sumideros

Escriba la E/S de su elección para su canalización de Dataflow.
Ajuste su transformación de fuente / sumidero para obtener el máximo rendimiento.
Cree fuentes y receptores personalizados con SDF.

Módulo 9: Esquemas

Introduzca esquemas, que brindan a los desarrolladores una forma de expresar datos estructurados en sus canalizaciones de Beam.
Utilice esquemas para simplificar su código de Beam y mejorar el rendimiento de su canalización.

Módulo 10: Estado y temporizadores

Identificar casos de uso para implementaciones de API de temporizador y estado.
Seleccione el tipo de estado y temporizadores adecuados para su canalización.

Módulo 11: Mejores prácticas

Implementa las mejores prácticas para las canalizaciones de Dataflow.

Módulo 12: Dataflow SQL y DataFrames

Desarrolle una canalización de Beam utilizando SQL y DataFrames.

Módulo 13: Portátiles Beam

Crea un prototipo de tu canalización en Python con los cuadernos de Beam.
Utilice la magia de Beam para controlar el comportamiento de la grabación de la fuente en su computadora portátil.
Inicie un trabajo en Dataflow desde una computadora portátil.

Módulo 14: Monitoreo

Navegue por la IU de detalles del trabajo de Dataflow.
Interprete gráficos de métricas de trabajo para diagnosticar regresiones de canalización.
Establezca alertas en trabajos de Dataflow mediante Cloud Monitoring.

Módulo 15: Registro e informes de errores

Use los widgets de diagnóstico y registros de Dataflow para solucionar problemas de canalización.

Módulo 16: Solución de problemas y depuración

Usa un enfoque estructurado para depurar tus canalizaciones de Dataflow.
Examine las causas comunes de fallas en las tuberías.

Módulo 17: Desempeño

Comprenda las consideraciones de rendimiento de las canalizaciones.
Considere cómo la forma de sus datos puede afectar el rendimiento de la canalización.

Módulo 18: Pruebas y CI / CD

Probar enfoques para su canalización de Dataflow.
Revise los marcos y las funciones disponibles para optimizar su flujo de trabajo de CI / CD para las canalizaciones de Dataflow.

Módulo 19: Fiabilidad

Implemente las mejores prácticas de confiabilidad para sus canalizaciones de Dataflow.

Módulo 20: Plantillas Flex

Uso de plantillas flexibles para estandarizar y reutilizar el código de canalización de Dataflow.

Módulo 21: Resumen

Resumen.

Próximas convocatorias

Actualmente no existen convocatorias programadas para estos cursos

Para más información:

training@pue.es

BCN: (+34) 93 206 02 49

¿Dónde estamos?