Google Cloud

Data Integration with Cloud Data Fusion

Presencial / Live Virtual Class     14 horas       925,00 €   647,50€

Acerca de este curso

TASTE OF TRAINING

Este curso de 2 días presenta a los alumnos la capacidad de integración de datos de Google Cloud mediante Cloud Data Fusion.

En la presente formación analizaremos los desafíos de la integración de datos y la necesidad de una plataforma de integración de datos (middleware). Luego veremos cómo Cloud Data Fusion puede ayudar a integrar datos de forma efectiva de una variedad de fuentes y formatos y generar información. Echaremos también un vistazo a los componentes principales de Cloud Data Fusion y cómo funcionan, cómo procesar datos por lotes y transmisión de datos en tiempo real con un diseño de canalización visual, seguimiento enriquecido de metadatos y linaje de datos (data lineage), y cómo implementar canalizaciones de datos en varios motores de ejecución.

A quién va dirigido

Esta formación está dirigida a los siguientes roles laborales:

  • Ingenieros de datos
  • Analistas de datos

Prerrequisitos

Para aprovechar al máximo este curso, los participantes deben tener cursada la formación Google Cloud Platform Fundamentals: Big Data y Machine Learning o tener experiencia equivalente sobre conceptos básicos del aprendizaje automático.

Objetivos del curso

Este curso enseña a los participantes las siguientes habilidades:

  • Identificar la necesidad de integración de datos
  • Comprender las capacidades que ofrece Cloud Data Fusion como plataforma de integración de datos
  • Identificar casos de uso para una posible implementación con Cloud Data Fusion
  • Enumerar los componentes principales de Cloud Data Fusion
  • Diseñar y ejecutar canalizaciones (pipelines) de procesamiento de datos por lotes y en tiempo real
  • Trabajar con Wrangler para crear transformaciones de datos
  • Utilizar conectores para integrar datos de varias fuentes y formatos,
  • Configurar el entorno de ejecución
  • Supervisar y solucionar problemas de ejecución de la canalización
  • Comprender la relación entre los metadatos y el linaje de datos

Contenidos

Módulo 1: Introducción a la integración de datos y Cloud Data Fusion

  • Integración de datos
  • Herramientas de integración de datos utilizadas en la industria
  • User personas
  • Introducción a Cloud Data Fusion
  • Capacidades críticas de integración de datos
  • Componentes de la interfaz de usuario de Cloud Data Fusion

Módulo 2: Construcción de canalizaciones (pipelines)

  • Arquitectura de Cloud Data Fusion
  • Conceptos básicos
  • Canalizaciones de datos y gráficos acíclicos dirigidos (DAG)
  • Ciclo de vida de la canalización
  • Diseño de canalizaciones en Pipeline Studio

Módulo 3: Diseño de pipelines complejas

  • Ramificación, fusión y unión
  • Acciones y notificaciones
  • Manejo de errores y macros
  • Configuraciones de tuberías, programación, importación y exportación

Módulo 4: Entorno de ejecución de canalización

  • Horarios y triggers
  • Entorno de ejecución: perfil informático y aprovisionadores
  • Monitoreo de pipelines

Módulo 5: Creación de transformaciones y preparación de datos con Wrangler

  • Wrangler
  • Directivas
  • Directivas definidas por el usuario

Módulo 6: Conectores y canalizaciones de transmisión

  • Comprender la arquitectura de integración de datos.
  • Enumerar varios conectores.
  • Utilizar la API Cloud Data Loss Prevention (DLP).
  • Comprender la arquitectura de referencia de las streaming pipelines.
  • Crear y ejecutar una streaming pipeline.

Módulo 7: Metadatos y linaje de datos (data lineage)

  • Metadatos
  • Linaje de datos

Próximas convocatorias