Acerca de este curso
TASTE OF TRAINING
Este curso de 2 días presenta a los alumnos la capacidad de integración de datos de Google Cloud mediante Cloud Data Fusion.
En la presente formación analizaremos los desafíos de la integración de datos y la necesidad de una plataforma de integración de datos (middleware). Luego veremos cómo Cloud Data Fusion puede ayudar a integrar datos de forma efectiva de una variedad de fuentes y formatos y generar información. Echaremos también un vistazo a los componentes principales de Cloud Data Fusion y cómo funcionan, cómo procesar datos por lotes y transmisión de datos en tiempo real con un diseño de canalización visual, seguimiento enriquecido de metadatos y linaje de datos (data lineage), y cómo implementar canalizaciones de datos en varios motores de ejecución.
A quién va dirigido
Esta formación está dirigida a los siguientes roles laborales:
- Ingenieros de datos
- Analistas de datos
Prerrequisitos
Para aprovechar al máximo este curso, los participantes deben tener cursada la formación Google Cloud Platform Fundamentals: Big Data y Machine Learning o tener experiencia equivalente sobre conceptos básicos del aprendizaje automático.
Objetivos del curso
Este curso enseña a los participantes las siguientes habilidades:
- Identificar la necesidad de integración de datos
- Comprender las capacidades que ofrece Cloud Data Fusion como plataforma de integración de datos
- Identificar casos de uso para una posible implementación con Cloud Data Fusion
- Enumerar los componentes principales de Cloud Data Fusion
- Diseñar y ejecutar canalizaciones (pipelines) de procesamiento de datos por lotes y en tiempo real
- Trabajar con Wrangler para crear transformaciones de datos
- Utilizar conectores para integrar datos de varias fuentes y formatos,
- Configurar el entorno de ejecución
- Supervisar y solucionar problemas de ejecución de la canalización
- Comprender la relación entre los metadatos y el linaje de datos
Contenidos
Módulo 1: Introducción a la integración de datos y Cloud Data Fusion
- Integración de datos
- Herramientas de integración de datos utilizadas en la industria
- User personas
- Introducción a Cloud Data Fusion
- Capacidades críticas de integración de datos
- Componentes de la interfaz de usuario de Cloud Data Fusion
Módulo 2: Construcción de canalizaciones (pipelines)
- Arquitectura de Cloud Data Fusion
- Conceptos básicos
- Canalizaciones de datos y gráficos acíclicos dirigidos (DAG)
- Ciclo de vida de la canalización
- Diseño de canalizaciones en Pipeline Studio
Módulo 3: Diseño de pipelines complejas
- Ramificación, fusión y unión
- Acciones y notificaciones
- Manejo de errores y macros
- Configuraciones de tuberías, programación, importación y exportación
Módulo 4: Entorno de ejecución de canalización
- Horarios y triggers
- Entorno de ejecución: perfil informático y aprovisionadores
- Monitoreo de pipelines
Módulo 5: Creación de transformaciones y preparación de datos con Wrangler
- Wrangler
- Directivas
- Directivas definidas por el usuario
Módulo 6: Conectores y canalizaciones de transmisión
- Comprender la arquitectura de integración de datos.
- Enumerar varios conectores.
- Utilizar la API Cloud Data Loss Prevention (DLP).
- Comprender la arquitectura de referencia de las streaming pipelines.
- Crear y ejecutar una streaming pipeline.
Módulo 7: Metadatos y linaje de datos (data lineage)
- Metadatos
- Linaje de datos