Acerca de este curso
TASTE OF TRAINING
Este curso proporciona a los alumnos una introducción al diseño y construcción de sistemas de procesamiento de datos en Google Cloud Platform. Mediante la combinación de demos y laboratorios, los alumnos aprenderán a como diseñar sistemas de procesado de datos, construir canales end-to-end, analizar datos y realizar machine learning. Este curso cubre datos estructurados, no estructurados y transferencia continua
A quién va dirigido
Este curso está dirigido a desarrolladores con experiencia que son responsables de la administración de las transformaciones big data, incluyendo:
- Extracción, carga, transformación, limpieza y validación de datos.
- Diseño de pipelines y arquitecturas para procesamiento de datos.
- Creación y administración de machine learning y modelos estadísticos.
- Realizar consultar a dataset, visualización de resultados de consultar y creación de reportes.
Para aprovechar al máximo este curso, los alumnos deben tener:
- Completado el curso Google Cloud Fundamentals: Big Data & Machine Learning o experiencia equivalente.
- Competencia básica con lenguaje de consultas común como SQL.
- Experiencia con modelado, extracción, transformación y carga de datos.
- Competencia en desarrollo de aplicaciones utilizando un lenguaje de programación común como Python.
- Familiaridad con Machine Learning y/o estadística.
Objetivos del curso
Al finalizar este curso, el alumno será capaz de:
- Diseñar y construir sistemas de procesamiento de datos en Google Cloud Platform.
- Procesar datos batch y transferencia continua implementando canales de autoescalado de datos en Cloud Dataflow.
- Conseguir información de negoción de datasets enormes utilizando Google BigQuery.
- Evaluar y predecir utilizando modelos machine learning utilizando Tensorflow y Cloud ML.
- Hacer uso de datos no estructurado utilizando Spark y APIs ML en Cloud Datapro.
- Habilitar información instantánea de la transferencia continua de datos.
Contenidos
Introducción a la ingeniería de datos
- Conocer el rol de un ingeniero de datos.
- Analizar los desafíos de la ingeniería de datos.
- Introducción a BigQuery.
- Data Lakes y Data Warehouses.
- Demostración: Federated Queries con BigQuery.
- Bases de datos transaccionales vs Data Warehouses.
- Demostración web: Encontrar PII en su dataset con la API DLP.
- Asociación efectiva con otros equipos de datos.
- Gestionar el acceso a los datos y la gobernanza.
- Creación de pipelines listos para producción.
- Revisión del caso de estudio personalizado de GCP.
- Laboratorio: análisis de datos con BigQuery.
Creación de un Data Lake
- Introducción a Data Lakes.
- Almacenamiento de datos y opciones ETL en GCP.
- Creación de un Data Lake con almacenamiento en Cloud.
- Demostración opcional: optimización de costes con las clases de Google Cloud Storage y las funciones Cloud.
- Securizar el almacenamiento en Cloud.
- Almacenar de manera ordenada todo tipo de datos.
- Video demostración: ejecución de federated queries en ficheros ORC y Parquet en BigQuery.
- Cloud SQL como un Data Lake relacional.
- Laboratorio: Carga de datos procedentes de un taxi en Cloud SQL.
Creación de un Data Warehouse
- El Data Warehouse moderno.
- Introducción a BigQuery.
- Demostración: Query TB+ de datos en segundos.
- Introducción.
- Carga de datos.
- Video demostración: Consulta de Cloud SQL desde BigQuery.
- Laboratorio: carga de datos en BigQuery.
- Estudio de esquemas.
- Demostración: estudio de Datasets públicos de BigQuery con SQL utilizando INFORMATION_SCHEMA.
- Diseño de esquemas.
- Campos anidados y repetidos.
- Demostración: campos anidados y repetidos en BigQuery.
- Laboratorio: trabajar con datos JSON y Array en BigQuery.
- Optimización con particionamiento y clustering.
- Demostración: Tablas particionadas y clusterizadas en BigQuery.
- Vista previa: transformación de datos Batch y Streaming.
Introducción a la creación de Batch Data Pipelines
- EL, ELT, ETL.
- Consideraciones de calidad.
- Realizar operaciones en BigQuery.
- Demostración: ELT para mejorar la calidad de los datos en BigQuery.
- Deficiencias.
- ETL para resolver problemas de calidad de datos.
Ejecutar Spark en Cloud Dataproc
- El ecosistema de Hadoop.
- Ejecutar Hadoop en Cloud Dataproc.
- GCS en lugar de HDFS.
- Optimización de Dataproc.
- Laboratorio: ejecución de Apache Spark jobs en Cloud Dataproc.
Procesamiento de datos Serverless con Cloud Dataflow
- Cloud Dataflow.
- El valor del Dataflow para los clientes.
- Dataflow Pipelines.
- Laboratorio: Un Dataflow Pipeline simple (Python/Java).
- Laboratorio: MapReduce en Dataflow (Python/Java).
- Laboratorio: Side Inputs (Python/Java).
- Plantillas de Dataflow.
- Dataflow SQL.
Administrar Data Pipelines con Cloud Data Fusion y Cloud Composer
- Crear de manera visual Batch Data Pipelines con Cloud Data Fusion.
- Componentes.
- Descripción general de la UI.
- Creacion de un Pipeline.
- Estudio de datos con el uso de Wrangler.
- Laboratorio: creación y ejecución de un gráfico pipeline en Cloud Data Fusion.
- Orquestar el trabajo entre los servicios de GCP con Cloud Composer.
- Apache Airflow Environment.
- DAGs y Operadores.
- Programación de un Workflow.
- Demostración opcional: carga de datos activada por eventos con Cloud Composer, Cloud Functions, Cloud Storage y BigQuery.
- Monitorización y Logging.
- Laboratorio: Introducción a Cloud Composer.
Introducción al procesamiento de datos streaming
- Procesamiento de datos streaming.
Mensajería Serverless con Cloud Pub/Sub
- Cloud Pub/Sub.
- Laboratorio: Publicar datos streaming en Pub/Sub.
Características de Cloud Dataflow Streaming
- Características de BigQuery Streaming.
- Laboratorio: Streaming Data Pipelines.
Características de BigQuery Streaming y Bigtable de alto rendimiento
- Características streaming de BigQuery.
- Laboratorio: Streaming Analytics y Dashboards.
- Cloud Bigtable.
- Laboratorio: Streaming Data Pipelines en Bigtable.
Funcionalidad y rendimiento avanzados de BigQuery
- Funciones de ventana analíticas.
- Uso de cláusulas With.
- Funciones GIS.
- Demostración: mapear los códigos postales de más rápido crecimiento con BigQuery GeoViz.
- Consideraciones de rendimiento.
- Laboratorio: Optimización de consultas BigQuery para mejorar el rendimiento.
- Laboratorio opcional: creación de tablas particionadas por fecha en BigQuery.
Introducción a la analítica y la IA
- ¿Qué es la IA?
- Del análisis de datos Ad-hoc a las decisiones basadas en datos.
- Opciones para modelos ML en GCP.
APIs de modelado ML preconstruidas para datos no estructurados
- La dificultad de los datos no estructurados.
- APIs de ML para el enriquecimiento los datos.
- Laboratorio: uso de la API de lenguaje natural para clasificar texto no estructurado.
Análisis Big Data con Cloud AI Platform Notebooks
- ¿Qué es un Notebook?
- BigQuery Magic y Ties to Pandas.
- Laboratorio: BigQuery en Jupyter Labs para la plataforma IA.
Pipelines ML en producción con Kubeflow
- Métodos para aplicar ML en GCP.
- Kubeflow.
- AI Hub.
- Laboratorio: ejecución de modelos de IA en Kubeflow.
Creación de modelos personalizados con SQL en BigQuery ML
- BigQuery ML para Quick Model Building.
- Demostración: enseñar a un modelo de BigQuery ML a predecir las tarifas de taxi de Nueva York.
- Modelos compatibles.
- Laboratorio (Opción 1): Predecir la duración de un viaje en bicicleta con un modelo de regresión en BQML.
- Laboratorio (Opción 2): Recomendaciones de películas en BigQuery ML.
Creación de modelos personalizados con Cloud AutoML
- ¿Porqué utilizar Auto ML?
- Auto ML Vision.
- Auto ML NLP.
- Tablas Auto ML.