Acerca de este curso
TASTE OF TRAINING
En esta formación, los participantes aprenderán a explorar formas de obtener información a partir de datos mediante BigQuery, el datawaehouse serverless altamente escalable y rentable de Google Cloud. Este curso utiliza demostraciones y laboratorios prácticos para enseñarle los fundamentos de BigQuery, incluyendo cómo crear un pipeline de transformación de datos, construir un dashboard de BI, ingesta de datasets y diseñar esquemas a escala.
A quién va dirigido
Este curso está dirigido a:
- Analistas de datos, analistas de negocio, profesionales de Business Intelligence
- Ingenieros de datos de la nube, que colaboraran con analistas de datos, con el objetivo de montar una solución de datos escalable en Google Cloud Platform
Prerrequisitos:
Para aprovechar al máximo este curso, los participantes deben tener:
- Conocimiento previo básico de ANSI SQL.
Objetivos del curso
Este curso enseña a los participantes las siguientes habilidades:
- Obnener información a partir de los datos mediante las herramientas de análisis y visualización de Google Cloud.
- Cargar, limpiar y transformar datos con Dataprep
- Explorar y visualizar datos con Looker Studio
- Solucionar problemas, optimizar y escribir consultas de alto rendimiento
- Practicar con la API de ML predefinidas para la comprensión de imágenes y texto
- Entrenar modelos ML de clasificación y previsión utilizando SQL con BigQuery ML
Contenidos
Módulo 1: Introducción a los datos en Google Cloud
- Comparación de la infraestructura de datos local y en Google Cloud
Módulo 2: Análisis de grandes conjuntos de datos con BigQuery
- Identificar las tareas y los retos de los analistas de datos e introducir las herramientas de datos de Google Cloud
- Explorar las características fundamentales de BigQuery
- Comparar las diferencias en las funciones y los conjuntos de herramientas entre analistas de datos, científicos de datos e ingenieros de datos
- Acceder a la interfaz de usuario web de BigQuery y explorar un conjunto de datos público con SQL básico
Módulo 3: Exploración de datos públicos de BigQuery con SQL
- Comparar técnicas comunes de exploración de datos
- Identificar los componentes clave de una sentencia SQL SELECT básica y los errores más comunes
- Debatir los fundamentos de las funciones SQL y cómo crear campos calculados con parámetros de entrada
- Explorar datos públicos de BigQuery
- Resolución de problemas de calidad de conjuntos de datos mediante el análisis de registros duplicados con SQL en la interfaz web de BigQuery
Módulo 4: Limpieza y transformación de datos con Dataprep
- Distinguir las diferentes formas de los conjuntos de datos y sus posibles sesgos
- Limpiar y transformar datos mediante SQL
- Limpiar y transformar datos con Dataprep
Módulo 5: Visualización de información y creación de consultas programadas
- Comparar visualizaciones de datos y hacer recomendaciones de mejora
- Creación de cuadros de mando y visualizaciones con Looker Studio
Módulo 6: Almacenamiento e ingesta de nuevos conjuntos de datos
- Diferenciar entre tablas de datos permanentes y temporales
- Identificar los tipos y formatos de datos que BigQuery puede ingestar
- Diferenciar entre el almacenamiento de tablas nativo de BigQuery y las conexiones de fuentes de datos externas
- Cargar nuevos datos en BigQuery
Módulo 7: Enriquecimiento del almacén de datos con JOINs
- Explicar cuándo utilizar UNIONs y cuándo utilizar JOINs
- Identificar las principales dificultades a la hora de unir y combinar conjuntos de datos
- Diferenciar visualmente los tipos de unión
- Explicar cómo funcionan los comodines de unión y cuándo utilizarlos
- Escribir SQL JOINs y UNIONs contra un conjunto de datos en la interfaz web de BigQuery
Módulo 8: Funciones avanzadas y partición de consultas y tablas para obtener información avanzada
- Identificar las funciones de aproximación estadística disponibles y las funciones definidas por el usuario
- Aplicar la estimación de registros a gran escala con funciones de agregación aproximada
- Deconstruir una consulta de ventana analítica y explicar cuándo utilizar RANK() y PARTITION
- Explicar cuándo utilizar Common Table Expressions (WITH) para descomponer consultas complejas
Módulo 9: Diseño de esquemas a escala: Arrays y estructuras en BigQuery
- Diferenciar entre BigQuery y la arquitectura de datos tradicional
- Trabajar con ARRAYs y STRUCTs como parte de campos anidados en esquemas de datos
Módulo 10: Optimización del rendimiento de las consultas
- Identificar los problemas de rendimiento de BigQuery
- Analizar el “execution plan" y cómo interpretar los tiempos de procesamiento MAX y AVG por step
- Describir cómo analizar y solucionar problemas de consultas fallidas
Módulo 11: Control del acceso con las mejores prácticas de seguridad de datos
- Revisión de los roles de acceso a datos en Google Cloud y BigQuery
- Destacar los principales problemas de acceso a los datos y cómo evitarlos
Módulo 12: Predecir las compras de retorno de los visitantes con BigQuery ML
- Explicar cómo ML en datos estructurados impulsa el valor
- Describir cómo se puede predecir el LTV del cliente con un modelo ML
- Elegir el tipo de modelo adecuado para diferentes casos de uso de datos estructurados
- Crear modelos ML con SQL
Módulo 13: Obtención de información a partir de datos no estructurados mediante el aprendizaje automático
- Argumentar cómo ML es capaz de impulsar el valor de negocio
- Explicar cómo funciona el ML en datos no estructurados
- Diferenciar entre modelos ML pre-construidos, modelos personalizados y nuevos modelos al considerar una estrategia de aplicación de IA