Acerca de este curso
Los equipos de data science necesitan acceso colaborativo a datos comerciales, herramientas y recursos informáticos necesarios para desarrollar e implementar workflows de aprendizaje automático. Cloudera Machine Learning (CML), componente de la Plataforma de Datos Cloudera (CDP), proporciona la solución, brindando a los equipos de data-science los recursos necesarios.
Este curso abarca workflows y operaciones de aprendizaje automático utilizando CML. Los participantes explorarán, visualizarán y analizarán datos. También entrenarán, evaluarán e implementarán modelos de aprendizaje automático. El curso recorre un workflow completo de data-science y machine learning basado en escenarios y conjuntos de datos realistas de una empresa tecnológica ficticia. Las demostraciones y ejercicios se realizan en Python (con PySpark) utilizando CML.
A quién va dirigido
El curso está diseñado para científicos de datos que deseen comprender cómo utilizar Cloudera Machine Learning y la Plataforma de Datos Cloudera para lograr un desarrollo más ágil de modelos y ofrecer aprendizaje automático en producción a escala. Los ingenieros de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán útil este curso.
Prerrequisitos:
- Los participantes deben tener un conocimiento básico de Python o R y algo de experiencia explorando, analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requieren conocimientos de Spark, Hadoop o de la plataforma Cloudera.
Objetivos del curso
Los asistentes que completen con éxito este curso serán capaces de:
- Utilizar Cloudera SDX y otros componentes de la Plataforma de Datos Cloudera para localizar datos para experimentos de aprendizaje automático.
- Utilizar un Prototipo de ML Aplicado (AMP).
- Gestionar experimentos de aprendizaje automático.
- Conectar con diversas fuentes de datos y explorar datos.
- Utilizar Apache Spark y Spark ML.
- Implementar un modelo de ML como una API REST.
- Gestionar y supervisar modelos de ML implementados.
Contenidos
Introducción a CML
- Visión General.
- CML versus CDSW.
- Espacios de Trabajo de ML.
- Roles de Espacios de Trabajo.
- Proyectos y Equipos.
- Configuraciones.
- Runtimes/Motores Antiguos.
Introducción a AMPs y el Banco de Trabajo
- Editores e IDE.
- Git.
- Aplicaciones Web Integradas.
- AMPs.
Acceso y Linaje de Datos
- Visión General de SDX.
- Catálogo de Datos.
- Autorización.
- Linaje.
Visualización de Datos en CML
- Visión General de Visualización de Datos.
- Conceptos de Visualización de Datos en CDP.
- Uso de la Visualización de Datos en CML.
Experimentos
- Experimentos en CML.
Introducción al Banco de Trabajo Nativo de CML
- Escribiendo Código.
- Obtener Ayuda.
- Acceder a la Línea de Comandos de Linux.
- Trabajar con Paquetes de Python.
- Formatear la Salida de la Sesión.
Visión General de Spark
- Cómo Funciona Spark.
- Spark Stack.
- Formatos de Archivos en Spark.
- Lenguajes de Interfaz de Spark.
- Introducción a PySpark.
- Cómo las Operaciones de DataFrame se Convierten en Trabajos de Spark.
- Cómo Spark Ejecuta un Trabajo.
Ejecución de una Aplicación Spark
- Ejecución de una Aplicación Spark.
- Lectura de datos en un DataFrame de Spark SQL.
- Examinar el Esquema de un DataFrame.
- Calcular el Número de Filas y Columnas de un DataFrame.
- Examinar Algunas Filas de un DataFrame.
- Detener una Aplicación Spark.
Inspeccionar un DataFrame de Spark
- Inspeccionar un DataFrame.
- Inspeccionar una Columna de DataFrame.
Transformación de DataFrames
- DataFrames de Spark SQL.
- Trabajar con Columnas.
- Trabajar con Filas.
- Trabajar con Valores Perdidos.
Transformar Columnas de DataFrame
- Tipos de Datos de Spark SQL.
- Trabajar con Columnas Numéricas.
- Trabajar con Columnas de Cadena.
- Trabajar con Columnas de Fecha y Timestamp.
- Trabajar con Columnas Booleanas.
Tipos Complejos
- Tipos de Datos de Colección Compleja.
- Matrices.
- Mapas.
- Estructuras.
Funciones Definidas por el Usuario
- Funciones Definidas por el Usuario.
- Ejemplo 1: Hora del Día.
- Ejemplo 2: Great-Circle Distance.
Lectura y Escritura de DataFrames
- Trabajar con Archivos de Texto Delimitado.
- Trabajar con Archivos de Texto.
- Trabajar con Archivos Parquet.
- Trabajar con Tablas Hive.
- Trabajar con Almacenes de Objetos.
- Trabajar con Panda Dataframe.
Combinación y División de DataFrames
- Combinar y Dividir DataFrames.
- Unir DataFrames.
- Dividir un DataFrame.
Resumen y Agrupación de DataFrames
- Resumir Datos con Funciones de Agregación.
- Agrupar Datos.
- Pivote de Datos.
Funciones de Ventana
- Funciones de Ventana.
- Ejemplo: Recuento y Suma Acumulativa.
- Ejemplo: Calcular el Promedio de Días Entre Viajes para Cada Conductor.
Visión General de Aprendizaje Automático
- Introducción al Aprendizaje Automático.
- Herramientas de Aprendizaje Automático.
Apache Spark MLlib
- Introducción a Apache Spark MLlib.
Explorar y Visualizar DataFrames
- Posibles Flujos de Trabajo para Big Data.
- Explorar una única Variable.
- Explorar un Par de Variables.
Monitorización, Ajuste y Configuración de Aplicaciones Spark
- Monitorización de Aplicaciones Spark.
- Configuración del Entorno Spark.
Ajuste y Evaluación de Modelos de Regresión
- Ensamblar el Vector de propiedades de entrada.
- Ajustar el Modelo de Regresión Lineal.
Ajuste y Evaluación de Modelos de Clasificación
- Generación de Etiquetas.
- Ajustar el Modelo de Regresión Logística.
Ajuste de Hiperparámetros del Algoritmo Utilizando Búsquedas en Cuadrícula
- Requisitos para la Ajuste de Hiperparámetros.
- Ajustar los Hiperparámetros utilizando el método Holdout Cross-Validation.
- Ajustar los Hiperparámetros utilizando el método K-Fold Cross-Validation.
Ajuste y Evaluación de Modelos de Clustering
- Imprimir y Dibujar las Coordenadas de Inicio.
- Ajustar un Modelo de Mezcla Gaussiana.
- Explorar los Perfiles de los Grupos.
Procesamiento de Texto: Ajuste y Evaluación de Modelos de Temas
- Ajustar un Modelo de Temas Utilizando el método de Asignación Latente de Dirichlet
Ajuste y Evaluación de Modelos de Recomendación
- Modelos de Recomendación.
- Generar Recomendaciones.
Trabajar con Pipelines de Aprendizaje Automático
- Ajustar el Modelo de Pipeline.
- Inspeccionar el Modelo de Pipeline.
Aplicar un Modelo de Scikit-Learn a un DataFrame de Spark
- Construir un Modelo de Scikit-Learn.
- Aplicar el Modelo Utilizando una Función UDF de Spark.
Implementar un Modelo de Aprendizaje Automático como una API REST en CML
- Cargar el Modelo Serializado.
- Definir una Función Wrapperpara Generar una Predicción.
- Probar la Función.
Auto-scaling, Rendimiento y Configuración de GPU
- Autoscalado de Cargas de Trabajo.
- Trabajar con GPUs.
Métricas y Monitorización de Modelos
- ¿Por qué Monitorear Modelos?.
- Métricas de Modelos Comunes.
- Monitorización de Modelos con Evidently.
- Monitorización de Modelos Continua.
Apéndice: Provisión de Espacios de Trabajo
- Espacio de Trabajo y Entorno.