Cloudera

DSCI-272: Predicting with Cloudera Machine Learning

Presencial / Live Virtual Class     28 horas       1840,00 €   1288,00€

Acerca de este curso

Los equipos de data science necesitan acceso colaborativo a datos comerciales, herramientas y recursos informáticos necesarios para desarrollar e implementar workflows de aprendizaje automático. Cloudera Machine Learning (CML), componente de la Plataforma de Datos Cloudera (CDP), proporciona la solución, brindando a los equipos de data-science los recursos necesarios.

Este curso abarca workflows y operaciones de aprendizaje automático utilizando CML. Los participantes explorarán, visualizarán y analizarán datos. También entrenarán, evaluarán e implementarán modelos de aprendizaje automático. El curso recorre un workflow completo de data-science y machine learning basado en escenarios y conjuntos de datos realistas de una empresa tecnológica ficticia. Las demostraciones y ejercicios se realizan en Python (con PySpark) utilizando CML.

A quién va dirigido

El curso está diseñado para científicos de datos que deseen comprender cómo utilizar Cloudera Machine Learning y la Plataforma de Datos Cloudera para lograr un desarrollo más ágil de modelos y ofrecer aprendizaje automático en producción a escala. Los ingenieros de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán útil este curso.

Prerrequisitos:

  • Los participantes deben tener un conocimiento básico de Python o R y algo de experiencia explorando, analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requieren conocimientos de Spark, Hadoop o de la plataforma Cloudera.

Objetivos del curso

Los asistentes que completen con éxito este curso serán capaces de:

  • Utilizar Cloudera SDX y otros componentes de la Plataforma de Datos Cloudera para localizar datos para experimentos de aprendizaje automático.
  • Utilizar un Prototipo de ML Aplicado (AMP).
  • Gestionar experimentos de aprendizaje automático.
  • Conectar con diversas fuentes de datos y explorar datos.
  • Utilizar Apache Spark y Spark ML.
  • Implementar un modelo de ML como una API REST.
  • Gestionar y supervisar modelos de ML implementados.

Contenidos

Introducción a CML

  • Visión General.
  • CML versus CDSW.
  • Espacios de Trabajo de ML.
  • Roles de Espacios de Trabajo.
  • Proyectos y Equipos.
  • Configuraciones.
  • Runtimes/Motores Antiguos.

Introducción a AMPs y el Banco de Trabajo

  • Editores e IDE.
  • Git.
  • Aplicaciones Web Integradas.
  • AMPs.

Acceso y Linaje de Datos

  • Visión General de SDX.
  • Catálogo de Datos.
  • Autorización.
  • Linaje.

Visualización de Datos en CML

  • Visión General de Visualización de Datos.
  • Conceptos de Visualización de Datos en CDP.
  • Uso de la Visualización de Datos en CML.

Experimentos

  • Experimentos en CML.

Introducción al Banco de Trabajo Nativo de CML

  • Escribiendo Código.
  • Obtener Ayuda.
  • Acceder a la Línea de Comandos de Linux.
  • Trabajar con Paquetes de Python.
  • Formatear la Salida de la Sesión.

Visión General de Spark

  • Cómo Funciona Spark.
  • Spark Stack.
  • Formatos de Archivos en Spark.
  • Lenguajes de Interfaz de Spark.
  • Introducción a PySpark.
  • Cómo las Operaciones de DataFrame se Convierten en Trabajos de Spark.
  • Cómo Spark Ejecuta un Trabajo.

Ejecución de una Aplicación Spark

  • Ejecución de una Aplicación Spark.
  • Lectura de datos en un DataFrame de Spark SQL.
  • Examinar el Esquema de un DataFrame.
  • Calcular el Número de Filas y Columnas de un DataFrame.
  • Examinar Algunas Filas de un DataFrame.
  • Detener una Aplicación Spark.

Inspeccionar un DataFrame de Spark

  • Inspeccionar un DataFrame.
  • Inspeccionar una Columna de DataFrame.

Transformación de DataFrames

  • DataFrames de Spark SQL.
  • Trabajar con Columnas.
  • Trabajar con Filas.
  • Trabajar con Valores Perdidos.

Transformar Columnas de DataFrame

  • Tipos de Datos de Spark SQL.
  • Trabajar con Columnas Numéricas.
  • Trabajar con Columnas de Cadena.
  • Trabajar con Columnas de Fecha y Timestamp.
  • Trabajar con Columnas Booleanas.

Tipos Complejos

  • Tipos de Datos de Colección Compleja.
  • Matrices.
  • Mapas.
  • Estructuras.

Funciones Definidas por el Usuario

  • Funciones Definidas por el Usuario.
  • Ejemplo 1: Hora del Día.
  • Ejemplo 2: Great-Circle Distance.

Lectura y Escritura de DataFrames

  • Trabajar con Archivos de Texto Delimitado.
  • Trabajar con Archivos de Texto.
  • Trabajar con Archivos Parquet.
  • Trabajar con Tablas Hive.
  • Trabajar con Almacenes de Objetos.
  • Trabajar con Panda Dataframe.

Combinación y División de DataFrames

  • Combinar y Dividir DataFrames.
  • Unir DataFrames.
  • Dividir un DataFrame.

Resumen y Agrupación de DataFrames

  • Resumir Datos con Funciones de Agregación.
  • Agrupar Datos.
  • Pivote de Datos.

Funciones de Ventana

  • Funciones de Ventana.
  • Ejemplo: Recuento y Suma Acumulativa.
  • Ejemplo: Calcular el Promedio de Días Entre Viajes para Cada Conductor.

Visión General de Aprendizaje Automático

  • Introducción al Aprendizaje Automático.
  • Herramientas de Aprendizaje Automático.

Apache Spark MLlib

  • Introducción a Apache Spark MLlib.

Explorar y Visualizar DataFrames

  • Posibles Flujos de Trabajo para Big Data.
  • Explorar una única Variable.
  • Explorar un Par de Variables.

Monitorización, Ajuste y Configuración de Aplicaciones Spark

  • Monitorización de Aplicaciones Spark.
  • Configuración del Entorno Spark.

Ajuste y Evaluación de Modelos de Regresión

  • Ensamblar el Vector de propiedades de entrada.
  • Ajustar el Modelo de Regresión Lineal.

Ajuste y Evaluación de Modelos de Clasificación

  • Generación de Etiquetas.
  • Ajustar el Modelo de Regresión Logística.

Ajuste de Hiperparámetros del Algoritmo Utilizando Búsquedas en Cuadrícula

  • Requisitos para la Ajuste de Hiperparámetros.
  • Ajustar los Hiperparámetros utilizando el método Holdout Cross-Validation.
  • Ajustar los Hiperparámetros utilizando el método K-Fold Cross-Validation.

Ajuste y Evaluación de Modelos de Clustering

  • Imprimir y Dibujar las Coordenadas de Inicio.
  • Ajustar un Modelo de Mezcla Gaussiana.
  • Explorar los Perfiles de los Grupos.

Procesamiento de Texto: Ajuste y Evaluación de Modelos de Temas

  • Ajustar un Modelo de Temas Utilizando el método de Asignación Latente de Dirichlet

Ajuste y Evaluación de Modelos de Recomendación

  • Modelos de Recomendación.
  • Generar Recomendaciones.

Trabajar con Pipelines de Aprendizaje Automático

  • Ajustar el Modelo de Pipeline.
  • Inspeccionar el Modelo de Pipeline.

Aplicar un Modelo de Scikit-Learn a un DataFrame de Spark

  • Construir un Modelo de Scikit-Learn.
  • Aplicar el Modelo Utilizando una Función UDF de Spark.

Implementar un Modelo de Aprendizaje Automático como una API REST en CML

  • Cargar el Modelo Serializado.
  • Definir una Función Wrapperpara Generar una Predicción.
  • Probar la Función.

Auto-scaling, Rendimiento y Configuración de GPU

  • Autoscalado de Cargas de Trabajo.
  • Trabajar con GPUs.

Métricas y Monitorización de Modelos

  • ¿Por qué Monitorear Modelos?.
  • Métricas de Modelos Comunes.
  • Monitorización de Modelos con Evidently.
  • Monitorización de Modelos Continua.

Apéndice: Provisión de Espacios de Trabajo

  • Espacio de Trabajo y Entorno.

Próximas convocatorias