DSCI-272: Predicting with Cloudera Machine Learning

Presencial / Live Virtual Class

28 horas

~~1840,00 €~~ 1288,00€

Solicitar Info

Actualmente no existen convocatorias programadas para estos cursos

Acerca de este curso

Los equipos de data science necesitan acceso colaborativo a datos comerciales, herramientas y recursos informáticos necesarios para desarrollar e implementar workflows de aprendizaje automático. Cloudera Machine Learning (CML), componente de la Plataforma de Datos Cloudera (CDP), proporciona la solución, brindando a los equipos de data-science los recursos necesarios.

Este curso abarca workflows y operaciones de aprendizaje automático utilizando CML. Los participantes explorarán, visualizarán y analizarán datos. También entrenarán, evaluarán e implementarán modelos de aprendizaje automático. El curso recorre un workflow completo de data-science y machine learning basado en escenarios y conjuntos de datos realistas de una empresa tecnológica ficticia. Las demostraciones y ejercicios se realizan en Python (con PySpark) utilizando CML.

A quién va dirigido

El curso está diseñado para científicos de datos que deseen comprender cómo utilizar Cloudera Machine Learning y la Plataforma de Datos Cloudera para lograr un desarrollo más ágil de modelos y ofrecer aprendizaje automático en producción a escala. Los ingenieros de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán útil este curso.

Prerrequisitos:

Los participantes deben tener un conocimiento básico de Python o R y algo de experiencia explorando, analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requieren conocimientos de Spark, Hadoop o de la plataforma Cloudera.

Objetivos del curso

Los asistentes que completen con éxito este curso serán capaces de:

Utilizar Cloudera SDX y otros componentes de la Plataforma de Datos Cloudera para localizar datos para experimentos de aprendizaje automático.
Utilizar un Prototipo de ML Aplicado (AMP).
Gestionar experimentos de aprendizaje automático.
Conectar con diversas fuentes de datos y explorar datos.
Utilizar Apache Spark y Spark ML.
Implementar un modelo de ML como una API REST.
Gestionar y supervisar modelos de ML implementados.

Contenidos

Introducción a CML

Visión General.
CML versus CDSW.
Espacios de Trabajo de ML.
Roles de Espacios de Trabajo.
Proyectos y Equipos.
Configuraciones.
Runtimes/Motores Antiguos.

Introducción a AMPs y el Banco de Trabajo

Editores e IDE.
Git.
Aplicaciones Web Integradas.
AMPs.

Acceso y Linaje de Datos

Visión General de SDX.
Catálogo de Datos.
Autorización.
Linaje.

Visualización de Datos en CML

Visión General de Visualización de Datos.
Conceptos de Visualización de Datos en CDP.
Uso de la Visualización de Datos en CML.

Experimentos

Experimentos en CML.

Introducción al Banco de Trabajo Nativo de CML

Escribiendo Código.
Obtener Ayuda.
Acceder a la Línea de Comandos de Linux.
Trabajar con Paquetes de Python.
Formatear la Salida de la Sesión.

Visión General de Spark

Cómo Funciona Spark.
Spark Stack.
Formatos de Archivos en Spark.
Lenguajes de Interfaz de Spark.
Introducción a PySpark.
Cómo las Operaciones de DataFrame se Convierten en Trabajos de Spark.
Cómo Spark Ejecuta un Trabajo.

Ejecución de una Aplicación Spark

Ejecución de una Aplicación Spark.
Lectura de datos en un DataFrame de Spark SQL.
Examinar el Esquema de un DataFrame.
Calcular el Número de Filas y Columnas de un DataFrame.
Examinar Algunas Filas de un DataFrame.
Detener una Aplicación Spark.

Inspeccionar un DataFrame de Spark

Inspeccionar un DataFrame.
Inspeccionar una Columna de DataFrame.

Transformación de DataFrames

DataFrames de Spark SQL.
Trabajar con Columnas.
Trabajar con Filas.
Trabajar con Valores Perdidos.

Transformar Columnas de DataFrame

Tipos de Datos de Spark SQL.
Trabajar con Columnas Numéricas.
Trabajar con Columnas de Cadena.
Trabajar con Columnas de Fecha y Timestamp.
Trabajar con Columnas Booleanas.

Tipos Complejos

Tipos de Datos de Colección Compleja.
Matrices.
Mapas.
Estructuras.

Funciones Definidas por el Usuario

Funciones Definidas por el Usuario.
Ejemplo 1: Hora del Día.
Ejemplo 2: Great-Circle Distance.

Lectura y Escritura de DataFrames

Trabajar con Archivos de Texto Delimitado.
Trabajar con Archivos de Texto.
Trabajar con Archivos Parquet.
Trabajar con Tablas Hive.
Trabajar con Almacenes de Objetos.
Trabajar con Panda Dataframe.

Combinación y División de DataFrames

Combinar y Dividir DataFrames.
Unir DataFrames.
Dividir un DataFrame.

Resumen y Agrupación de DataFrames

Resumir Datos con Funciones de Agregación.
Agrupar Datos.
Pivote de Datos.

Funciones de Ventana

Funciones de Ventana.
Ejemplo: Recuento y Suma Acumulativa.
Ejemplo: Calcular el Promedio de Días Entre Viajes para Cada Conductor.

Visión General de Aprendizaje Automático

Introducción al Aprendizaje Automático.
Herramientas de Aprendizaje Automático.

Apache Spark MLlib

Introducción a Apache Spark MLlib.

Explorar y Visualizar DataFrames

Posibles Flujos de Trabajo para Big Data.
Explorar una única Variable.
Explorar un Par de Variables.

Monitorización, Ajuste y Configuración de Aplicaciones Spark

Monitorización de Aplicaciones Spark.
Configuración del Entorno Spark.

Ajuste y Evaluación de Modelos de Regresión

Ensamblar el Vector de propiedades de entrada.
Ajustar el Modelo de Regresión Lineal.

Ajuste y Evaluación de Modelos de Clasificación

Generación de Etiquetas.
Ajustar el Modelo de Regresión Logística.

Ajuste de Hiperparámetros del Algoritmo Utilizando Búsquedas en Cuadrícula

Requisitos para la Ajuste de Hiperparámetros.
Ajustar los Hiperparámetros utilizando el método Holdout Cross-Validation.
Ajustar los Hiperparámetros utilizando el método K-Fold Cross-Validation.

Ajuste y Evaluación de Modelos de Clustering

Imprimir y Dibujar las Coordenadas de Inicio.
Ajustar un Modelo de Mezcla Gaussiana.
Explorar los Perfiles de los Grupos.

Procesamiento de Texto: Ajuste y Evaluación de Modelos de Temas

Ajustar un Modelo de Temas Utilizando el método de Asignación Latente de Dirichlet

Ajuste y Evaluación de Modelos de Recomendación

Modelos de Recomendación.
Generar Recomendaciones.

Trabajar con Pipelines de Aprendizaje Automático

Ajustar el Modelo de Pipeline.
Inspeccionar el Modelo de Pipeline.

Aplicar un Modelo de Scikit-Learn a un DataFrame de Spark

Construir un Modelo de Scikit-Learn.
Aplicar el Modelo Utilizando una Función UDF de Spark.

Implementar un Modelo de Aprendizaje Automático como una API REST en CML

Cargar el Modelo Serializado.
Definir una Función Wrapperpara Generar una Predicción.
Probar la Función.

Auto-scaling, Rendimiento y Configuración de GPU

Autoscalado de Cargas de Trabajo.
Trabajar con GPUs.

Métricas y Monitorización de Modelos

¿Por qué Monitorear Modelos?.
Métricas de Modelos Comunes.
Monitorización de Modelos con Evidently.
Monitorización de Modelos Continua.

Apéndice: Provisión de Espacios de Trabajo

Espacio de Trabajo y Entorno.

Próximas convocatorias

Actualmente no existen convocatorias programadas para estos cursos

Para más información:

learn.pueacademy@pue.es

BCN: (+34) 93 206 02 49

¿Dónde estamos?