Acerca de este curso
TASTE OF TRAINING
Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.
Este curso de cuatro días cubre enterprise data science y el aprendizaje automático utilizando Apache Spark en Cloudera Data Science Workbench (CDSW). Los participantes utilizarán Spark SQL para cargar, explorar, limpiar, unir y analizar datos y Spark MLlib para especificar, entrenar, evaluar, ajustar e implementar pipelines de aprendizaje automático. Se sumergirán en los fundamentos de la arquitectura y el modelo de ejecución de Spark necesarios para configurar, monitorear y ajustar de manera efectiva sus aplicaciones de Spark. Los participantes también aprenderán cómo Spark se integra con componentes clave de la plataforma Cloudera como HDFS, YARN, Hive, Impala y Hue, así como sus paquetes favoritos de Python.
PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
Este curso está diseñado para científicos de datos que usan Python o R para trabajar con pequeños conjuntos de datos en una sola máquina y que necesitan ampliar sus flujos de trabajo de data science y aprendizaje automático a grandes conjuntos de datos en clústeres distribuidos.
Aquellos ingenieros de datos, analistas de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán provechosa esta formación.
Requisitos previos
Los participantes deben tener un conocimiento básico de Python o R y algo de experiencia explorando, analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requieren conocimientos de Spark, Hadoop o de la plataforma Cloudera.
Objetivos del curso
Los participantes recorrerán un flujo de trabajo integral de data science y aprendizaje automático basado en escenarios y conjuntos de datos realistas de una empresa de tecnología ficticia. El material del curso se presenta a través de una secuencia de breves conferencias, demostraciones interactivas, extensos ejercicios prácticos y discusiones animadas. Las demostraciones y los ejercicios se realizan en Python (con PySpark) utilizando Cloudera Data Science Workbench (CDSW). Se proporcionarán ejemplos complementarios que utilizan R (con sparklyr).
Contenidos
Módulo 1. Introducción
Módulo 2. Descripción general de la ciencia de datos (data science)
- Qué hacen los científicos de datos
- Qué procesos utilizan los científicos de datos
- Qué herramientas utilizan los científicos de datos
Módulo 3. Cloudera Data Science Workbench (CDSW)
- Introducción a Cloudera Data Science Workbench
- Cómo funciona Cloudera Data Science Workbench
- Cómo utilizar Cloudera Data Science Workbench
- Ingresando código
- Obteniendo ayuda
- Acceder a la línea de comandos de Linux
- Trabajar con paquetes de Python
- Formatear la salida de la sesión
Módulo 4. Casos de estudio
- DuoCar
- Cómo funciona DuoCar
- Conjuntos de datos de DuoCar
- Objetivos comerciales de DuoCar
- Plataforma de ciencia de datos DuoCar
- Clúster DuoCar Cloudera EDH
- HDFS
- Apache Spark
- Apache Hive
- Apache Impala
- Matiz
- HILO
- Arquitectura de clúster de DuoCar
Módulo 5. Apache Spark
- Apache Spark
- Cómo funciona Spark
- La Spark Stack
- Spark SQL
- DataFrames
- Formatos de archivo en Apache Spark
- Formatos de archivo de texto
- Formato de archivo Parquet
- Idiomas de la interfaz de Spark
- PySpark
- Data Science con PySpark
- sparklyr
- dplyr y sparklyr
- Comparación de PySpark y sparklyr
- Cómo funciona Sparklyr con dplyr
- Funciones Sparklyr DataFrame y MLlib
- Cuándo usar PySpark y sparklyr
Módulo 6. Ejecución de una aplicación Spark desde CDSW
- Descripción general
- Iniciar una aplicación Spark
- Lectura de datos en un marco de datos (DataFrame) de Spark SQL
- Examinar el esquema de un marco de datos
- Calcular el número de filas y columnas de un marco de datos
- Examinar filas de un marco de datos
- Detener una aplicación Spark
Módulo 7. Inspección de un DataFrame de Spark SQL
- Descripción general
- Inspeccionando un DataFrame
- Inspeccionar una columna DataFrame
- Inspección de una variable de clave principal
- Inspeccionar una variable categórica
- Inspeccionar una variable numérica
- Inspección de una variable de fecha y hora
Módulo 8. Transformar DataFrames
- Spark SQL DataFrames
- Trabajar con columnas
- Seleccionar columnas
- Dejar caer columnas
- Especificar columnas
- Agregar columnas
- Cambiar el nombre de la columna
- Cambiar el tipo de columna
- Trabajar con filas
- Ordenar filas
- Seleccionar un número fijo de filas
- Seleccionar filas distintas
- Filtrar filas
- Filas de muestreo
- Trabajar con valores perdidos
Módulo 9. Transformación de columnas de DataFrame
- Tipos de datos de Spark SQL
- Trabajar con columnas numéricas
- Trabajar con columnas de cadena
- Trabajar con columnas de fecha y marca de tiempo
- Trabajar con columnas booleanas
Módulo 10. Tipos complejos (opcional)
- Tipos de datos de recopilación complejos
- Arrays
- Maps
- Structs
Módulo 11. Funciones definidas por el usuario (opcional)
- Funciones definidas por el usuario
- Definición de una función de Python
- Registro de una función de Python como función definida por el usuario
- Aplicar una función definida por el usuario
Módulo 12. Lectura y escritura de datos
- Leer y escribir datos
- Trabajar con archivos de texto delimitados
- Trabajar con archivos de texto
- Trabajar con archivos Parquet
- Trabajar con tablas de Hive
- Trabajar con almacenes de objetos
- Trabajar con pandas DataFrames
Módulo 13. Combinación y división de marcos de datos
- Unirse a DataFrames
- Cross Join
- Inner Join
- Left Semi Join
- Left Anti Join
- Left Outer Join
- Right Outer Join
- Full Outer Join
- Aplicar operaciones de conjunto a DataFrames
- Dividir un DataFrame
Módulo 14. Resumen y agrupación de marcos de datos
- Resumen de datos con funciones agregadas
- Agrupar datos
- Datos pivotantes
Módulo 15. Funciones de ventana (opcional)
- Introducción a las funciones de ventana
- Crear una especificación de ventana
- Agregando sobre una especificación de ventana
Módulo 16. Exploración de DataFrames
- Posibles flujos de trabajo para Big Data
- Explorando una sola variable
- Explorando una variable categórica
- Explorando una variable continua
- Explorando un par de variables
- Par categórico-categórico
- Par categórico-continuo
- Par continuo-continuo
Módulo 17. Ejecución de trabajos de Apache Spark
- Operaciones de DataFrame
- Divisiones de entrada
- Operaciones estrechas
- Operaciones amplias
- Etapas y tareas
- Barajar
Módulo 18. Supervisión, ajuste y configuración de aplicaciones Spark
- Supervisión de aplicaciones Spark
- DataFrames persistentes
- Particionamiento de DataFrames
- Configuración del entorno Spark
Módulo 19. Descripción general del aprendizaje automático
- Aprendizaje automático
- Ajuste insuficiente y excesivo
- Modelo de validación
- Hiperparámetros
- Aprendizaje supervisado y no supervisado
- Algoritmos de aprendizaje automático
- Bibliotecas de aprendizaje automático
- Apache Spark MLlib
Módulo 20. Entrenamiento y evaluación de modelos de regresión
- Introducción a los modelos de regresión
- Guión
- Preparación de los datos de regresión
- Ensamblaje del vector de características
- Creación de un Train y un conjunto de pruebas (Test Set)
- Especificar un modelo de regresión lineal
- Entrenamiento de un modelo de regresión lineal
- Examinar los parámetros del modelo
- Examinar varias medidas de rendimiento del modelo
- Examinar varios diagnósticos de modelos
- Aplicar el modelo de regresión lineal a los datos de prueba (Test Data)
- Evaluación del modelo de regresión lineal en los datos de prueba
- Trazado del modelo de regresión lineal
Módulo 21. Capacitación y evaluación de modelos de clasificación
- Introducción a los modelos de clasificación
- Guión
- Procesamiento previo de los datos de modelado
- Generar una etiqueta
- Extraer, transformar y seleccionar funciones
- Crear conjuntos de pruebas y Train
- Especificar un modelo de regresión logística
- Entrenar el modelo de regresión logística
- Examinar el modelo de regresión logística
- Evaluar el rendimiento del modelo en el conjunto de prueba
Módulo 22. Ajuste de los hiperparámetros del algoritmo mediante la búsqueda en cuadrícula
- Requisitos para el ajuste de hiperparámetros
- Especificar el estimador
- Especificación de la cuadrícula de hiperparámetros
- Especificar el evaluador
- Ajuste de hiperparámetros mediante la validación cruzada de Holdout
- Ajuste de hiperparámetros mediante la validación cruzada de K-fold
Módulo 23. Capacitación y evaluación de modelos de agrupación en clústeres
- Introducción a la agrupación en clústeres
- Guión
- Procesamiento previo de los datos
- Extracción, transformación y selección de funciones
- Especificación de un modelo de mezcla gaussiana
- Entrenamiento de un modelo de mezcla gaussiana
- Examinando el modelo de mezcla gaussiana
- Trazar los clústeres
- Explorando los perfiles de clúster
- Guardar y cargar el modelo de mezcla gaussiana
Módulo 24. Procesamiento de texto y capacitación y evaluación de modelos de temas (opcional)
- Introducción a los modelos de temas
- Guión
- Extraer y transformar características
- Analizar datos de texto
- Eliminación de palabras comunes (Stop)
- Contando la frecuencia de las palabras
- Especificar un modelo de tema
- Entrenamiento de un modelo de tema mediante Latent Dirichlet Allocation (LDA)
- Evaluación del ajuste del modelo de tema
- Examinar un modelo de tema
- Aplicar un modelo de tema
Módulo 25. Capacitación y evaluación de modelos de recomendación (opcional)
- Introducción a los modelos de recomendación
- Guión
- Preparación de datos para un modelo de recomendación
- Especificar un modelo de recomendación
- Entrenamiento de un modelo de recomendación usando mínimos cuadrados alternos
- Examinar un modelo de recomendación
- Aplicar un modelo de recomendación
- Evaluación de un modelo de recomendación
- Generando recomendaciones
Módulo 26. Trabajar con canalizaciones de aprendizaje automático
- Especificación de las etapas de la canalización
- Especificar una canalización
- Entrenamiento de un modelo de canalización
- Consultar un modelo de canalización
- Aplicar un modelo de canalización
Módulo 27. Implementación de canalizaciones de aprendizaje automático
- Guardar y cargar canalizaciones y modelos de canalización en Python
- Carga de tuberías y modelos de tuberías en Scala
Módulo 28. Descripción general de sparklyr (opcional)
- Conectando a Spark
- Leer datos
- Inspección de datos
- Transformar datos usando verbos dplyr
- Usar consultas SQL
- Funciones de Spark DataFrames
- Visualización de datos de Spark
- Aprendizaje automático con MLlib
Módulo 29. Introducción a las funciones adicionales de CDSW (opcional)
- Colaboración
- Trabajos
- Experimentos
- Modelos
- Aplicaciones
Módulo 30. Conclusión