
Cloudera Data Scientist



Actualmente no existen convocatorias programadas para estos cursos
Acerca de este curso
TASTE OF TRAINING
Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.
Este curso de cuatro días cubre enterprise data science y el aprendizaje automático utilizando Apache Spark en Cloudera Data Science Workbench (CDSW). Los participantes utilizarán Spark SQL para cargar, explorar, limpiar, unir y analizar datos y Spark MLlib para especificar, entrenar, evaluar, ajustar e implementar pipelines de aprendizaje automático. Se sumergirán en los fundamentos de la arquitectura y el modelo de ejecución de Spark necesarios para configurar, monitorear y ajustar de manera efectiva sus aplicaciones de Spark. Los participantes también aprenderán cómo Spark se integra con componentes clave de la plataforma Cloudera como HDFS, YARN, Hive, Impala y Hue, así como sus paquetes favoritos de Python.
PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
Este curso está diseñado para científicos de datos que usan Python o R para trabajar con pequeños conjuntos de datos en una sola máquina y que necesitan ampliar sus flujos de trabajo de data science y aprendizaje automático a grandes conjuntos de datos en clústeres distribuidos.
Aquellos ingenieros de datos, analistas de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán provechosa esta formación.
Requisitos previos
Los participantes deben tener un conocimiento básico de Python o R y algo de experiencia explorando, analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requieren conocimientos de Spark, Hadoop o de la plataforma Cloudera.
Objetivos del curso
Los participantes recorrerán un flujo de trabajo integral de data science y aprendizaje automático basado en escenarios y conjuntos de datos realistas de una empresa de tecnología ficticia. El material del curso se presenta a través de una secuencia de breves conferencias, demostraciones interactivas, extensos ejercicios prácticos y discusiones animadas. Las demostraciones y los ejercicios se realizan en Python (con PySpark) utilizando Cloudera Data Science Workbench (CDSW). Se proporcionarán ejemplos complementarios que utilizan R (con sparklyr).
Contenidos
Módulo 1. Introducción
Módulo 2. Descripción general de la ciencia de datos (data science)
- Qué hacen los científicos de datos
- Qué procesos utilizan los científicos de datos
- Qué herramientas utilizan los científicos de datos
Módulo 3. Cloudera Data Science Workbench (CDSW)
- Introducción a Cloudera Data Science Workbench
- Cómo funciona Cloudera Data Science Workbench
- Cómo utilizar Cloudera Data Science Workbench
- Ingresando código
- Obteniendo ayuda
- Acceder a la línea de comandos de Linux
- Trabajar con paquetes de Python
- Formatear la salida de la sesión
Módulo 4. Casos de estudio
- DuoCar
- Cómo funciona DuoCar
- Conjuntos de datos de DuoCar
- Objetivos comerciales de DuoCar
- Plataforma de ciencia de datos DuoCar
- Clúster DuoCar Cloudera EDH
- HDFS
- Apache Spark
- Apache Hive
- Apache Impala
- Matiz
- HILO
- Arquitectura de clúster de DuoCar
Módulo 5. Apache Spark
- Apache Spark
- Cómo funciona Spark
- La Spark Stack
- Spark SQL
- DataFrames
- Formatos de archivo en Apache Spark
- Formatos de archivo de texto
- Formato de archivo Parquet
- Idiomas de la interfaz de Spark
- PySpark
- Data Science con PySpark
- sparklyr
- dplyr y sparklyr
- Comparación de PySpark y sparklyr
- Cómo funciona Sparklyr con dplyr
- Funciones Sparklyr DataFrame y MLlib
- Cuándo usar PySpark y sparklyr
Módulo 6. Ejecución de una aplicación Spark desde CDSW
- Descripción general
- Iniciar una aplicación Spark
- Lectura de datos en un marco de datos (DataFrame) de Spark SQL
- Examinar el esquema de un marco de datos
- Calcular el número de filas y columnas de un marco de datos
- Examinar filas de un marco de datos
- Detener una aplicación Spark
Módulo 7. Inspección de un DataFrame de Spark SQL
- Descripción general
- Inspeccionando un DataFrame
- Inspeccionar una columna DataFrame
- Inspección de una variable de clave principal
- Inspeccionar una variable categórica
- Inspeccionar una variable numérica
- Inspección de una variable de fecha y hora
Módulo 8. Transformar DataFrames
- Spark SQL DataFrames
- Trabajar con columnas
- Seleccionar columnas
- Dejar caer columnas
- Especificar columnas
- Agregar columnas
- Cambiar el nombre de la columna
- Cambiar el tipo de columna
- Trabajar con filas
- Ordenar filas
- Seleccionar un número fijo de filas
- Seleccionar filas distintas
- Filtrar filas
- Filas de muestreo
- Trabajar con valores perdidos
Módulo 9. Transformación de columnas de DataFrame
- Tipos de datos de Spark SQL
- Trabajar con columnas numéricas
- Trabajar con columnas de cadena
- Trabajar con columnas de fecha y marca de tiempo
- Trabajar con columnas booleanas
Módulo 10. Tipos complejos (opcional)
- Tipos de datos de recopilación complejos
- Arrays
- Maps
- Structs
Módulo 11. Funciones definidas por el usuario (opcional)
- Funciones definidas por el usuario
- Definición de una función de Python
- Registro de una función de Python como función definida por el usuario
- Aplicar una función definida por el usuario
Módulo 12. Lectura y escritura de datos
- Leer y escribir datos
- Trabajar con archivos de texto delimitados
- Trabajar con archivos de texto
- Trabajar con archivos Parquet
- Trabajar con tablas de Hive
- Trabajar con almacenes de objetos
- Trabajar con pandas DataFrames
Módulo 13. Combinación y división de marcos de datos
- Unirse a DataFrames
- Cross Join
- Inner Join
- Left Semi Join
- Left Anti Join
- Left Outer Join
- Right Outer Join
- Full Outer Join
- Aplicar operaciones de conjunto a DataFrames
- Dividir un DataFrame
Módulo 14. Resumen y agrupación de marcos de datos
- Resumen de datos con funciones agregadas
- Agrupar datos
- Datos pivotantes
Módulo 15. Funciones de ventana (opcional)
- Introducción a las funciones de ventana
- Crear una especificación de ventana
- Agregando sobre una especificación de ventana
Módulo 16. Exploración de DataFrames
- Posibles flujos de trabajo para Big Data
- Explorando una sola variable
- Explorando una variable categórica
- Explorando una variable continua
- Explorando un par de variables
- Par categórico-categórico
- Par categórico-continuo
- Par continuo-continuo
Módulo 17. Ejecución de trabajos de Apache Spark
- Operaciones de DataFrame
- Divisiones de entrada
- Operaciones estrechas
- Operaciones amplias
- Etapas y tareas
- Barajar
Módulo 18. Supervisión, ajuste y configuración de aplicaciones Spark
- Supervisión de aplicaciones Spark
- DataFrames persistentes
- Particionamiento de DataFrames
- Configuración del entorno Spark
Módulo 19. Descripción general del aprendizaje automático
- Aprendizaje automático
- Ajuste insuficiente y excesivo
- Modelo de validación
- Hiperparámetros
- Aprendizaje supervisado y no supervisado
- Algoritmos de aprendizaje automático
- Bibliotecas de aprendizaje automático
- Apache Spark MLlib
Módulo 20. Entrenamiento y evaluación de modelos de regresión
- Introducción a los modelos de regresión
- Guión
- Preparación de los datos de regresión
- Ensamblaje del vector de características
- Creación de un Train y un conjunto de pruebas (Test Set)
- Especificar un modelo de regresión lineal
- Entrenamiento de un modelo de regresión lineal
- Examinar los parámetros del modelo
- Examinar varias medidas de rendimiento del modelo
- Examinar varios diagnósticos de modelos
- Aplicar el modelo de regresión lineal a los datos de prueba (Test Data)
- Evaluación del modelo de regresión lineal en los datos de prueba
- Trazado del modelo de regresión lineal
Módulo 21. Capacitación y evaluación de modelos de clasificación
- Introducción a los modelos de clasificación
- Guión
- Procesamiento previo de los datos de modelado
- Generar una etiqueta
- Extraer, transformar y seleccionar funciones
- Crear conjuntos de pruebas y Train
- Especificar un modelo de regresión logística
- Entrenar el modelo de regresión logística
- Examinar el modelo de regresión logística
- Evaluar el rendimiento del modelo en el conjunto de prueba
Módulo 22. Ajuste de los hiperparámetros del algoritmo mediante la búsqueda en cuadrícula
- Requisitos para el ajuste de hiperparámetros
- Especificar el estimador
- Especificación de la cuadrícula de hiperparámetros
- Especificar el evaluador
- Ajuste de hiperparámetros mediante la validación cruzada de Holdout
- Ajuste de hiperparámetros mediante la validación cruzada de K-fold
Módulo 23. Capacitación y evaluación de modelos de agrupación en clústeres
- Introducción a la agrupación en clústeres
- Guión
- Procesamiento previo de los datos
- Extracción, transformación y selección de funciones
- Especificación de un modelo de mezcla gaussiana
- Entrenamiento de un modelo de mezcla gaussiana
- Examinando el modelo de mezcla gaussiana
- Trazar los clústeres
- Explorando los perfiles de clúster
- Guardar y cargar el modelo de mezcla gaussiana
Módulo 24. Procesamiento de texto y capacitación y evaluación de modelos de temas (opcional)
- Introducción a los modelos de temas
- Guión
- Extraer y transformar características
- Analizar datos de texto
- Eliminación de palabras comunes (Stop)
- Contando la frecuencia de las palabras
- Especificar un modelo de tema
- Entrenamiento de un modelo de tema mediante Latent Dirichlet Allocation (LDA)
- Evaluación del ajuste del modelo de tema
- Examinar un modelo de tema
- Aplicar un modelo de tema
Módulo 25. Capacitación y evaluación de modelos de recomendación (opcional)
- Introducción a los modelos de recomendación
- Guión
- Preparación de datos para un modelo de recomendación
- Especificar un modelo de recomendación
- Entrenamiento de un modelo de recomendación usando mínimos cuadrados alternos
- Examinar un modelo de recomendación
- Aplicar un modelo de recomendación
- Evaluación de un modelo de recomendación
- Generando recomendaciones
Módulo 26. Trabajar con canalizaciones de aprendizaje automático
- Especificación de las etapas de la canalización
- Especificar una canalización
- Entrenamiento de un modelo de canalización
- Consultar un modelo de canalización
- Aplicar un modelo de canalización
Módulo 27. Implementación de canalizaciones de aprendizaje automático
- Guardar y cargar canalizaciones y modelos de canalización en Python
- Carga de tuberías y modelos de tuberías en Scala
Módulo 28. Descripción general de sparklyr (opcional)
- Conectando a Spark
- Leer datos
- Inspección de datos
- Transformar datos usando verbos dplyr
- Usar consultas SQL
- Funciones de Spark DataFrames
- Visualización de datos de Spark
- Aprendizaje automático con MLlib
Módulo 29. Introducción a las funciones adicionales de CDSW (opcional)
- Colaboración
- Trabajos
- Experimentos
- Modelos
- Aplicaciones
Módulo 30. Conclusión