DENG-254: Preparing with Cloudera Data Engineering - Virtual English

Live Virtual Class

28 horas

~~2970,00 €~~ 2079,00€

Solicitar Info

Actualmente no existen convocatorias programadas para estos cursos

Acerca de este curso

Este curso práctico proporciona los conocimientos y conceptos clave que los desarrolladores necesitan para utilizar Apache Spark en el desarrollo de aplicaciones en paralelo de alto rendimiento en la plataforma Cloudera Data Platform (CDP).

Los ejercicios prácticos permiten a los estudiantes practicar la codificación de aplicaciones Spark que se integran con los componentes centrales de CDP. Los participantes aprenderán a utilizar Spark SQL para consultar datos estructurados, cómo utilizar las características de Hive para ingerir y desnormalizar datos, y cómo trabajar con "big data" almacenado en un sistema de archivos distribuido.

Después de completar este curso, los participantes estarán preparados para enfrentar desafíos del mundo real y construir aplicaciones para tomar mejores decisiones de forma más rápida, y realizar análisis interactivos, aplicados a una amplia variedad de casos de uso, arquitecturas e industrias.

A quién va dirigido

Este curso está diseñado para desarrolladores e ingenieros de datos.

Prerrequisitos:

Se asume que todos los estudiantes deben tener experiencia básica en Linux y competencias básicas en los lenguajes de programación Python o Scala.
Es recomendable disponer de conocimientos básicos de SQL.
No se requieren conocimientos previos de Spark y Hadoop.

Objetivos del curso

Los asistentes que completen con éxito este curso serán capaces de:

Distribuir, almacenar y procesar datos en un clúster CDP.
Codificar, configurar e implementar aplicaciones Apache Spark.
Utilizar los intérpretes y las aplicaciones de Spark para explorar, procesar y analizar datos distribuidos.
Consultar datos utilizando Spark SQL, DataFrames y tablas de Hive.
Implementar una aplicación Spark en el servicio de ingeniería de datos.

Contenidos

Introducción a HDFS

Visión general de HDFS.
Componentes e interacciones de HDFS.
Interacciones adicionales de HDFS.
Visión general de Ozone.
Ejercicio: Trabajar con HDFS.

Introducción a YARN

Visión general de YARN.
Componentes e interacción de YARN.
Trabajar con YARN.
Ejercicio: Trabajar con YARN.

Trabajar con RDDs

Conjuntos de datos distribuidos resilientes (RDDs).
Ejercicio: Trabajar con RDDs.

Trabajar con DataFrames

Introducción a los DataFrames.
Ejercicio: Introducción a los DataFrames.
Ejercicio: Lectura y escritura de DataFrames.
Ejercicio: Trabajar con columnas.
Ejercicio: Trabajar con tipos complejos.
Ejercicio: Combinar y dividir DataFrames.
Ejercicio: Resumir y agrupar DataFrames.
Ejercicio: Trabajar con UDFs.
Ejercicio: Trabajar con ventanas.

Introducción a Apache Hive

Acerca de Hive.
Transformación de datos con Hive QL.

Trabajar con Apache Hive

Ejercicio: Trabajar con particiones.
Ejercicio: Trabajar con buckets.
Ejercicio: Trabajar con datos sesgados (Skew).
Ejercicio: Usar Serdes para digerir datos de texto.
Ejercicio: Usar tipos complejos para desnormalizar datos.

Integración de Hive y Spark

Integración de Hive y Spark.
Ejercicio: Integración de Spark con Hive.

Desafíos del procesamiento distribuido

Shuffle.
Skew.
Order.

Procesamiento distribuido de Spark

Procesamiento distribuido de Spark.
Ejercicio: Explorar el orden de ejecución de consultas.

Persistencia distribuida de Spark

Persistencia de DataFrames y Datasets.
Niveles de almacenamiento de persistencia.
Visualización de RDDs persistentes.
Ejercicio: Persistir DataFrames.

Servicio de Ingeniería de Datos

Crear y activar trabajos ad hoc de Spark.
Orquestar un conjunto de trabajos usando Airflow.
Lineaje de datos usando Atlas.
Escalado automático en el Servicio de Ingeniería de Datos.

Workload XM

Optimizar trabajos, rendimiento, capacidad.
Identificar trabajos de Spark no óptimos.

Apéndice: Trabajar con conjuntos de datos en Scala

Trabajar con Datasets en Scala.
Ejercicio: Usar Datasets en Scala.

Próximas convocatorias

Actualmente no existen convocatorias programadas para estos cursos

Para más información:

learn.pueacademy@pue.es

BCN: (+34) 93 206 02 49

¿Dónde estamos?