Cloudera

DENG-254: Preparing with Cloudera Data Engineering

28 horas
1840,00 €
Presencial o Live Virtual Class
Presencial o Live Virtual Class

Acerca de este curso

Este curso práctico proporciona los conocimientos y conceptos clave que los desarrolladores necesitan para utilizar Apache Spark en el desarrollo de aplicaciones en paralelo de alto rendimiento en la plataforma Cloudera Data Platform (CDP).

Los ejercicios prácticos permiten a los estudiantes practicar la codificación de aplicaciones Spark que se integran con los componentes centrales de CDP. Los participantes aprenderán a utilizar Spark SQL para consultar datos estructurados, cómo utilizar las características de Hive para ingerir y desnormalizar datos, y cómo trabajar con "big data" almacenado en un sistema de archivos distribuido.

Después de completar este curso, los participantes estarán preparados para enfrentar desafíos del mundo real y construir aplicaciones para tomar mejores decisiones de forma más rápida, y realizar análisis interactivos, aplicados a una amplia variedad de casos de uso, arquitecturas e industrias.

A quién va dirigido

Este curso está diseñado para desarrolladores e ingenieros de datos.

Prerrequisitos:

  • Se asume que todos los estudiantes deben tener experiencia básica en Linux y competencias básicas en los lenguajes de programación Python o Scala.
  • Es recomendable disponer de conocimientos básicos de SQL.
  • No se requieren conocimientos previos de Spark y Hadoop.

Objetivos del curso

Los asistentes que completen con éxito este curso serán capaces de:

  • Distribuir, almacenar y procesar datos en un clúster CDP.
  • Codificar, configurar e implementar aplicaciones Apache Spark.
  • Utilizar los intérpretes y las aplicaciones de Spark para explorar, procesar y analizar datos distribuidos.
  • Consultar datos utilizando Spark SQL, DataFrames y tablas de Hive.
  • Implementar una aplicación Spark en el servicio de ingeniería de datos.

Contenidos

Introducción a HDFS

  • Visión general de HDFS.
  • Componentes e interacciones de HDFS.
  • Interacciones adicionales de HDFS.
  • Visión general de Ozone.
  • Ejercicio: Trabajar con HDFS.

Introducción a YARN

  • Visión general de YARN.
  • Componentes e interacción de YARN.
  • Trabajar con YARN.
  • Ejercicio: Trabajar con YARN.

Trabajar con RDDs

  • Conjuntos de datos distribuidos resilientes (RDDs).
  • Ejercicio: Trabajar con RDDs.

Trabajar con DataFrames

  • Introducción a los DataFrames.
  • Ejercicio: Introducción a los DataFrames.
  • Ejercicio: Lectura y escritura de DataFrames.
  • Ejercicio: Trabajar con columnas.
  • Ejercicio: Trabajar con tipos complejos.
  • Ejercicio: Combinar y dividir DataFrames.
  • Ejercicio: Resumir y agrupar DataFrames.
  • Ejercicio: Trabajar con UDFs.
  • Ejercicio: Trabajar con ventanas.

Introducción a Apache Hive

  • Acerca de Hive.
  • Transformación de datos con Hive QL.

Trabajar con Apache Hive

  • Ejercicio: Trabajar con particiones.
  • Ejercicio: Trabajar con buckets.
  • Ejercicio: Trabajar con datos sesgados (Skew).
  • Ejercicio: Usar Serdes para digerir datos de texto.
  • Ejercicio: Usar tipos complejos para desnormalizar datos.

Integración de Hive y Spark

  • Integración de Hive y Spark.
  • Ejercicio: Integración de Spark con Hive.

Desafíos del procesamiento distribuido

  • Shuffle.
  • Skew.
  • Order.

Procesamiento distribuido de Spark

  • Procesamiento distribuido de Spark.
  • Ejercicio: Explorar el orden de ejecución de consultas.

Persistencia distribuida de Spark

  • Persistencia de DataFrames y Datasets.
  • Niveles de almacenamiento de persistencia.
  • Visualización de RDDs persistentes.
  • Ejercicio: Persistir DataFrames.

Servicio de Ingeniería de Datos

  • Crear y activar trabajos ad hoc de Spark.
  • Orquestar un conjunto de trabajos usando Airflow.
  • Lineaje de datos usando Atlas.
  • Escalado automático en el Servicio de Ingeniería de Datos.

Workload XM

  • Optimizar trabajos, rendimiento, capacidad.
  • Identificar trabajos de Spark no óptimos.

Apéndice: Trabajar con conjuntos de datos en Scala

  • Trabajar con Datasets en Scala.
  • Ejercicio: Usar Datasets en Scala.

Convocatorias abiertas