Cloudera

Cloudera Data Engineering: Developing Applications with Apache Spark - Virtual English

28 horas
2970,00 €
Live Virtual Class
Live Virtual Class

Acerca de este curso

Este curso de cuatro días proporciona al candidato los conceptos clave y el conocimiento que los desarrolladores necesitan para utilizar Apache Spark para desarrollar aplicaciones paralelas de alto rendimiento en Cloudera Data Platform (CDP).

Los ejercicios que contiene esta formación permiten a los estudiantes practicar la escritura de aplicaciones Spark que se integran con los componentes principales de CDP, como Hive y Kafka. Los participantes aprenderán cómo usar Spark SQL para consultar datos estructurados, cómo usar Spark Streaming para procesar datos de transmisión en tiempo real y cómo trabajar con "big data" almacenado en un sistema de archivos distribuido.

Una vez finalizado el curso, los candidatos serán capaces de crear aplicaciones para tomar decisiones mejores y más rápidas, además de saber ejecutar un análisis interactivo aplicado a una amplia variedad de casos de uso, arquitecturas e industrias.

PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Este curso está diseñado para desarrolladores e ingenieros de datos que quieran mejorar, mediante Apache Spark, su desarrollarlo de aplicaciones paralelas de alto rendimiento en Cloudera Data Platform (CDP).

Prerrequisitos

  • Experiencia básica en Linux y un dominio básico de lenguajes de programación como Python o Scala
  • Conocimiento básico de SQL también resultará de utilidad
  • No se requieren conocimientos previos de Spark y Hadoop

Objetivos del curso

Este curso enseña a los participantes las siguientes habilidades:

  • Distribuir, almacenar y procesar datos en un clúster CDP
  • Escribir, configurar e implementar aplicaciones Apache Spark
  • Usar los intérpretes de Spark y las aplicaciones de Spark para explorar, procesar y analizar datos distribuidos
  • Consultar datos con tablas Spark SQL, DataFrames y Hive
  • Usar Spark Streaming junto con Kafka para procesar un flujo de datos

Contenidos

Módulo 1: Introducción a Zeppelin

  • ¿Por qué Notebooks?
  • Notas de Zeppelin
  • Demo: Apache Spark en 5 minutos

Módulo 2: Introducción a HDFS

  • Descripción general de HDFS
  • Componentes e interacciones de HDFS
  • Interacciones HDFS adicionales
  • Descripción general de Ozone
  • Ejercicio: Trabajar con HDFS

Módulo 3: Introducción a YARN

  • Descripción general de YARN
  • Componentes e interacción de YARN
  • Trabajar con YARN
  • Ejercicio: Trabajar con YARN

Módulo 4: Historial de procesamiento distribuido

  • Los Años del Disco: 2000 -> 2010
  • Los Años de la Memoria: 2010 -> 2020
  • Los años de la GPU: 2020 ->

Módulo 5: Trabajar con RDDs

  • Conjuntos de datos distribuidos resilientes (RDDs)
  • Ejercicio: Trabajar con RDDs

Módulo 6: Trabajar con DataFrames

  • Introducción a DataFrames
  • Ejercicio: Introducción a DataFrames
  • Ejercicio: Lectura y escritura de DataFrames
  • Ejercicio: Trabajar con Columns
  • Ejercicio: Trabajando con Complex Types
  • Ejercicio: Combinar y dividir DataFrames
  • Ejercicio: Resumir y agrupar DataFrames
  • Ejercicio: Trabajar con UDFs
  • Ejercicio: Trabajar con Windows

Módulo 7: Introducción a Apache Hive

  • Acerca de Apache Hive

Módulo 8: Integración de Hive y Spark

  • Integración de Hive y Spark
  • Ejercicio: Integración de Spark con Hive 

Módulo 9: Visualización de datos con Zeppelin

  • Introducción a la visualización de datos con Zeppelin
  • Análisis de Zeppelin
  • Colaboración Zeppelin
  • Ejercicio: AdventureWorks

Módulo 10: Desafíos del procesamiento distribuido

  • Shuffle
  • Skrew
  • Order

Módulo 11: Procesamiento distribuido Spark

  • Procesamiento distribuido Spark
  • Ejercicio: Explorar el orden de ejecución de consultas

Módulo 12: Persistencia distribuida de Spark

  • Persistencia de DataFrame y Dataset
  • Niveles de almacenamiento de persistencia
  • Visualización de RDDs persistentes
  • Ejercicio: Dataframes persistentes

Módulo 13: Escribir, configurar y ejecutar aplicaciones Spark

  • Escribir una aplicación Spark
  • Creación y ejecución de una aplicación
  • Modo de despliegue de aplicaciones
  • La interfaz de usuario (UI) web de la aplicación Spark
  • Configuración de las propiedades de la aplicación
  • Ejercicio: Escribir, configurar y ejecutar una aplicación Spark

Módulo 14: Introducción a Structured Streaming

  • Introducción a Structured Streaming
  • Ejercicio: Procesamiento de datos en Streaming

Módulo 15: Procesamiento de mensajes con Apache Kafka

  • ¿Qué es Apache Kafka?
  • Descripción general de Apache Kafka
  • Escalado de Apache Kafka
  • Arquitectura de un clúster de Apache Kafka
  • Herramientas de líneas de comandos de Apache Kafka

Módulo 16: Structured Streaming con Apache Kafka

  • Recibir mensajes de Kafka
  • Envío de mensajes Kafka
  • Ejercicio: Trabajar con mensajes Streaming de Kafka

Módulo 17: Agregar y unir Streaming DataFrames

  • Agregar Streaming
  • Unir Streaming DataFrames
  • Ejercicio: Agregar y unir Streaming DataFrames

Apéndice: Trabajar con conjuntos de datos en Scala

  • Trabajar con conjuntos de datos en Scala
  • Ejercicio: Uso de conjuntos de datos en Scala

Convocatorias abiertas