Acerca de este curso
Este curso de cuatro días proporciona al candidato los conceptos clave y el conocimiento que los desarrolladores necesitan para utilizar Apache Spark para desarrollar aplicaciones paralelas de alto rendimiento en Cloudera Data Platform (CDP).
Los ejercicios que contiene esta formación permiten a los estudiantes practicar la escritura de aplicaciones Spark que se integran con los componentes principales de CDP, como Hive y Kafka. Los participantes aprenderán cómo usar Spark SQL para consultar datos estructurados, cómo usar Spark Streaming para procesar datos de transmisión en tiempo real y cómo trabajar con "big data" almacenado en un sistema de archivos distribuido.
Una vez finalizado el curso, los candidatos serán capaces de crear aplicaciones para tomar decisiones mejores y más rápidas, además de saber ejecutar un análisis interactivo aplicado a una amplia variedad de casos de uso, arquitecturas e industrias.
PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
Este curso está diseñado para desarrolladores e ingenieros de datos que quieran mejorar, mediante Apache Spark, su desarrollarlo de aplicaciones paralelas de alto rendimiento en Cloudera Data Platform (CDP).
Prerrequisitos
- Experiencia básica en Linux y un dominio básico de lenguajes de programación como Python o Scala
- Conocimiento básico de SQL también resultará de utilidad
- No se requieren conocimientos previos de Spark y Hadoop
Objetivos del curso
Este curso enseña a los participantes las siguientes habilidades:
- Distribuir, almacenar y procesar datos en un clúster CDP
- Escribir, configurar e implementar aplicaciones Apache Spark
- Usar los intérpretes de Spark y las aplicaciones de Spark para explorar, procesar y analizar datos distribuidos
- Consultar datos con tablas Spark SQL, DataFrames y Hive
- Usar Spark Streaming junto con Kafka para procesar un flujo de datos
Contenidos
Módulo 1: Introducción a Zeppelin
- ¿Por qué Notebooks?
- Notas de Zeppelin
- Demo: Apache Spark en 5 minutos
Módulo 2: Introducción a HDFS
- Descripción general de HDFS
- Componentes e interacciones de HDFS
- Interacciones HDFS adicionales
- Descripción general de Ozone
- Ejercicio: Trabajar con HDFS
Módulo 3: Introducción a YARN
- Descripción general de YARN
- Componentes e interacción de YARN
- Trabajar con YARN
- Ejercicio: Trabajar con YARN
Módulo 4: Historial de procesamiento distribuido
- Los Años del Disco: 2000 -> 2010
- Los Años de la Memoria: 2010 -> 2020
- Los años de la GPU: 2020 ->
Módulo 5: Trabajar con RDDs
- Conjuntos de datos distribuidos resilientes (RDDs)
- Ejercicio: Trabajar con RDDs
Módulo 6: Trabajar con DataFrames
- Introducción a DataFrames
- Ejercicio: Introducción a DataFrames
- Ejercicio: Lectura y escritura de DataFrames
- Ejercicio: Trabajar con Columns
- Ejercicio: Trabajando con Complex Types
- Ejercicio: Combinar y dividir DataFrames
- Ejercicio: Resumir y agrupar DataFrames
- Ejercicio: Trabajar con UDFs
- Ejercicio: Trabajar con Windows
Módulo 7: Introducción a Apache Hive
- Acerca de Apache Hive
Módulo 8: Integración de Hive y Spark
- Integración de Hive y Spark
- Ejercicio: Integración de Spark con Hive
Módulo 9: Visualización de datos con Zeppelin
- Introducción a la visualización de datos con Zeppelin
- Análisis de Zeppelin
- Colaboración Zeppelin
- Ejercicio: AdventureWorks
Módulo 10: Desafíos del procesamiento distribuido
- Shuffle
- Skrew
- Order
Módulo 11: Procesamiento distribuido Spark
- Procesamiento distribuido Spark
- Ejercicio: Explorar el orden de ejecución de consultas
Módulo 12: Persistencia distribuida de Spark
- Persistencia de DataFrame y Dataset
- Niveles de almacenamiento de persistencia
- Visualización de RDDs persistentes
- Ejercicio: Dataframes persistentes
Módulo 13: Escribir, configurar y ejecutar aplicaciones Spark
- Escribir una aplicación Spark
- Creación y ejecución de una aplicación
- Modo de despliegue de aplicaciones
- La interfaz de usuario (UI) web de la aplicación Spark
- Configuración de las propiedades de la aplicación
- Ejercicio: Escribir, configurar y ejecutar una aplicación Spark
Módulo 14: Introducción a Structured Streaming
- Introducción a Structured Streaming
- Ejercicio: Procesamiento de datos en Streaming
Módulo 15: Procesamiento de mensajes con Apache Kafka
- ¿Qué es Apache Kafka?
- Descripción general de Apache Kafka
- Escalado de Apache Kafka
- Arquitectura de un clúster de Apache Kafka
- Herramientas de líneas de comandos de Apache Kafka
Módulo 16: Structured Streaming con Apache Kafka
- Recibir mensajes de Kafka
- Envío de mensajes Kafka
- Ejercicio: Trabajar con mensajes Streaming de Kafka
Módulo 17: Agregar y unir Streaming DataFrames
- Agregar Streaming
- Unir Streaming DataFrames
- Ejercicio: Agregar y unir Streaming DataFrames
Apéndice: Trabajar con conjuntos de datos en Scala
- Trabajar con conjuntos de datos en Scala
- Ejercicio: Uso de conjuntos de datos en Scala