Acerca de este curso
El curso permite a los participantes construir aplicaciones completas y unificadas Big Data que combinan lotes, streaming y análisis interactivos en todos sus datos. Con Spark, los desarrolladores pueden escribir aplicaciones sofisticadas paralelas para las decisiones empresariales más rápidas y que dan mejores resultados al usuario; se aplican en una amplia variedad de casos y con multitud de arquitecturas. Este curso forma parte del developer learning path.
Apache Spark es el sucesor de nueva generación en MapReduce. Spark es un poderoso motor de procesamiento, de código abierto para los datos en el cluster Hadoop, optimizado para la velocidad, facilidad de uso, y análisis avanzados. Spark Framework soporta streaming de procesamiento de datos complejos y algoritmos iterativos, permitiendo a las aplicaciones ejecutarse hasta 100 veces más rápido que los programas tradicionales de Hadoop MapReduce.
PUE es Strategic Partner de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
Curso orientado a desarrolladores y diseñadores de software con experiencia en lenguajes de programación Python y Scala. Asimismo es aconsejable poseer conocimientos básicos en Linux.
No se requieren conocimientos previos de Hadoop.
Objetivos del curso
La formación oficial Cloudera Developer Training for Apache Spark capacita a los participantes en la construcción de aplicaciones complejas y unificadas Big Data que combinen lotes, streaming y análisis interactivos en todos sus datos.
Contenidos
- Introducción: ¿Porqué Spark?.
- Problemas habituales con escalabilidad de sistemas grandes.
- Introducción a Spark.
- Spark: Conceptos básicos.
- ¿Qué es Apache Spark?.
- Empleo del Shell Spark.
- Los conjuntos elásticos de datos distribuidos (RDDs).
- Programación de funciones con Spark.
- Trabajos con RDDs.
- Operaciones RDD.
- Key-Value Pair RDDs.
- MapReduce y operaciones Pair RDD.
- The Hadoop Distributed File System.
- ¿Porqué HDFS?.
- Arquitectura HDFS.
- Empleo de HDFS.
- Funcionamiento de Spark en un Cluster.
- Aspectos generales.
- Un Cluster Standalone Spark.
- El Spark Standalone Web UI.
- Programación en paralelo con Spark.
- Particiones RDD y localización de datos en HDFS.
- Trabajos con particionados.
- Ejecución en paralelo.
- El almacenamiento en caché y la persistencia.
- Alineamiento RDD.
- Aspectos generales de la caché.
- Persistencia distribuida.
- Trabajo con aplicaciones Spark.
- Aplicaciones Spark vs. Spark Shell .
- Creación del SparkContext.
- Configuración de propiedades Spark.
- Construcción y ejecución de aplicaciones Spark.
- Logging.
- Spark, Hadoop, y Enterprise Data Center.
- Aspectos generales.
- Spark y Ecosistema Hadoop.
- Spark y MapReduce.
- Spark Streaming.
- Aspectos generales de Spark Streaming.
- Ejemplo: Streaming Word Count.
- Otras operaciones Streaming.
- Operaciones de ventana deslizante.
- Desarrollo de aplicaciones Streaming Spark.
- Algoritmos comunes en Spark.
- Algoritmos Iterativos.
- Análisis Gráfico.
- Aprendizaje Automático.
- Mejora del rendimiento de Spark.
- Variables compartidas: Variables de difusión.
- Variables compartidas: Acumuladores.
- Problemas habituales de rendimiento.
- Conclusión.