Cloudera Apache Hadoop: Big Data, la revolución de los datos
Ponentes:
Ramon de la Rosa Falguera – IT Manager at PUE
Descripción:
Las redes sociales, la industria 4.0, la digitalización, IoT y la mensajería instantánea han aumentado el volumen de datos con el que pueden y necesitan trabajar las organizaciones. El almacenamiento, procesado y análisis de estos datos nos permiten conocer mejor a nuestros clientes, mejorar nuestros productos y agilizar la distribución, así como predecir enfermedades entre muchos más casos de uso.
Apache Hadoop es un proyecto de software libre en el que participan Twitter, LinkedIn, Uber, Facebook, Intel y Cloudera, entre otras organizaciones. Dicho proyecto integra decenas de herramientas y soluciones que permiten almacenar, procesar y analizar grandes volúmenes de datos mediante el uso de servidores no especializados.
En el presente taller práctico exploraremos los problemas que genera trabajar con grandes volúmenes de datos y cómo el uso de soluciones Big Data solventa los mismos. Para ello, implementaremos un Cluster virtualizado de Cloudera CDH, una de las distribuciones de Apache Hadoop más utilizadas en el mundo empresarial.
Utilizaremos 5 servidores virtuales para montar un cluster de Big Data con el objetivo de ver cómo se suman las capacidades de dichos servidores y se pueden lanzar tareas sobre dicho cluster como si de una única máquina se tratase.
Una vez desplegado el cluster, comprobaremos su funcionamiento y exploraremos los principales componentes incluidos en CDH.
- Cloudera Manager: La herramienta de gestión de los hosts y servicios.
- HDFS: El sistema de almacenamiento distribuido. Nos ofrece servicios de almacenamiento redundantes y libres de errores.
- YARN: El gestor de recursos del cluster, que nos permite ejecutar tareas Map Reduce y Spark
- HIVE/Impala: Dos herramientas permiten explorar los datos almacenados en Big Data con una sintaxis pseudo SQL.
- HUE: La interfaz humana para interactuar con el cluster, nos permite lanzar consultas sobre los datos, navegar por el espacio de almacenamiento y ejecutar tareas en el cluster, entre otras.
- Flume: Facilita el proceso de ingesta de datos en el cluster.
En la parte final del taller, implementaremos sobre el cluster una solución Big Data con el objetivo de almacenar y analizar los logs originados en diferentes sistemas: firewalls, servidores webs, proxys. Durante esta parte del workshop abordaremos:
- La ingesta de los logs en HDFS, utilizando flume
- La fase de ETL (Extract Transform Load) que prepara los logs para ser utilizados a posteriori
- Creación de metadatos que permitan acceder a los datos como si fueran una tabla
- Visualización de los datos en HUE
La presente actividad se enmarca dentro de la iniciativa Cloudera Academic Program (CAP). Se ha diseñado a partir de las herramientas, software y recursos docentes que Cloudera pone a disposición de las instituciones educativas que deseen capacitar, de forma oficial y reconocida, a sus estudiantes en tecnologías Big Data Apache Hadoop.
Las organizaciones de todo tipo están viviendo la revolución del Big Data, incrementando la necesidad de incorporar profesionales con habilidades que generen valor en el análisis y explotación de todo tipo de datos.
Como líder en el mercado Big Data Open Source, Cloudera se centra en ayudar en el desarrollo de la próxima generación de profesionales del dato.
El programa Cloudera Academic Program (CAP) acerca a instituciones académicas formación en Hadoop, proporcionando beneficios a estudiantes, docentes y centros en la adquisición de conocimientos cualificados y reconocidos en Big Data.
PUE es el partner de Cloudera para la gestión exclusiva de su iniciativa Cloudera Academic Program en España.
Para más información:
https://www.pue.es/educacion/cloudera-academic-program