Cloudera

DANA-262: Analyzing with Cloudera Data Warehouse - Virtual English

28 horas
2970,00 €
Live Virtual Class
Live Virtual Class

Acerca de este curso

Este curso de Análisis con Data Warehouse te enseñará a aplicar habilidades tradicionales de análisis de datos e inteligencia empresarial a grandes conjuntos de datos. Este curso presenta las herramientas que los profesionales de datos necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting habituales.

A quién va dirigido

Este curso está diseñado para analistas de datos, especialistas en inteligencia empresarial, desarrolladores, arquitectos de sistemas y administradores de bases de datos. 

Prerrequisitos

  • Se requieren conocimientos previos de SQL, así como estar familiarizado con la línea de comandos de Linux.

Objetivos del curso

Los asistentes que completen con éxito este curso serán capaces de:

  • Utilizar Apache Hive y Apache Impala para acceder a datos mediante consultas.
  • Identificar diferencias entre Hive e Impala, ya sea en sintaxis, formatos de datos o funcionalidades soportadas.
  • Escribir y ejecutar consultas que utilicen funciones, tanto dede agregado como subconsultas.
  • Utilizar joins y unions para combinar conjuntos de datos.
  • Crear, modificar y eliminar tablas, vistas y bases de datos.
  • Cargar datos en tablas y almacenar resultados de consultas.
  • Seleccionar formatos de archivos e implementar políticas de particionamiento para mejorar el rendimiento.
  • Utilizar funciones analíticas y de ventana para obtener información detallada sobre sus datos.
  • Almacenar y consultar estructuras de datos complejas o anidadas.
  • Procesar y analizar datos semiestructurados y no estructurados.
  • Optimizar y ampliar las capacidades de Hive e Impala.
  • Determinar si Hive, Impala, un sistema de gestión de bases de datos relacionales (RDBMS) o una combinación de estos es la mejor elección para una tarea específica.
  • Utilizar los beneficios de CDP Data Storage.
  • Creación de bases de datos y tablas.
  • Carga de datos.
  • Alteración de bases de datos y tablas.
  • Almacén de Datos en la Cloud Pública.

Contenidos

Fundamentos para el Análisis de Big Data

  • Visión General del Análisis de Big Data
  • Almacenamiento de Datos: HDFS
  • Procesamiento Distribuido de Datos: YARN,
  • MapReduce y Spark
  • Procesamiento y Análisis de Datos: Hive e Impala
  • Integración de Bases de Datos: Sqoop
  • Otras Herramientas de Datos
  • Explicación del Escenario del Ejercicio

Introducción a Hive e Impala

  • ¿Qué es Hive?
  • ¿Qué es Impala?
  • ¿Por qué utilizar Hive e Impala?
  • Schema y almacenamiento de datos
  • Comparación entre Hive y bases de datos tradicionales
  • Casos de uso

Consultas con Hive e Impala

  • Tablas y bases de datos
  • Sintaxis básica en consultas Hive e Impala
  • Tipos de datos
  • Empleo de Hue para ejecutar consultas
  • Empleo de Beeline (la Shell de Hive)
  • Empleo de la Shell de Impala

Operadores comunes y funciones integradas

  • Operadores
  • Funciones escalares
  • Funciones de agregado

Administración de datos

  • Almacenamiento de datos
  • Creación de bases de datos y tablas
  • Carga de datos
  • Modificación de bases de datos y tablas
  • Simplificación de consultas con vistas
  • Almacenamiento de resultados de consultas

Almacenamiento de datos y rendimiento

  • Particionamiento de tablas
  • Carga de datos en tablas particionadas
  • Cuándo utilizar particionamiento
  • Selección del formato de archivo
  • Uso de los formatos de archivo Avro y Parquet

Trabajando con múltiples Datasets

  • UNION y Joins
  • Manejo de valores NULL en Joins
  • Joins avanzados

Funciones analíticas y Windowing

  • Utilización de funciones analíticas comunes
  • Otras funciones analíticas
  • Ventanas deslizantes

Datos complejos

  • Datos complejos con Hive
  • Datos complejos con Impala

Análisis de texto

  • Empleo de expresiones regulares con Hive e Impala
  • Procesamiento de texto con SerDes en Hive
  • Análisis de Sentimiento y n-grams en Hive

Optimización de Apache Hive

  • Comprendiendo cómo se ejecutan las consultas
  • Optimización basada en Costes y Estadísticas
  • Bucketing
  • Optimizaciones de ficheros ORC
  • Indexación de datos
  • Hive en Spark

Optimización de Apache Impala

  • Cómo Impala ejecuta las consultas
  • Mejorar el rendimiento de Impala

Extendiendo Hive e Impala

  • Customizar SerDes y formatos de archivo en Hive
  • Transformación de datos con Scripts personalizados en Hive
  • Funciones definidas por el usuario
  • Consultas parametrizadas

Selección de la Mejor Herramienta para cada Tarea

  • Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
  • ¿Cuál elegir?

CDP Public Cloud Data Warehouse

  • Visión General del Data Warehouse en la Nube Pública
  • Autoescalado
  • Gestión de Data Warehouse
  • Consulta de Datos mediante CLI e Integración con Terceros

Appendix: Apache Kudu

  • ¿Qué es Kudu?
  • Tablas Kudu
  • Uso de Impala con Kudu

Convocatorias abiertas