Acerca de este curso
TASTE OF TRAINING
Este curso permite a los participantes almacenar y acceder a cantidades masivas de datos multi-estructurados y realizar cientos de miles de operaciones por segundo.
Apache HBase una base de datos NoSQL distribuida y escalable construida sobre Hadoop. HBase puede almacenar datos en tablas masivas que se componen de miles de millones de filas y de millones de columnas, servir los datos a muchos usuarios y aplicaciones en tiempo real, y proporcionar un acceso rápido y aleatorio de lectura/escritura tanto para usuarios como aplicaciones.
PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
Este curso está dirigido a desarrolladores y administradores que tengan la intención de usar HBase. Será útil tener experiencia previa con bases de datos y modelado de datos, pero no es un requisito necesario. Se asume el conocimiento de Java. No se requiere conocimiento previo de Hadoop.
Objetivos del curso
A través de sesiones presenciales e interactivas con ejercicios prácticos, el participante aprenderá:
- Las tecnologías principales de Apache HBase
- Cómo HBase y HDFS trabajan juntos
- Cómo trabajar con el HBase shell y la API de Java
- El almacenamiento HBase y la arquitectura de clúster
- Los fundamentos de la administración de HBase
- Características avanzadas de la API de HBase
- La importancia del diseño de esquemas en HBase
- Cómo utilizar Hive e Impala con HBase
Contenidos
Introducción
Introducción a Hadoop y Hbase
- Introducción a Hadoop
- Componentes fundamentales de Hadoop
- ¿Qué es HBase?
- Fortalezas de HBase
- HBase en producción
- Debilidades de HBase
Tablas HBase
- Conceptos de HBase
- Tablas fundamentales de HBase
- Diseño de tablas
HBase Shell
- Creación de tablas con HBase Shell
- Trabajar con tablas
- Trabajar con datos de tabla
Fundamentos de la Arquitectura HBase
- HBase Regions
- Arquitectura de un clúster HBase
- HBase y localicación de los datos HDFS
Diseño de esquema HBase
- Consideraciones generales de diseño
- Diseño centrado en la aplicación
- Diseño de Row Keys HBase
- Otras características de tabla HBase
Acceso básico a los datos con la API de HBase
- Opciones para acceder a los datos de HBase
- Creación y eliminación de tablas HBase
- Recuperar datos con Get
- Recuperar datos con Scan
- Inserción y actualización de datos
- Eliminación de datos
Más características avanzadas de la API de HBase
- Filtrado de Scans
- Buffer de escritura del lado cliente
- Mejores prácticas
- Coprocesadores HBase
HBase Write Path
- HBase Write Path
- Compactación
- Splits
HBase Read Path
- Cómo HBase lee los datos
- Bloques de caché para lectura
Optimizar el rendimiento de HBase
- Consideraciones Column Family
- Consideraciones para el diseño de esquemas
- Configuración para el almacenamiento en caché
- Consideraciones de memoria
- Tratar con series de tiempo y datos secuenciales
- Regiones Pre-Splitting
Administración de HBase y Gestión de Clústeres
- Demonios de HBase
- Consideraciones de ZooKeeper
- Alta disponibilidad de HBase
- Uso de HBase Balancer
- Fijación de tablas HBase con hbck
- Seguridad en HBase
Replicación y copia de seguridad de HBase
- Replicación de HBase
- Copia de seguridad de HBase
- MapReduce y HBase Clusters
Uso de Hive e Impala con HBase
- Cómo utilizar Hive e Impala para acceder a HBase
Conclusión
Acceso a datos con Python y Thrift
- Uso de Thrift
- Trabajar con tablas
- Getting y Putting de datos
- Escaneo de datos
- Eliminación de datos
- Contadores
- Filtros
OpenTSDB
API de HBase-spark
- Introducción
- Arquitectura y patrones de integración
- Escritura y uso de la API
- Trabajo futuro