Acerca de este curso
El curso va dirigido a desarrolladores e ingenieros de datos que quieren indexar datos en Hadoop para unas consultas más potentes en tiempo real e integrar Cloudera Search con aplicaciones externas. Este curso forma parte del Developer Learning Path.
Cloudera Search aporta full-text, búsqueda interactiva y escalable, indexación flexible para Hadoop y un enterprise data hub. Desarrollado por Apache Solr, Search ofrece magnitud y fiabilidad para una nueva generación de consultas multi-workload integradas.
PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
El curso está dirigido a desarrolladores e ingenieros de datos con al menos una noción básica con Hadoop y experiencia en programación en un lenguaje de uso general como Java, C, C ++, Perl o Python. Los asistentes deben tener conocimiento de la línea de comandos de Linux y deberán ser capaces de realizar tareas básicas como la creación y eliminación de directorios, la visualización y el cambio de permisos de archivos, la ejecución de scripts y el examen de la salida de archivos. No se requiere experiencia previa con Apache Solr o Cloudera Search, ni tampoco con HBase o SQL.
Objetivos del curso
Al finalizar de la formación, el participante sabrá:
- Realizar la indexación por lotes de datos almacenados en HDFS y HBase
- Realizar la indexación de los datos de transmisión en near-real-time con Flume
- Contenido de índice en varios idiomas y formatos de archivo
- Procesar y transformar los datos entrantes con Morphlines
- Crear una interfaz de usuario para su índice utilizando Hue
- Integrar Cloudera Search con aplicaciones externas
- Mejorar la experiencia de búsqueda utilizando funciones como facetado, resaltado, corrección ortográfica
Contenidos
Introducción
Información general sobre Cloudera Search
- Qué es Cloudera Search?
- Características útiles
- Casos de uso
- Arquitectura básica
Realizar consultas básicas
- Ejecución de una consulta en la interfaz de usuario de administración
- Sintaxis básica
- Las técnicas para Coincidencia aproximada
- El control de salida
Escribiendo consultas más potentes
- Relevancia y Filtros
- Analizadores de consulta
- Funciones
- Geoespacial Search
- Faceting
Preparación para indexar documentos
- Descripción general del proceso de indexación
- Entender Morphlines
- Generación de Archivos de configuración
- Diseño de esquemas
- Collection Management
La indexación Batch de datos HDFS con MapReduce
- Descripción general del proceso de indexación Batch HDFS
- Uso de la herramienta de indexación MapReduce
- Testing y solución de problemas
Indexación Near-Real-Time con Flume
- Visión general del proceso de indexación Near-Real-Time
- Introducción a Apache Flume
- Cómo realizar la indexación Near-Real-Time con Flume
- Testing y solución de problemas
Indexación de datos HBase con Lily
- Qué es Apache HBase?
- La indexación Batch para HBase
- Indexación de Tablas HBase en Near-Real-Time
Indexación de datos en otros idiomas y formatos
- Tipos de campo y Analizador de Cadenas
- Etimología, Mapeo de caracteres, y Soporte de idiomas
- Esquema y Analysis Support en el Admin UI
- Metadatos y Extracción de Contenido con Apache Tika
- Indexación de tipos de archivos binarios con SolrCell
Mejorar la Calidad y el Rendimiento de Cloudera Search
- Entrega de Resultados Relevantes
- Cómo ayudar a los usuarios encontrar información
- Rendimiento de consultas y solución de problemas
Construir interfaces de usuario para Search
- Visión general de UI Search
- La construcción de una interfaz de usuario con Hue
- Integrar Search en aplicaciones personalizadas
Consideraciones para la Implementación
- Planificación de la implementación
- La determinación de las necesidades de hardware
- Descripción de la seguridad
- Colección de alias
Conclusión