
DANA-262: Análisis con el almacén de datos Cloudera
Este curso de Análisis con Data Warehouse te enseñará a aplicar las habilidades tradicionales de análisis de datos e inteligencia empresarial a Big Data. Este curso presenta las herramientas que los profesionales de datos necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting conocidos.
A través de debates dirigidos por el instructor y ejercicios prácticos interactivos, los participantes navegarán por el ecosistema y aprenderán a: Usar Apache Hive y Apache Impala para acceder a los datos a través de consultas. Identificar distinciones entre Hive e Impala, como diferencias en sintaxis, formatos de datos y funciones compatibles. Escribir y ejecutar consultas que usen funciones, funciones de agregación y subconsultas. Usar uniones para combinar conjuntos de datos. Crear, modificar y eliminar tablas, vistas y bases de datos. Cargar datos en tablas y almacenar resultados de consultas. Seleccionar formatos de archivo y desarrollar esquemas de particionamiento para un mejor rendimiento. Usar funciones analíticas y de ventanas para obtener información sobre sus datos. Almacenar y consultar estructuras de datos complejas o anidadas. Procesar y analizar datos semiestructurados y no estructurados. Optimizar y ampliar las capacidades de Hive e Impala. Determinar si Hive, Impala, un RDBMS o una combinación de estos es la mejor opción para una tarea determinada. Utilizar los beneficios del almacén de datos público CDP Cloud.
Fundamentos para el análisis de Big Data Resumen del análisis de Big Data Almacenamiento de datos: HDFS Procesamiento de datos distribuidos: YARN, MapReduce y Spark Procesamiento y análisis de datos: Hive e Impala Integración de bases de datos: Sqoop Otras herramientas de datos Explicación del escenario de ejercicio Introducción a Hive e Impala ¿Qué es Hive? ¿Qué es Impala? ¿Por qué usar Hive e Impala? Esquema y almacenamiento de datos Comparación de Hive con bases de datos tradicionales Casos de uso Consultas con Hive e Impala Bases de datos y tablas Sintaxis básica del lenguaje de consulta de Hive e Impala Tipos de datos Uso de Hue para ejecutar consultas Uso de Beeline (Shell de Hive) Uso de Shell de Impala Operadores comunes y funciones integradas Operadores Funciones escalares Funciones de agregación Gestión de datos Simplificación de consultas con vistas Almacenamiento de resultados de consultas Almacenamiento y rendimiento de datos Particionado Tablas, Carga de datos en tablas particionadas, Cuándo usar particionamiento, Elección de un formato de archivo, Uso de los formatos de archivo Avro y Parquet, Trabajo con múltiples conjuntos de datos, Uniones y combinaciones, Manejo de valores nulos en combinaciones, Uniones avanzadas, Funciones analíticas y ventanas, Uso de funciones analíticas comunes, Otras funciones analíticas, Ventanas deslizantes, Datos complejos, Datos complejos con Hive, Datos complejos con Impala, Análisis de texto, Uso de expresiones regulares con Hive e Impala, Procesamiento de datos de texto con SerDes en Hive, Análisis de sentimiento y n-gramas en Hive, Optimización de Apache Hive, Rendimiento de consultas, Optimización y estadísticas basadas en costes, Clasificación, Optimizaciones de archivos ORC, Optimización de Apache Impala, Ejecución de consultas en Impala, Mejora del rendimiento de Impala, Ampliación de Hive e Impala, Funciones definidas por el usuario, Consultas parametrizadas, Elección de la mejor herramienta, Comparación entre MapReduce, Hive, Impala y Relational Bases de datos. ¿Cuál elegir? CDP Public Cloud Almacén de datos. Resumen del almacén de datos. Escalado automático. Gestión de almacenes virtuales. Consulta de datos mediante CLI e integración con terceros. Apéndice: Apache Kudu. ¿Qué es Kudu? Tablas de Kudu. Uso de Impala con Kudu.
Este curso está diseñado para analistas de datos, especialistas en inteligencia empresarial, desarrolladores, arquitectos de sistemas y administradores de bases de datos. Se presupone un conocimiento básico de SQL, así como una familiaridad básica con la línea de comandos Linux.



