Cloudera

DANA-262: Análisis con el almacén de datos Cloudera

Este curso de Análisis con Data Warehouse le enseñará a aplicar habilidades tradicionales de análisis de datos e inteligencia empresarial a Big Data. Este curso presenta las herramientas que los profesionales de datos necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting conocidos.

28 horas · Virtual
28 horas
Virtual

Mediante debates dirigidos por el instructor y ejercicios prácticos interactivos, los participantes explorarán el ecosistema y aprenderán a: Utilizar Apache Hive y Apache Impala para acceder a datos mediante consultas. Identificar las diferencias entre Hive e Impala, como la sintaxis, los formatos de datos y las funciones compatibles. Escribir y ejecutar consultas que utilicen funciones, funciones de agregación y subconsultas. Utilizar combinaciones y uniones para combinar conjuntos de datos. Crear, modificar y eliminar tablas, vistas y bases de datos. Cargar datos en tablas y almacenar los resultados de las consultas. Seleccionar formatos de archivo y desarrollar esquemas de particionamiento para un mejor rendimiento. Utilizar funciones analíticas y de ventanas para obtener información sobre sus datos. Almacenar y consultar estructuras de datos complejas o anidadas. Procesar y analizar datos semiestructurados y no estructurados. Optimizar y ampliar las capacidades de Hive e Impala. Determinar si Hive, Impala, un SGBD relacional o una combinación de estos es la mejor opción para una tarea determinada. Aprovechar las ventajas de CDP Public Data Warehouse.

Fundamentos para Big Data AnalyticsBig Data Descripción general de Analytics Almacenamiento de datos: HDFS Procesamiento de datos distribuidos: YARN, MapReduce y Spark Procesamiento y análisis de datos: Hive e Impala Integración de bases de datos: Sqoop Otras herramientas de datos Explicación del escenario de ejercicio Introducción a Hive e Impala ¿Qué es Hive? ¿Qué es Impala? ¿Por qué usar Hive e Impala? Esquema y almacenamiento de datos Comparación de Hive con bases de datos tradicionales Casos de uso Consultas con Hive e Impala Bases de datos y tablas Sintaxis básica del lenguaje de consulta de Hive e Impala Tipos de datos Uso de Hue para ejecutar consultas Uso de Beeline (shell de Hive) Uso del shell de Impala Operadores comunes y funciones integradas Operadores Funciones escalares Funciones de agregación Gestión de datos Simplificación de consultas con vistas Almacenamiento de resultados de consultas Almacenamiento y rendimiento de datos Particionamiento TablasCarga de datos en tablas particionadasCuándo usar particionamientoElección de un formato de archivoUso de formatos de archivo Avro y ParquetTrabajo con múltiples conjuntos de datosUNION y JoinsManejo de valores NULL en JoinsJoins avanzadosFunciones analíticas y ventanasUso de funciones analíticas comunesOtras funciones analíticasVentanas deslizantesDatos complejosDatos complejos con HiveDatos complejos con ImpalaAnálisis de textoUso de expresiones regulares con Hive e ImpalaProcesamiento de datos de texto con SerDes en HiveAnálisis de sentimiento y n-gramas en HiveOptimización de Apache HiveComprensión del rendimiento de las consultasOptimización basada en costos y estadísticasBucketingOptimizaciones de archivos ORCOptimización de Apache ImpalaCómo Impala ejecuta consultasMejora del rendimiento de ImpalaExtensión de Hive e ImpalaFunciones definidas por el usuarioConsultas parametrizadasElección de la mejor herramienta para el trabajoComparación de MapReduce, Hive, Impala y Relational Bases de datos¿Cuál elegir?CDP Public Cloud Almacén de datosDescripción general del almacén de datosAutoescaladoAdministración de almacenes virtualesConsulta de datos mediante CLI e integración de tercerosApéndice: Apache Kudu¿Qué es Kudu?Tablas de KuduUso de Impala con Kudu

Este curso está diseñado para analistas de datos, especialistas en inteligencia empresarial, desarrolladores, arquitectos de sistemas y administradores de bases de datos. Se presupone cierto conocimiento de SQL, así como familiaridad básica con la línea de comandos Linux.

Próximas Sesiones