Cloudera

DENG-255: Creación de un centro de datos abierto utilizando Apache Iceberg

Open Data Lakehouse es una arquitectura de datos moderna que permite análisis versátiles de datos en tiempo real y almacenados en almacenes de objetos nativos de Cloud. Esta arquitectura puede abarcar entornos híbridos y multi-Cloud. Este curso presenta Apache Ozone, un servicio de almacenamiento híbrido que aborda las limitaciones de HDFS. También explorará Apache Iceberg, un formato de tabla abierta optimizado para conjuntos de datos a escala de petabytes. El curso cubre los beneficios de Iceberg, su arquitectura, operaciones de lectura/escritura, transmisión de datos y funciones avanzadas como viaje en el tiempo, evolución de particiones y datos como código. Más de 25 laboratorios prácticos y un proyecto final le proporcionarán las habilidades necesarias para construir un Open Data Lakehouse eficiente y de alto rendimiento en su propio entorno.

28 horas · Virtual
28 horas
Virtual

Este curso enseña a los participantes las siguientes habilidades: Comprender a fondo los beneficios, las instantáneas y las funcionalidades de Iceberg. Crear tablas externas y administradas con confianza, configurando la copia en escritura y la fusión en lectura para una gestión de datos optimizada. Realizar reversiones y viajes en el tiempo, navegar por la evolución del esquema y las particiones, y utilizar particiones ocultas. Crear y fusionar ramas de tablas, dominando el procedimiento de escritura, auditoría y publicación de Iceberg. Realizar de manera eficiente tareas de mantenimiento de tablas y abordar los desafíos de la migración de datos.

Fundamentos de Open Data Lakehouse: Comprenda los conceptos y beneficios principales de Open Data Lakehouse. Introducción a Apache Ozone y su integración en el ecosistema CDP. Dominio de Apache Ozone: Configure Ozone, utilice comandos CLI y transfiera datos entre HDFS y Ozone. Integre Ozone en aplicaciones. Experiencia en Apache Iceberg: Explore la integración de Iceberg con CDP, la arquitectura y los principios de diseño de data lakehouse. Domine las mejores prácticas de gestión, gobernanza y optimización de datos. Comprenda las instantáneas y las consultas de viaje en el tiempo. Diseñe tablas estratégicamente (externas/gestionadas, copia en escritura, fusión en lectura). Emplee funciones avanzadas: captura de cambios de datos (CDC), evolución de esquemas/particiones, particiones ocultas. Datos como código y cumplimiento: Implemente la clonación sin copia, la ramificación de tablas y el etiquetado para QA, modelos de ML y auditoría. Optimice la carga de datos ETL/ELT y logre el cumplimiento del RGPD con la función de escritura, auditoría y publicación (WAP) de Iceberg. Migración de Hive a Iceberg: Comprenda el catálogo. Diferencias y estrategias de migración. Gestionar eficazmente los datos que llegan tarde. Administración de Iceberg. Realizar tareas de mantenimiento de tablas. Configurar y gestionar los ajustes de control de acceso. Proyecto final. Aplicar todos los conceptos implementando un caso de uso de Open Data Lakehouse en CDP. Desarrollar un manual de implementación integral de Open Data Lakehouse.

Este curso está diseñado para profesionales de datos en organizaciones que utilizan soluciones de Data Warehouse o Data Engineering. Si está creando un Open Data Lakehouse con Apache Iceberg, este curso le proporcionará los conocimientos y las habilidades necesarios. Los perfiles ideales incluyen ingenieros de datos, desarrolladores de Hive/Impala, ingenieros de streaming, científicos de datos y administradores de CDP. Se requiere un conocimiento básico de HDFS y experiencia con Hive.

Próximas Sesiones