
DENG-255: Construcción de un lago de datos abiertos con Apache Iceberg
Open Data Lakehouse es una arquitectura de datos moderna que permite análisis versátiles de datos en streaming y almacenados en almacenes de objetos nativos de Cloud. Esta arquitectura abarca entornos híbridos y multi-Cloud. Este curso presenta Apache Ozone, un servicio de almacenamiento híbrido que aborda las limitaciones de HDFS. También explorará Apache Iceberg, un formato de tabla abierta optimizado para conjuntos de datos a escala de petabytes. El curso abarca los beneficios de Iceberg, su arquitectura, las operaciones de lectura/escritura, el streaming y funciones avanzadas como el viaje en el tiempo, la evolución de particiones y los datos como código. Más de 25 prácticas de laboratorio y un proyecto final le proporcionarán las habilidades necesarias para construir un Open Data Lakehouse eficiente y de alto rendimiento en su propio entorno.
Este curso enseña a los participantes las siguientes habilidades: Obtenga una comprensión profunda de los beneficios, las instantáneas y las funcionalidades de Iceberg. Cree con confianza tablas externas y administradas, configurando la copia en escritura y la combinación en lectura para una administración de datos optimizada. Realice reversiones y viajes en el tiempo, navegue por la evolución del esquema y la partición, y utilice particiones ocultas. Cree y combine ramas de tablas, dominando el procedimiento de escritura-auditoría-publicación de Iceberg. Realice tareas de mantenimiento de tablas de manera eficiente y aborde los desafíos de la migración de datos.
Fundamentos de Open Data Lakehouse: Comprenda los conceptos y beneficios fundamentales de Open Data Lakehouse. Introducción a Apache Ozone y su integración en el ecosistema CDP. Dominio de Apache Ozone: Configure Ozone, use comandos CLI y transfiera datos entre HDFS y Ozone. Integre Ozone en aplicaciones. Experiencia en Apache Iceberg: Explore la integración de Iceberg con CDP, la arquitectura y los principios de diseño de data lakehouse. Domine las mejores prácticas de gestión, gobernanza y optimización de datos. Comprenda las instantáneas y las consultas de viaje en el tiempo. Diseñe tablas estratégicamente (externas/administradas, copia en escritura, fusión en lectura). Emplee funciones avanzadas: captura de datos de cambios (CDC), evolución de esquemas/particiones, particiones ocultas. Datos como código y cumplimiento: Implemente la clonación sin copia, la ramificación de tablas y el etiquetado para control de calidad, modelos de aprendizaje automático y auditoría. Optimice la carga de datos ETL/ELT y logre el cumplimiento del RGPD con la función de escritura, auditoría y publicación (WAP) de Iceberg. Migración de Hive a Iceberg: Comprenda el catálogo. Diferencias y estrategias de migración. Gestionar eficazmente los datos que llegan tarde. Administración de Iceberg Realizar tareas de mantenimiento de tablas. Configurar y administrar los ajustes de control de acceso. Proyecto final Aplicar todos los conceptos implementando un caso de uso de Open Data Lakehouse en CDP. Desarrollar un manual de implementación completo de Open Data Lakehouse.
Este curso está diseñado para profesionales de datos de organizaciones que utilizan soluciones de almacén de datos Cloudera o ingeniería de datos Cloudera. Si está construyendo un lago de datos abierto con tecnología Apache Iceberg, este curso le proporcionará los conocimientos y las habilidades que necesita. Los puestos ideales incluyen ingenieros de datos, desarrolladores de Hive/Impala SQL, ingenieros de streaming Kafka, científicos de datos y administradores de CDP. Se requieren conocimientos básicos de HDFS y experiencia con Hive y Spark.



