Google Cloud

Integración de datos con Cloud Data Fusion

Este curso de dos días presenta a los estudiantes la capacidad de integración de datos de Google Cloud mediante Cloud Data Fusion. En este curso, analizamos los desafíos de la integración de datos y la necesidad de una plataforma de integración de datos (middleware). A continuación, explicamos cómo Cloud Data Fusion puede ayudar a integrar eficazmente datos de diversas fuentes y formatos, y a generar información valiosa. Analizamos los componentes principales de Cloud Data Fusion y su funcionamiento, cómo procesar datos por lotes y datos en tiempo real mediante diseño visual de pipelines, un seguimiento exhaustivo de metadatos y linaje de datos, y cómo implementar pipelines de datos en diversos motores de ejecución.

14 horas · Virtual
14 horas
Virtual

Identificar la necesidad de integración de datos. Comprender las capacidades que Cloud Data Fusion ofrece como plataforma de integración de datos. Identificar casos de uso para una posible implementación con Cloud Data Fusion. Enumerar los componentes principales de Cloud Data Fusion. Diseñar y ejecutar pipelines de procesamiento de datos por lotes y en tiempo real. Trabajar con Wrangler para crear transformaciones de datos. Usar conectores para integrar datos de diversas fuentes y formatos. Configurar el entorno de ejecución; supervisar y solucionar problemas de ejecución de pipelines. Comprender la relación entre los metadatos y el linaje de datos.

Módulo 1: Introducción a la integración de datos y a la fusión de datos Cloud Comprender la necesidad de la integración de datos Enumerar las situaciones/casos en los que la integración de datos puede ayudar a las empresas Enumerar las plataformas y herramientas de integración de datos disponibles Identificar los desafíos de la integración de datos Comprender el uso de Cloud Data Fusion como plataforma de integración de datos Crear una instancia de Cloud Data Fusion Familiarizarse con el marco central y los componentes principales de Cloud Data Fusion Módulo 2: Creación de pipelines Comprender la arquitectura de Cloud Data Fusion Definir qué es un pipeline de datos Comprender la representación DAG de un pipeline de datos Aprender a usar Pipeline Studio y sus componentes Diseñar un pipeline simple con Pipeline Studio Implementar y ejecutar un pipeline Módulo 3: Diseño de pipelines complejos Realizar operaciones de ramificación, fusión y unión Ejecutar pipeline con argumentos de tiempo de ejecución mediante macros Trabajar con controladores de errores Ejecutar ejecuciones previas y posteriores al pipeline con la ayuda de acciones y notificaciones Programar pipelines Para la ejecución: Importar y exportar pipelines existentes. Módulo 4: Entorno de ejecución de pipelines. Comprender la composición de un entorno de ejecución. Configurar el entorno de ejecución, el registro y las métricas de su pipeline. Comprender conceptos como perfil de cómputo y aprovisionador. Crear un perfil de cómputo. Crear alertas de pipeline. Supervisar el pipeline en ejecución. Módulo 5: Crear transformaciones y preparar datos con Wrangler. Comprender el uso de Wrangler y sus componentes principales. Transformar datos con la interfaz de usuario de Wrangler. Transformar datos mediante directivas/métodos CLI. Crear y usar directivas definidas por el usuario. Módulo 6: Conectores y pipelines de streaming. Arquitectura de referencia de conectores DLP para aplicaciones de streaming. Crear pipelines de streaming. Módulo 7: Metadatos y linaje de datos. Enumere los tipos de metadatos. Diferenciar entre metadatos empresariales, técnicos y operativos. Comprender qué es el linaje de datos. Comprender la importancia de mantener el linaje de datos. Diferenciar entre metadatos y linaje de datos.

Este curso está destinado principalmente a los siguientes participantes: Ingeniero de datos Analistas de datos

Próximas Sesiones

Contáctanos para próximas fechas

Actualmente no hay sesiones programadas para este curso.

Solicitar Información