
Integración de datos con Cloud Data Fusion
Este curso de dos días introduce a los participantes a la capacidad de integración de datos de Google Cloud mediante Cloud Data Fusion. En este curso, analizamos los desafíos de la integración de datos y la necesidad de una plataforma de integración de datos (middleware). A continuación, explicamos cómo Cloud Data Fusion puede ayudar a integrar eficazmente datos de diversas fuentes y formatos, y a generar información valiosa. Examinamos los componentes principales de Cloud Data Fusion y su funcionamiento, cómo procesar datos por lotes y datos en tiempo real mediante el diseño visual de flujos de datos, el seguimiento detallado de metadatos y el linaje de datos, y cómo implementar flujos de datos en diversos motores de ejecución.
Identificar la necesidad de integración de datos. Comprender las capacidades que ofrece Cloud Data Fusion como plataforma de integración de datos. Identificar casos de uso para una posible implementación con Cloud Data Fusion. Enumerar los componentes principales de Cloud Data Fusion. Diseñar y ejecutar pipelines de procesamiento de datos por lotes y en tiempo real. Trabajar con Wrangler para crear transformaciones de datos. Utilizar conectores para integrar datos de diversas fuentes y formatos. Configurar el entorno de ejecución; supervisar y solucionar problemas de ejecución del pipeline. Comprender la relación entre metadatos y linaje de datos.
Módulo 1: Introducción a la integración de datos y Cloud Data Fusion Entienda la necesidad de la integración de datos Enumere las situaciones/casos en los que la integración de datos puede ayudar a las empresas Enumere las plataformas y herramientas de integración de datos disponibles Identifique los desafíos de la integración de datos Entienda el uso de Cloud Data Fusion como plataforma de integración de datos Cree una instancia de Cloud Data Fusion Familiarícese con el marco central y los componentes principales en Cloud Data Fusion Módulo 2: Creación de pipelines Entienda la arquitectura de Cloud Data Fusion Defina qué es un pipeline de datos Entienda la representación DAG de un pipeline de datos Aprenda a usar Pipeline Studio y sus componentes Diseñe un pipeline simple usando Pipeline Studio Implemente y ejecute un pipeline Módulo 3: Diseño de pipelines complejos Realice operaciones de ramificación, fusión y unión Ejecute el pipeline con argumentos de tiempo de ejecución usando macros Trabaje con manejadores de errores Ejecute ejecuciones previas y posteriores al pipeline con la ayuda de acciones y notificaciones Programe pipelines para ejecuciónImportar y exportar canalizaciones existentes.Módulo 4: Entorno de ejecución de canalizacionesComprenda la composición de un entorno de ejecuciónConfigure el entorno de ejecución, el registro y las métricas de su canalización. Comprenda conceptos como perfil de cómputo y aprovisionador. Cree un perfil de cómputo. Cree alertas de canalización. Supervise la canalización en ejecución.Módulo 5: Creación de transformaciones y preparación de datos con WranglerComprenda el uso de Wrangler y sus componentes principales. Transforme datos usando la interfaz de usuario de Wrangler. Transforme datos usando directivas/métodos CLI. Cree y use directivas definidas por el usuario.Módulo 6: Conectores y canalizaciones de transmisiónConectores Arquitectura de referencia DLP para aplicaciones de transmisión Creación de canalizaciones de transmisiónMódulo 7: Metadatos y linaje de datosEnumere los tipos de metadatos. Diferencie entre metadatos comerciales, técnicos y operativos. Comprenda qué es el linaje de datos. Comprenda la importancia de mantener el linaje de datos. Diferencie entre metadatos y linaje de datos.
Este curso está dirigido principalmente a los siguientes participantes: Ingenieros de datos Analistas de datos
Próximas Sesiones
Contáctanos para próximas fechas
Actualmente no hay sesiones programadas para este curso.
Solicitar Información


