
Procesamiento de datos sin servidor con Dataflow
Esta capacitación está dirigida a profesionales de Big Data que desean profundizar en sus conocimientos de Dataflow para optimizar sus aplicaciones de procesamiento de datos. Partiendo de los fundamentos, esta capacitación explica cómo Apache Beam y Dataflow trabajan juntos para satisfacer sus necesidades de procesamiento de datos sin el riesgo de depender de un proveedor. La sección sobre desarrollo de pipelines explica cómo convertir la lógica de negocio en aplicaciones de procesamiento de datos que puedan ejecutarse en Dataflow. Esta capacitación culmina con un enfoque en operaciones, que repasa las lecciones más importantes para operar una aplicación de datos en Dataflow, incluyendo la monitorización, la resolución de problemas, las pruebas y la fiabilidad.
Demuestre cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de su organización. Resuma los beneficios de Beam Portability Framework y habilítelo para sus pipelines de Dataflow. Habilite Shuffle y Streaming Engine, para pipelines por lotes y streaming respectivamente, para obtener el máximo rendimiento. Habilite la Programación flexible de recursos para un rendimiento más rentable. Seleccione la combinación correcta de permisos de IAM para su trabajo de Dataflow. Implemente las mejores prácticas para un entorno de procesamiento de datos seguro. Seleccione y ajuste la E/S de su elección para su pipeline de Dataflow. Use esquemas para simplificar su código Beam y mejorar el rendimiento de su pipeline. Desarrolle un pipeline de Beam usando SQL y DataFrames. Realice monitoreo, resolución de problemas, pruebas y CI/CD en pipelines de Dataflow.
Introducción: Presentar los objetivos del curso. Demostrar cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de su organización. Portabilidad de Beam: Resumir las ventajas del marco de portabilidad de Beam. Personalizar el entorno de procesamiento de datos de su pipeline mediante contenedores personalizados. Revisar casos de uso para transformaciones entre lenguajes. Habilitar el marco de portabilidad para sus pipelines de Dataflow. Separar computación y almacenamiento con Dataflow: Habilitar Shuffle y Streaming Engine, para pipelines por lotes y streaming respectivamente, para obtener el máximo rendimiento. Habilitar la programación flexible de recursos para un rendimiento más rentable. IAM, cuotas y permisos: Seleccionar la combinación correcta de permisos de IAM para su trabajo de Dataflow. Determinar sus necesidades de capacidad inspeccionando las cuotas relevantes para sus trabajos de Dataflow. Seguridad: Seleccionar su estrategia de procesamiento de datos zonal con Dataflow, según sus necesidades de ubicación de datos. Implementar las prácticas recomendadas para un entorno de procesamiento de datos seguro. Repaso de conceptos de Beam: Revisar los conceptos principales de Apache Beam (Pipeline, PCollections, PTransforms, Runner, lectura/escritura, Utility). Transformaciones P, entradas laterales), paquetes y ciclo de vida de DoFn. Ventanas, marcas de agua, disparadores. Implemente la lógica para gestionar sus datos tardíos. Revise los diferentes tipos de disparadores. Revise los conceptos básicos de streaming (colección PC ilimitada, ventanas). Fuentes y receptores. Escriba la E/S que prefiera para su canalización de Dataflow. Ajuste su transformación de origen/destino para obtener el máximo rendimiento. Cree fuentes y receptores personalizados con SDF. Esquemas. Introduzca esquemas, que ofrecen a los desarrolladores una forma de expresar datos estructurados en sus canalizaciones Beam. Use esquemas para simplificar su código Beam y mejorar el rendimiento de su canalización. Estado y temporizadores. Identifique casos de uso para implementaciones de estado y temporizador API. Seleccione el tipo correcto de estado y temporizadores para su canalización. Prácticas recomendadas. Implemente las prácticas recomendadas para canalizaciones de Dataflow. Flujo de datos SQL y DataFrames. Desarrolle una canalización Beam utilizando SQL y DataFrames. Beam. Cuadernos: Crea un prototipo de tu pipeline en Python con cuadernos de Beam. Usa la magia de Beam para controlar el comportamiento de la grabación de origen en tu cuaderno. Inicia un trabajo en Dataflow desde un cuaderno. Supervisión: Navega por la interfaz de detalles del trabajo de Dataflow. Interpreta los gráficos de métricas del trabajo para diagnosticar regresiones en el pipeline. Configura alertas en trabajos de Dataflow con la supervisión de Cloud. Registro e informes de errores: Usa los widgets de registros y diagnóstico de Dataflow para solucionar problemas en el pipeline. Solución de problemas y depuración: Usa un enfoque estructurado para depurar tus pipelines de Dataflow. Examina las causas comunes de fallos en el pipeline. Rendimiento: Comprenda las consideraciones de rendimiento para los pipelines. Considere cómo la forma de tus datos puede afectar el rendimiento del pipeline. Pruebas y CI/CD: Enfoques de prueba para tu pipeline de Dataflow. Revisa los marcos y las funciones disponibles para optimizar tu flujo de trabajo de CI/CD para pipelines de Dataflow. Fiabilidad: Implementa las mejores prácticas de fiabilidad para tus pipelines de Dataflow. Plantillas flexibles: Usa plantillas flexibles para estandarizar y reutilizar el pipeline de Dataflow. código.
Ingeniero de datosAnalistas de datos y científicos de datos que aspiran a desarrollar habilidades de ingeniería de datosPara aprovechar al máximo este curso, los participantes deben tener alguna experiencia laboral previa con Dataflow.
Próximas Sesiones
Contáctanos para próximas fechas
Actualmente no hay sesiones programadas para este curso.
Solicitar Información


