Google Cloud

Procesamiento de datos sin servidor con Dataflow

Esta capacitación está dirigida a profesionales de Big Data que desean profundizar sus conocimientos sobre Dataflow para optimizar sus aplicaciones de procesamiento de datos. Comenzando con los fundamentos, esta capacitación explica cómo Apache Beam y Dataflow trabajan juntos para satisfacer sus necesidades de procesamiento de datos sin el riesgo de dependencia de un proveedor. La sección sobre el desarrollo de pipelines abarca cómo convertir su lógica de negocio en aplicaciones de procesamiento de datos que se pueden ejecutar en Dataflow. Esta capacitación culmina con un enfoque en las operaciones, que repasa las lecciones más importantes para operar una aplicación de datos en Dataflow, incluyendo la monitorización, la resolución de problemas, las pruebas y la confiabilidad.

21 horas · Virtual
21 horas
Virtual

Demuestra cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de tu organización. Resume los beneficios del Beam Portability Framework y habilítalo para tus canalizaciones de Dataflow. Habilita Shuffle y Streaming Engine, para canalizaciones por lotes y de transmisión respectivamente, para obtener el máximo rendimiento. Habilita Flexible Resource Scheduling para un rendimiento más rentable. Selecciona la combinación adecuada de permisos de IAM para tu trabajo de Dataflow. Implementa las mejores prácticas para un entorno de procesamiento de datos seguro. Selecciona y ajusta la E/S que prefieras para tu canalización de Dataflow. Usa esquemas para simplificar tu código Beam y mejorar el rendimiento de tu canalización. Desarrolla una canalización de Beam usando SQL y DataFrames. Realiza la supervisión, la resolución de problemas, las pruebas y la CI/CD en las canalizaciones de Dataflow.

Introducción: Presente los objetivos del curso. Demuestre cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de su organización. Portabilidad de Beam: Resuma los beneficios del marco de portabilidad de Beam. Personalice el entorno de procesamiento de datos de su canalización utilizando contenedores personalizados. Revise los casos de uso para transformaciones entre lenguajes. Habilite el marco de portabilidad para sus canalizaciones de Dataflow. Separación de computación y almacenamiento con Dataflow: Habilite Shuffle y Streaming Engine, para canalizaciones por lotes y de transmisión respectivamente, para obtener el máximo rendimiento. Habilite la programación flexible de recursos para un rendimiento más rentable. IAM, cuotas y permisos: Seleccione la combinación correcta de permisos de IAM para su trabajo de Dataflow. Determine sus necesidades de capacidad inspeccionando las cuotas relevantes para sus trabajos de Dataflow. Seguridad: Seleccione su estrategia de procesamiento de datos zonal utilizando Dataflow, según sus necesidades de localización de datos. Implemente las mejores prácticas para un entorno de procesamiento de datos seguro. Revisión de conceptos de Beam: Revise los principales conceptos de Apache Beam (Pipeline, PCollections, PTransforms, Runner, lectura/escritura, Utility). PTransforms, entradas laterales), paquetes y ciclo de vida DoFn. Ventanas, marcas de agua, disparadores. Implemente lógica para manejar sus datos tardíos. Revise los diferentes tipos de disparadores. Revise los conceptos básicos de transmisión (PCollections sin límites, ventanas). Orígenes y sumideros. Escriba la E/S de su elección para su canalización de Dataflow. Ajuste la transformación de su origen/sumidero para obtener el máximo rendimiento. Cree orígenes y sumideros personalizados usando SDF. Esquemas. Introduzca los esquemas, que brindan a los desarrolladores una forma de expresar datos estructurados en sus canalizaciones de Beam. Use esquemas para simplificar su código Beam y mejorar el rendimiento de su canalización. Estado y temporizadores. Identifique casos de uso para implementaciones de estado y temporizador API. Seleccione el tipo correcto de estado y temporizadores para su canalización. Mejores prácticas. Implemente las mejores prácticas para las canalizaciones de Dataflow. Dataflow SQL y DataFrames. Desarrolle una canalización de Beam usando SQL y DataFrames. Beam NotebooksPrototipe su canalización en Python usando los notebooks de Beam. Use las funciones mágicas de Beam para controlar el comportamiento de la grabación de origen en su notebook. Inicie un trabajo en Dataflow desde un notebook.MonitoreoNavegue por la interfaz de usuario de detalles del trabajo de Dataflow. Interprete los gráficos de métricas del trabajo para diagnosticar regresiones en la canalización. Configure alertas en trabajos de Dataflow usando el monitoreo Cloud.Registro e informes de erroresUse los widgets de registro y diagnóstico de Dataflow para solucionar problemas de la canalización.Solución de problemas y depuraciónUse un enfoque estructurado para depurar sus canalizaciones de Dataflow.Examine las causas comunes de fallas en la canalización.RendimientoComprenda las consideraciones de rendimiento para las canalizaciones.Considere cómo la forma de sus datos puede afectar el rendimiento de la canalización.Pruebas y CI/CDEnfoques de prueba para su canalización de Dataflow.Revise los marcos y las características disponibles para optimizar su flujo de trabajo de CI/CD para canalizaciones de Dataflow.ConfiabilidadImplemente las mejores prácticas de confiabilidad para sus canalizaciones de Dataflow.Plantillas flexiblesUse plantillas flexibles para estandarizar y reutilizar la canalización de Dataflow. código.

Ingeniero de datos. Analistas de datos y científicos de datos que aspiran a desarrollar habilidades de ingeniería de datos. Para sacar el máximo provecho de este curso, los participantes deben tener cierta experiencia laboral previa con Dataflow.

Próximas Sesiones

Contáctanos para próximas fechas

Actualmente no hay sesiones programadas para este curso.

Solicitar Información