Google Cloud

Ingeniería de datos en Google Cloud

Adquiera experiencia práctica en el diseño y la construcción de sistemas de procesamiento de datos en Google Cloud. Este curso utiliza clases teóricas, demostraciones y laboratorios prácticos para mostrarle cómo diseñar sistemas de procesamiento de datos, construir flujos de datos completos, analizar datos e implementar Machine Learning. Este curso abarca datos estructurados, no estructurados y en tiempo real.

28 horas · Virtual
28 horas
Virtual

Diseña y crea sistemas de procesamiento de datos en Google Cloud. Procesa datos por lotes y en tiempo real implementando canalizaciones de datos con escalado automático en Dataflow. Obtén información valiosa para el negocio a partir de conjuntos de datos extremadamente grandes con BigQuery. Aprovecha los datos no estructurados con Spark y ML API en Dataproc. Obtén información instantánea a partir de datos en tiempo real. Comprende ML API y BigQuery ML, y aprende a usar AutoML para crear modelos potentes sin necesidad de programar.

Módulo 1: Introducción a la ingeniería de datos. Explorar el rol de un ingeniero de datos. Analizar los desafíos de la ingeniería de datos. Introducción a BigQuery. Comparar lagos de datos y almacenes de datos. Gestionar el acceso y la gobernanza de datos. Crear pipelines listos para producción. Módulo 2: Creación de un lago de datos. Introducción a los lagos de datos. Opciones de almacenamiento y ETL en Google Cloud. Creación de un lago de datos con Cloud Storage. Seguridad de Cloud Storage. Uso de Cloud y SQL como lago de datos relacional. Módulo 3: Creación de un almacén de datos. Introducción a los almacenes de datos modernos. Fundamentos de BigQuery y carga de datos. Optimización con particionamiento y clustering. Módulo 4: Creación de pipelines de datos por lotes. Diferencias entre EL, ELT y ETL. Consideraciones sobre la calidad de los datos. Métodos de carga de datos para lagos de datos y almacenes de datos. Módulo 5: Ejecución Spark sobre Dataproc Descripción general del ecosistema Hadoop. Migración de cargas de trabajo de Hadoop a Dataproc. Uso de Cloud Almacenamiento en lugar de HDFS. Optimización de trabajos de Dataproc. Módulo 6: Procesamiento de datos sin servidor con Dataflow Introducción a Dataflow. Creación de canalizaciones de Dataflow. Uso de plantillas de Dataflow y SQL. Módulo 7: Gestión de canalizaciones con Cloud Data Fusion y Cloud Composer Creación visual de canalizaciones con Data Fusion. Orquestación de flujos de trabajo con Cloud Composer. Módulo 8: Introducción al procesamiento de datos en streaming Explicación y desafíos del procesamiento de datos en streaming. Herramientas Google Cloud para abordar estos desafíos. Módulo 9: Mensajería sin servidor con Pub/Sub Introducción a Pub/Sub. Publicación y suscripción a Pub/Sub. Simulación Datos de sensores en tiempo real. Módulo 10: Funcionalidades de transmisión en Dataflow. Procesamiento de datos en tiempo real con Dataflow. Manejo de datos tardíos con marcas de agua, disparadores y acumulación. Módulo 11: Transmisión en BigQuery y Bigtable. Ingesta y análisis de datos en tiempo real en BigQuery. Uso de Bigtable para almacenamiento de baja latencia. Módulo 12: Funcionalidades avanzadas de BigQuery. Uso de funciones analíticas avanzadas. Optimización del rendimiento de las consultas. Módulo 13: Introducción a la analítica e inteligencia artificial. Conceptos de IA y ML. Opciones para modelos de ML en Google Cloud. Módulo 14: ML API para datos no estructurados. Desafíos de los datos no estructurados. Uso de ML API para enriquecer datos. Módulo 15: Big Data Analítica con notebooks. Uso de notebooks para la creación de prototipos de ML. Ejecución de comandos de BigQuery desde notebooks.Módulo 16: Pipelines de ML de producciónOpciones para crear modelos de ML personalizados.Uso de herramientas como Vertex AI y AI Hub.Módulo 17: Creación de modelos con SQL en BigQuery MLCreación de modelos de ML con SQL en BigQuery.Creación de modelos de regresión y recomendación.Módulo 18: Creación de modelos con AutoMLIntroducción a AutoML y sus aplicaciones.Uso de AutoML Vision, PNL y tablas.

Esta clase está dirigida a desarrolladores responsables de: Extraer, cargar, transformar, limpiar y validar datos. Diseñar flujos de trabajo y arquitecturas para el procesamiento de datos. Integrar capacidades analíticas y de Machine Learning en flujos de datos. Consultar conjuntos de datos, visualizar resultados de consultas y crear informes. Requisito previo: Competencia básica con un lenguaje de consulta común como SQL. Experiencia con modelado de datos y actividades ETL (extracción, transformación, carga). Experiencia en el desarrollo de aplicaciones utilizando un lenguaje de programación común como Python. Familiaridad con Machine Learning y/o estadística.

Próximas Sesiones

Contáctanos para próximas fechas

Actualmente no hay sesiones programadas para este curso.

Solicitar Información