
Ingeniería de datos en Google Cloud
Adquiera experiencia práctica en el diseño y desarrollo de sistemas de procesamiento de datos con Google Cloud. Este curso utiliza clases magistrales, demostraciones y prácticas de laboratorio para mostrarle cómo diseñar sistemas de procesamiento de datos, construir canales de datos integrales, analizar datos e implementar Machine Learning. Este curso abarca datos estructurados, no estructurados y en streaming.
Diseñe y cree sistemas de procesamiento de datos en Google Cloud. Procese datos por lotes y en streaming mediante la implementación de pipelines de datos con escalado automático en Dataflow. Obtenga información empresarial de conjuntos de datos extremadamente grandes con BigQuery. Aproveche los datos no estructurados con Spark y ML APIs en Dataproc. Obtenga información instantánea a partir de datos en streaming. Comprenda ML APIs y BigQuery ML, y aprenda a usar AutoML para crear modelos potentes sin necesidad de programar.
Módulo 1: Introducción a la ingeniería de datos. Explora el rol de un ingeniero de datos. Analiza los desafíos de la ingeniería de datos. Introducción a BigQuery. Comparación de data lakes y data warehouses. Gestión del acceso y la gobernanza de los datos. Creación de pipelines listos para producción. Módulo 2: Creación de un data lake. Introducción a los data lakes. Opciones de almacenamiento y ETL en Google Cloud. Creación de un data lake con Cloud Storage. Seguridad del almacenamiento en Cloud. Uso de Cloud y SQL como data lake relacional. Módulo 3: Creación de un data warehouse. Introducción a los data warehouses modernos. Fundamentos de BigQuery y carga de datos. Optimización con particionamiento y agrupación en clústeres. Módulo 4: Creación de pipelines de datos por lotes. Diferencias entre EL, ELT y ETL. Consideraciones sobre la calidad de los datos. Métodos de carga de datos para data lakes y data warehouses. Módulo 5: Ejecución Spark sobre Dataproc. Descripción general del ecosistema Hadoop. Migración de cargas de trabajo de Hadoop a Dataproc. Uso de almacenamiento Cloud en lugar de HDFS. Optimización de trabajos de Dataproc. Módulo 6: Procesamiento de datos sin servidor con Dataflow. Introducción a Dataflow. Creación de pipelines de Dataflow. Uso de plantillas de Dataflow y SQL. Módulo 7: Gestión de pipelines con Cloud Data Fusion y Cloud Composer. Creación visual de pipelines con Data Fusion. Orquestación de flujos de trabajo con Cloud Composer. Módulo 8: Introducción al procesamiento de datos en streaming. Explicación y desafíos del procesamiento de datos en streaming. Herramientas Google Cloud para abordar estos desafíos. Módulo 9: Mensajería sin servidor con Pub/Sub. Introducción a Pub/Sub. Publicación y suscripción a Pub/Sub. Simulación. Datos de sensores en tiempo real. Módulo 10: Funciones de streaming en Dataflow. Procesamiento de datos de streaming con Dataflow. Manejo de datos tardíos con marcas de agua, desencadenadores y acumulación. Módulo 11: Streaming en BigQuery y BigTable. Ingesta y análisis de streaming en BigQuery. Uso de BigTable para almacenamiento de baja latencia. Módulo 12: Funciones avanzadas de BigQuery. Uso de funciones analíticas avanzadas. Optimización del rendimiento de las consultas. Módulo 13: Introducción a la analítica y la inteligencia artificial. Conceptos de IA y aprendizaje automático. Opciones para modelos de aprendizaje automático en Google Cloud. Módulo 14: Aprendizaje automático APIs para datos no estructurados. Desafíos de los datos no estructurados. Uso de APIs de aprendizaje automático para enriquecer los datos. Módulo 15: Análisis Big Data con notebooks. Uso de notebooks para la creación de prototipos de aprendizaje automático. Ejecución de comandos de BigQuery desde Módulo 16: Pipelines de ML de producción. Opciones para crear modelos de ML personalizados. Uso de herramientas como Vertex AI y AI Hub. Módulo 17: Creación de modelos con SQL en BigQuery ML. Creación de modelos de ML con SQL en BigQuery. Creación de modelos de regresión y recomendación. Módulo 18: Creación de modelos con AutoML. Introducción a AutoML y sus aplicaciones. Uso de AutoML Vision, NLP y Tables.
Esta clase está dirigida a desarrolladores responsables de: extraer, cargar, transformar, limpiar y validar datos; diseñar pipelines y arquitecturas para el procesamiento de datos; integrar analítica y capacidades de Machine Learning en pipelines de datos; consultar conjuntos de datos, visualizar resultados de consultas y crear informes. Requisitos: Dominio básico de un lenguaje de consulta común, como SQL; experiencia en modelado de datos y actividades ETL (extracción, transformación y carga); experiencia en el desarrollo de aplicaciones con un lenguaje de programación común, como Python; y familiaridad con Machine Learning y/o estadística.
Próximas Sesiones
Contáctanos para próximas fechas
Actualmente no hay sesiones programadas para este curso.
Solicitar Información


