Cloudera

DENG-254: Preparación con Cloudera Ingeniería de datos y Apache Spark

Este curso práctico ofrece los conceptos clave y el conocimiento que los desarrolladores necesitan para usar Apache Spark y desarrollar aplicaciones paralelas de alto rendimiento en la plataforma de datos Cloudera (CDP). Los ejercicios prácticos permiten a los estudiantes practicar la escritura de aplicaciones Spark que se integran con los componentes centrales de CDP. Los participantes aprenderán a usar Spark y SQL para consultar datos estructurados, a usar las funciones de Hive para ingerir y desnormalizar datos, y a trabajar con "Big Data" almacenado en un sistema de archivos distribuido. Después de completar este curso, los participantes estarán preparados para afrontar desafíos del mundo real y crear aplicaciones para tomar decisiones más rápidas y mejores, y realizar análisis interactivos, aplicados a una amplia variedad de casos de uso, arquitecturas e industrias.

28 horas · Virtual
28 horas
Virtual

Durante este curso, aprenderá a: Distribuir, almacenar y procesar datos en un clúster CDP. Escribir, configurar e implementar aplicaciones Apache Spark. Utilizar los intérpretes Spark y las aplicaciones Spark para explorar, procesar y analizar datos distribuidos. Consultar datos utilizando Spark, SQL, DataFrames y tablas Hive. Implementar una aplicación Spark en el Servicio de Ingeniería de Datos.

Introducción a HDFS. Descripción general de HDFS. Componentes e interacciones de HDFS. Interacciones adicionales de HDFS. Descripción general de Ozone. Ejercicio: Trabajar con HDFS. Introducción a YARN. Descripción general de YARN. Componentes e interacción de YARN. Trabajar con YARN. Ejercicio: Trabajar con YARN. Trabajar con RDDs. Conjuntos de datos distribuidos resilientes (RDDs). Ejercicio: Trabajar con RDDs. Trabajar con DataFrames. Introducción a DataFrames. Ejercicio: Introducción a DataFrames. Ejercicio: Leer y escribir DataFrames. Ejercicio: Trabajar con columnas. Ejercicio: Trabajar con tipos complejos. Ejercicio: Combinar y dividir DataFrames. Ejercicio: Resumir y agrupar DataFrames. Ejercicio: Trabajar con UDFs. Ejercicio: Trabajar con Windows. Introducción a Apache Hive. Acerca de Hive. Transformar datos con Hive QL. Trabajar con Apache HiveExercise: Trabajar con particiones.Ejercicio: Trabajar con buckets.Ejercicio: Trabajar con sesgo.Ejercicio: Usar Serdes para ingerir datos de texto.Ejercicio: Usar tipos complejos para desnormalizar datos.Hive y la integración de SparkHive y la integración de Spark.Ejercicio: Integración de Spark con Hive.Desafíos del procesamiento distribuidoShuffle.Sesgo.Orden.Spark Procesamiento distribuidoSpark Procesamiento distribuido.Ejercicio: Explorar el orden de ejecución de consultas.Spark Persistencia distribuidaPersistencia de DataFrame y Dataset.Niveles de almacenamiento de persistencia.Visualización de RDD persistentes.Ejercicio: Persistencia de DataFrames.Servicio de ingeniería de datosCrear y activar Ad-Hoc Trabajos Spark.Orquestar un conjunto de trabajos usando Airflow.Linaje de datos usando Atlas.Autoescalado en Data Engineering Service.Workload XMOptimizar cargas de trabajo, rendimiento, capacidad.Identificar trabajos Spark subóptimos.Apéndice: Trabajar con conjuntos de datos en Scala.Ejercicio: Usar conjuntos de datos en Scala.

Este curso está diseñado para desarrolladores e ingenieros de datos. Se espera que todos los estudiantes tengan experiencia básica en Linux y conocimientos básicos de los lenguajes de programación Python o Scala. Se recomienda tener conocimientos básicos de SQL. No se requieren conocimientos previos de Spark ni de Hadoop.

Próximas Sesiones