
DENG-254: Preparación con Cloudera Ingeniería de datos y Apache Spark
Este curso práctico proporciona los conceptos y conocimientos clave que los desarrolladores necesitan para usar Apache Spark y desarrollar aplicaciones paralelas de alto rendimiento en la Plataforma de Datos Cloudera (CDP). Los ejercicios prácticos permiten a los estudiantes practicar la escritura de aplicaciones Spark que se integran con los componentes principales de CDP. Los participantes aprenderán a usar Spark y SQL para consultar datos estructurados, a usar las funciones de Hive para ingerir y desnormalizar datos, y a trabajar con “Big Data” almacenado en un sistema de archivos distribuido. Tras este curso, los participantes estarán preparados para afrontar retos reales y crear aplicaciones que permitan tomar decisiones más rápidas y mejores, y realizar análisis interactivos, aplicados a una amplia variedad de casos de uso, arquitecturas e industrias.
Durante este curso, aprenderá a:Distribuir, almacenar y procesar datos en un clúster CDPEscribir, configurar e implementar aplicaciones Apache SparkUsar los intérpretes Spark y las aplicaciones Spark para explorar, procesar y analizar datos distribuidosConsultar datos usando Spark SQL, DataFrames y tablas de HiveImplementar una aplicación Spark en el Servicio de ingeniería de datos
Introducción a HDFS. Descripción general de HDFS. Componentes e interacciones de HDFS. Interacciones adicionales de HDFS. Descripción general de Ozone. Ejercicio: Trabajar con HDFS. Introducción a YARN. Descripción general de YARN. Componentes e interacción de YARN. Trabajar con YARN. Ejercicio: Trabajar con YARN. Trabajar con RDD. Conjuntos de datos distribuidos resilientes (RDD). Ejercicio: Trabajar con RDD. Trabajar con DataFrames. Introducción a los DataFrames. Ejercicio: Introducción a los DataFrames. Ejercicio: Lectura y escritura de DataFrames. Ejercicio: Trabajar con columnas. Ejercicio: Trabajar con tipos complejos. Ejercicio: Combinar y dividir DataFrames. Ejercicio: Resumir y agrupar DataFrames. Ejercicio: Trabajar con UDF. Ejercicio: Trabajar con Windows. Introducción a Apache Hive. Acerca de Hive. Transformación de datos con Hive QL. Trabajar con Apache Hive. Ejercicio: Trabajar con particiones. Ejercicio: Trabajar con buckets. Ejercicio: Trabajar con sesgo. Ejercicio: Usar Serdes para ingerir datos de texto. Ejercicio: Usar tipos complejos para desnormalizar datos. Integración de Hive con Spark. Integración de Hive con Spark. Ejercicio: Integración de Spark con Hive. Desafíos del procesamiento distribuido. Mezclar. Sesgo. Orden. Procesamiento distribuido de Spark. Ejercicio: Explorar el orden de ejecución de consultas. Persistencia distribuida de Spark. Persistencia de DataFrames y conjuntos de datos. Niveles de almacenamiento de persistencia. Visualización de RDD persistentes. Ejercicio: Persistencia de DataFrames. Servicio de ingeniería de datos. Crear y activar Ad-Hoc. Spark Trabajos.Orqueste un conjunto de trabajos mediante Airflow.Linaje de datos mediante Atlas.Escalado automático en el servicio de ingeniería de datos.Carga de trabajo XMOptimice las cargas de trabajo, el rendimiento y la capacidad.Identifique trabajos Spark subóptimos.Apéndice: Trabajar con conjuntos de datos en ScalaTrabajar con conjuntos de datos en Scala.Ejercicio: Usar conjuntos de datos en Scala.
Este curso está diseñado para desarrolladores e ingenieros de datos. Se espera que todos los estudiantes tengan experiencia básica en Linux y un dominio básico de los lenguajes de programación Python o Scala. Es útil tener conocimientos básicos de SQL. No se requieren conocimientos previos de Spark ni Hadoop.



