
DSCI-272: Predicción con MLOps en IA Cloudera
Los equipos de ciencia de datos empresariales necesitan acceso colaborativo a datos comerciales, herramientas y recursos informáticos necesarios para desarrollar e implementar flujos de trabajo Machine Learning. Cloudera Machine Learning (CML), parte de la Plataforma de Datos Cloudera (CDP), proporciona la solución, brindando a los equipos de ciencia de datos los recursos necesarios. Este curso cubre flujos de trabajo y operaciones Machine Learning utilizando CML. Los participantes exploran, visualizan y analizan datos. También capacitará, evaluará e implementará modelos Machine Learning. El curso recorre un flujo de trabajo de ciencia de datos y Machine Learning de extremo a extremo basado en escenarios realistas y conjuntos de datos de una empresa tecnológica ficticia. Las demostraciones y los ejercicios se realizan en Python (con PySpark) utilizando CML.
A través de conferencias y ejercicios prácticos, aprenderá a: Utilizar Cloudera SDX y otros componentes de la plataforma de datos Cloudera para localizar datos para experimentos Machine Learning Utilizar un prototipo de ML aplicado (AMP) Administrar experimentos Machine Learning Conectarse a varias fuentes de datos y explorar datos Utilizar Apache Spark y Spark ML Implementar un modelo de ML como REST API Administrar y monitorear modelos de ML implementados
Introducción a CMLOverview.CML versus CDSW.Espacios de trabajo de ML.Roles del espacio de trabajo.Proyectos y equipos.Configuración.Motores de ejecución/heredados.Introducción a los AMP y al WorkbenchEditores e IDE.Git.Aplicaciones web integradas.AMP.Acceso a datos y LineageSDXDescripción general.Catálogo de datos.Autorización.Lineage.Visualización de datos en CMLOverview de visualización de datos.Conceptos de visualización de datos de CDP.Uso de la visualización de datos en CML.ExperimentosExperimentos en CML.Introducción al Workbench nativo de CMLIntroducción de código.Obtención de ayuda.Acceso a la línea de comandos Linux.Trabajar con paquetes de Python.Formatear la salida de la sesión.Descripción general de SparkCómo funciona Spark.La pila Spark.Formatos de archivo en Lenguajes de interfaz Spark. Introducción a PySpark. Cómo las operaciones de DataFrame se convierten en trabajos Spark. Cómo Spark ejecuta un trabajo. Ejecución de una aplicación Spark. Lectura de datos en un DataFrame Spark SQL. Examen del esquema de un DataFrame. Cálculo del número de filas y columnas de un DataFrame. Examen de algunas filas de un DataFrame. Detención de una aplicación Spark. Inspección de un DataFrame Spark. Inspección de un DataFrame. Inspección de una columna de un DataFrame. Transformación DataFramesSpark SQL DataFrames. Trabajo con columnas. Trabajo con filas. Trabajo con valores faltantes. Transformación de columnas de DataFramesSpark SQL Tipos de datos. Trabajo con columnas numéricas. Trabajo con columnas de cadena. Trabajo con columnas de fecha y marca de tiempo. Trabajo con columnas booleanas. Tipos complejos. Tipos de datos de colección complejos. Matrices. Mapas. Estructuras. Funciones definidas por el usuario. Ejemplo 1: Hora del día. Ejemplo 2: Distancia ortodrómica. Lectura y escritura de DataFrames. Trabajo con archivos de texto delimitados. Trabajo con archivos de texto. Trabajo con archivos Parquet. Trabajo con tablas de Hive. Trabajo con almacenes de objetos. Trabajo con DataFrames de Pandas. Combinación y división. DataFrames, Combinación y división de DataFrames. Unión de DataFrames. División de un DataFrames. Resumen y agrupación de DataFrames. Resumen de datos con funciones de agregación. Agrupación de datos. Pivotación de datos. Funciones de ventana. Ejemplo: Recuento y suma acumulativos. Ejemplo: Calcular el promedio de días entre viajes de cada pasajero. Machine Learning Resumen. Introducción a Machine Learning. Herramientas de Machine Learning. Apache Spark MLlib. Introducción a Apache Spark MLlib. Exploración y visualización de DataFrames. Posibles flujos de trabajo para Big Data. Exploración de una sola variable. Exploración de un par de variables. Monitoreo, ajuste y configuración de aplicaciones Spark. Monitoreo. Aplicaciones de Spark. Configuración del entorno de Spark. Ajuste y evaluación de modelos de regresión. Ensamblaje del vector de características. Ajuste del modelo de regresión lineal. Ajuste y evaluación de modelos de clasificación. Generación de etiquetas. Ajuste del modelo de regresión logística. Ajuste de hiperparámetros del algoritmo mediante búsqueda en cuadrícula. Requisitos para el ajuste de hiperparámetros. Ajuste de hiperparámetros mediante validación cruzada de retención. Ajuste de hiperparámetros mediante validación cruzada de K-Fold. Ajuste y evaluación de modelos de agrupamiento. Impresión y representación gráfica de las coordenadas de inicio. Ajuste de un modelo de mezcla gaussiana. Exploración de los perfiles de clúster. Procesamiento de texto: Ajuste y evaluación de modelos de tópicos. Ajuste de un modelo de tópicos mediante asignación latente de Dirichlet. Ajuste y evaluación de modelos de recomendación. Generación de recomendaciones. Trabajo con canalizaciones de Machine Learning. Ajuste de la canalización. Modelo. Inspeccionar el modelo de canalización. Aplicar un modelo de Scikit-Learn a un DataFrame Spark. Construir un modelo de Scikit-Learn. Aplicar el modelo usando una UDF Spark. Implementar un modelo Machine Learning como REST API en CML. Cargar el modelo serializado. Definir una función contenedora para generar una predicción. Probar la función. Ajustes de escalado automático, rendimiento y GPU. Escalado automático de cargas de trabajo. Trabajar con GPU. Métricas y monitorización de modelos. ¿Por qué monitorizar modelos?. Métricas de modelos comunes. Monitorización de modelos con Evidently. Monitorización continua de modelos. Apéndice: Aprovisionamiento de espacios de trabajo. Espacio de trabajo y entorno.
El curso está diseñado para científicos de datos que necesitan comprender cómo utilizar Cloudera Machine Learning y la plataforma de datos Cloudera para acelerar el desarrollo de modelos y entregar Machine Learning en producción a escala. Los ingenieros de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán este curso valioso.



