
DSCI-272: Predicción con MLOps en IA Cloudera
Los equipos de ciencia de datos empresariales necesitan acceso colaborativo a los datos, herramientas y recursos informáticos necesarios para desarrollar e implementar flujos de trabajo Machine Learning. Cloudera Machine Learning (CML), parte de la Plataforma de Datos (CDP) Cloudera, proporciona la solución, brindando a los equipos de ciencia de datos los recursos necesarios. Este curso cubre los flujos de trabajo y operaciones Machine Learning utilizando CML. Los participantes explorarán, visualizarán y analizarán datos. También entrenarán, evaluarán e implementarán modelos Machine Learning. El curso recorre un flujo de trabajo Machine Learning de ciencia de datos de extremo a extremo basado en escenarios y conjuntos de datos realistas de una empresa de tecnología ficticia. Las demostraciones y los ejercicios se realizan en Python (con PySpark) utilizando CML.
Mediante clases teóricas y ejercicios prácticos, aprenderá a: Utilizar Cloudera SDX y otros componentes de la plataforma de datos Cloudera para localizar datos para experimentos Machine Learning. Utilizar un prototipo de aprendizaje automático aplicado (AMP). Gestionar experimentos Machine Learning. Conectarse a diversas fuentes de datos y explorar datos. Utilizar Apache Spark y Spark ML. Implementar un modelo de aprendizaje automático como REST API. Gestionar y supervisar modelos de aprendizaje automático implementados.
Introducción a CML. Descripción general. CML frente a CDSW. Espacios de trabajo de ML. Roles de espacio de trabajo. Proyectos y equipos. Configuración. Tiempos de ejecución/Motores heredados. Introducción a los AMP y al entorno de trabajo. Editores e IDE. Git. Aplicaciones web integradas. AMP. Acceso a datos y linaje. Descripción general de SDX. Catálogo de datos. Autorización. Linaje. Visualización de datos en CML. Descripción general de la visualización de datos. Conceptos de visualización de datos de CDP. Uso de la visualización de datos en CML. Experimentos. Experimentos en CML. Introducción al entorno de trabajo nativo de CML. Introducción al código. Obtención de ayuda. Acceso a la línea de comandos Linux. Trabajo con paquetes de Python. Formato de la salida de la sesión. Descripción general de Spark. Cómo funciona Spark. La pila Spark. Formatos de archivo en Lenguajes de interfaz Spark. Introducción a PySpark. Cómo las operaciones de DataFrame se convierten en trabajos Spark. Cómo Spark ejecuta un trabajo. Ejecutar una aplicación Spark. Leer datos en un DataFrame Spark. Examinar el esquema de un DataFrame. Calcular el número de filas y columnas de un DataFrame. Examinar algunas filas de un DataFrame. Detener una aplicación Spark. Inspeccionar un DataFrame Spark. Inspeccionar una columna de un DataFrame. Transformar DataFramesSpark SQL DataFrames.Trabajar con columnas.Trabajar con filas.Trabajar con valores faltantes.Transformar columnas de DataFrameSpark SQL Tipos de datos.Trabajar con columnas numéricas.Trabajar con columnas de cadena.Trabajar con columnas de fecha y marca de tiempo.Trabajar con columnas booleanas.Tipos complejosTipos de datos de colección complejos.Matrices.Mapas.Estructuras.Funciones definidas por el usuarioFunciones definidas por el usuario.Ejemplo 1: Hora del día.Ejemplo 2: Distancia de círculo máximo.Lectura y escritura de DataFramesTrabajar con archivos de texto delimitados.Trabajar con archivos de texto.Trabajar con archivos Parquet.Trabajar con tablas de Hive.Trabajar con almacenes de objetos.Trabajar con DataFrames de Pandas.Combinar y dividir DataFramesCombinar y dividir DataFrames.Unir DataFrames.Dividir un DataFrame.Resumir y agrupar DataFramesResumir datos con funciones de agregación.Agrupar datos.Pivotar datos.Funciones de ventanaFunciones de ventana.Ejemplo: recuento y suma acumulativos.Ejemplo: calcular el promedio de días entre viajes para cada ciclista.Machine Learning Descripción generalIntroducción a Machine Learning.Machine Learning Herramientas.Apache Spark MLlibIntroducción a Apache Spark MLlib.Explorar y visualizar DataFramesPosibles flujos de trabajo para Big Data.Explorar una sola variable.Explorar un par de variables.Supervisar, ajustar y configurar Spark AplicacionesSupervisar Aplicaciones Spark.Configuración del entorno Spark.Ajuste y evaluación de modelos de regresión.Ensamblar el vector de características.Ajustar el modelo de regresión lineal.Ajuste y evaluación de modelos de clasificación.Generar etiquetas.Ajustar el modelo de regresión logística.Ajuste de hiperparámetros del algoritmo mediante búsqueda en cuadrícula.Requisitos para el ajuste de hiperparámetros.Ajustar los hiperparámetros mediante validación cruzada de retención.Ajustar los hiperparámetros mediante validación cruzada K-fold.Ajuste y evaluación de modelos de agrupamiento.Imprimir y graficar las coordenadas de inicio.Ajustar un modelo de mezcla gaussiana.Explorar los perfiles de clúster.Procesamiento de texto: ajuste y evaluación de modelos de temas.Ajustar un modelo de temas mediante asignación latente de Dirichlet.Ajuste y evaluación de modelos de recomendación.Modelos de recomendación.Generar recomendaciones.Trabajar con las canalizaciones Machine Learning.Ajustar la canalización. Modelo.Inspeccione el modelo de canalización.Aplicación de un modelo Scikit-Learn a un DataFrame Spark.Construya un modelo Scikit-Learn.Aplique el modelo usando una UDF Spark.Implemente un modelo Machine Learning como un REST API en CMLLad.Cargue el modelo serializado.Defina una función de envoltura para generar una predicción.Pruebe la función.Autoescalado, rendimiento y configuración de GPU.Autoescalado de cargas de trabajo.Trabajar con GPU.Métricas y monitoreo del modelo.¿Por qué monitorear los modelos?Métricas comunes de modelos.Monitoreo de modelos con Evidently.Monitoreo continuo del modelo.Apéndice: Aprovisionamiento del espacio de trabajo.Espacio de trabajo y entorno.
Este curso está diseñado para científicos de datos que necesitan comprender cómo utilizar Cloudera y la plataforma de datos Cloudera para acelerar el desarrollo de modelos y ofrecer Machine Learning en producción a gran escala. Los ingenieros de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán este curso valioso.



