MLOps,即机器学习运维,是部署成功的企业数据科学项目的关键组成部分。它是一个新概念,使组织能够产生长期价值并降低与数据科学、机器学习和人工智能相关的风险。MLOps通过标准化和简化机器学习生命周期管理,涉及将业务问题转化为高级机器学习模型。在企业环境中,典型的机器学习生命周期如下所示:
MLOps的趋势表明,与ModelOps和AIOps相比,MLOps呈现出指数级增长。管理大规模机器学习生命周期的挑战包括依赖性、变量通信和部署或运营方面。依赖性问题在于数据和业务中存在许多动态依赖性,需要业务不断反馈到生产数据以对齐。变量通信问题在于机器学习生命周期涉及业务、数据科学和IT人员,但这些团队使用不同的工具和基本技能。部署或运营方面,数据科学家擅长模型构建和评估,但在部署或运营方面存在不足,因此对数据科学家来说,角色转换是一个挑战。
MLOps的好处包括降低生产中机器学习模型的风险、跟踪版本、比较新模型是否优于旧模型、确保模型性能的一致性,以及围绕实验、迭代和ML周期的定期改进,其中效率、可扩展性和风险降低是其最大的好处。MLOps的组成部分包括从数据管道到模型生产的各个方面。MLOps的部署涉及探索性数据分析(EDA)、数据准备和特征工程、模型训练和调整、模型审查和治理、模型推理和服务、模型监控和自动模型重新训练。
MLOps平台为数据科学家和软件工程师提供了一个共同的舞台,涉及迭代数据探索、实时协作实验跟踪、特征工程、模型管理、模型转换、部署和监控。MLOps平台有四个重要的流程阶段:跟踪、项目、模型和注册。跟踪涉及记录和查询实验;项目涉及打包格式以复制模型;模型是关于生成模型格式;注册涉及模型生命周期管理。
ML工程的需求日益增加,以实现大规模的相关预测和良好的频率。ML工程的主要目标是增加ML项目进入生产和持续维护及必要的后续工作的机会。ML工程师所需的技能包括标准的软件开发技能,以编写模块化代码和实现单元测试;足够的数据工程技能,以便模型具有特征数据集;可视化技能,以创建图表和图表以清晰沟通;项目管理经验,以定义、范围和控制项目。