机器学习模型的现实世界应用

在体育、音乐或类似的艺术实践课程中,目标是模仿和训练现实世界中的比赛或事件。在机器学习领域,也期望一个基于历史数据表现良好的机器学习模型能够在现实世界中发挥作用。本文将深入探讨机器学习模型的实施和在现实世界中的应用。

基础知识

构建机器学习模型的目的是什么?答案是将它们应用于现实世界中的问题解决。如果模型测试集准确率达到90%,接下来如何将机器学习模型应用于现实世界?答案是通过机器学习运营(MLOps)技术。由于模型开发条件在实施时可能与训练时不同,因此需要额外的工作,这需要超出机器学习模型设计的知识。

模型开发和测试后,应用数据科学家需要详细了解一系列特别重要的步骤,以实现端到端的效率并验证组织对机器学习投资的有效性。可能已经熟悉模型开发的流程,下面提到的是包括模型部署步骤在内的整个周期。

模型部署步骤

模型部署步骤包括两个部分:一是在生产环境中设置模型(包括对最终用户的培训),二是监控和维护生成预测的机器学习模型。现在将深入细节...

这涉及到选择机器学习代码将驻留的位置以及如何将预测传达给最终用户。通常,机器学习模型是应用程序或软件的子部分,其中模型代码可能只占总代码的5-10%。此外,可能有多个机器学习模型部署在同一应用程序/软件中。例如,Google中的语音和图像搜索。另一个在这里可能扮演重要角色的因素是批量与单个(单位)预测。

I. 云部署 II. 边缘部署(通过设备向最终用户交付机器学习)

下面的图表更详细地解释了它们。

这有两个部分:一是系统中人类将如何参与,即自动化的程度;二是如何确保部署设置中的性能。应该一次性部署并替换现有的人类/系统,还是分阶段进行,即部署过渡计划?

从完全手动的系统到全自动化,IDC定义了以下5个级别:

就像将模型分为测试和训练一样,可以类似地部署机器学习模型,比如说首先在10%的案例上部署。其余90%使用现有流程,然后根据性能逐渐增加。下面描述的其他要跟踪的指标将在下一节中描述。下面提到了一个部署示例(更多信息请参见:

2. 监控和维护模型部署

这包括检查模型是否在正确的条件下应用(所有模型假设都保持在模型设计和测试中使用的假设),以及运行模型的软件/应用程序/平台是否运行最佳。

I. 概念漂移 II. 数据漂移

如果导致或发生从X到Y(在因变量和自变量之间)的关系在部署期间发生变化,将导致概念漂移。例如,在冠状病毒期间,许多欺诈检测系统开始失败并且表现不佳,因为大量人口突然转向在线交易,这些系统没有为这些交易设计,它们开始将它们误认为是欺诈,而它们实际上是真正的交易,因为人们由于封锁而在线购物。

当一个或多个X(自变量)的范围与建模集相比发生偏移时,就会发生数据漂移。例如,如果一个图像处理模型仅在明亮的照明条件下进行训练,它在黑暗或昏暗的照明条件下将无法很好地工作。

I. 定义KPIs/监控模型部署的指标,并通过定期更新的仪表板可视化 II. 模型调整/重新训练

有时在模型监控期间,仪表板上的指标可能显示趋势与预期相反,因此存在数据漂移或概念漂移,或者系统中有很多延迟,或者模型中的错误数量增加了!

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485