如何检测和克服MLOps中的模型漂移
admin
2024-01-20 13:21:31
0
image.png
image.png

机器学习 (ML) 被广泛认为是数字化转型的基石,但 ML 模型最容易受到数字环境变化动态的影响。 ML 模型由创建它们的时间段内可用的变量和参数定义和优化。

让我们看看一个基于垃圾邮件的通用模板创建的 ML 模型的案例,该模板当时可能正在激增。有了这个基线,机器学习模型就能够识别和阻止这类电子邮件,从而防止潜在的网络钓鱼攻击。然而,随着威胁形势的变化和网络犯罪分子变得更加聪明,更复杂和现实的电子邮件已经取代了旧的电子邮件。当面对这些较新的黑客攻击尝试时,基于前几年变量操作的机器学习检测系统将无法正确分类这些新威胁。这只是模型漂移的一个例子。

模型漂移(或模型衰减)是 ML 模型预测能力的退化。由于数字环境的变化,以及随之而来的概念和数据等变量的变化,模型漂移在 ML 模型中很突出,这仅仅是机器语言模型作为一个整体的性质。

假设所有未来变量将与创建 ML 模型时普遍存在的变量保持一致,这为 MLOps 中的模型漂移提供了肥沃的温床。

例如,如果模型在使用静态数据的静态环境中运行,那么它的性能不应降低,因为预测的数据来自与训练期间使用的相同分布。但是,如果模型存在于一个不断变化的动态环境中,涉及的变量太多,那么模型的性能也会有所不同。

模型漂移的类型

根据变量或预测变量的变化,模型漂移可以大致分为两种主要类型:分别是概念漂移和数据漂移。

  1. 概念漂移——当模型中目标变量的统计属性发生变化时,就会发生概念漂移。简而言之,如果模型变量的性质发生变化,那么模型就无法按预期运行。
  2. 数据漂移——最常见的模型漂移类型,发生在某些预测变量的统计属性发生变化时。随着变量的变化,模型会因此而失败。可能在一段时间内有效的模型在应用于不同的环境时可能不会看到相同的效果,这仅仅是因为数据没有针对不断变化的变量进行定制。

在概念漂移与数据漂移的较量中,上游数据变化对模型漂移的影响也很突出。 由于所有必需的数据都通过数据流水线移动。因此,未生成的特征和单位的变化(例如:测量、尺寸)也可能导致缺失值,这将阻碍 ML 模型运行。

解决模型漂移

在保持模型准确性方面,早期检测模型漂移至关重要。这是因为模型精度随着时间的推移而降低,并且预测值继续与实际值进一步偏离。这个过程越深入,对整个模型造成的不可替代的损害就越大。因此,尽早发现问题至关重要。 F1 值(评估模型的精度和召回能力的准确性)是一种快速检测是否有问题的方法

同样,根据模型的目的,各种其他指标也会因情况而异。与为业务运营设计的 ML 模型相比,为医疗用途设计的 ML 模型需要一组不同的指标。但是,最终结果是相同的:只要指定的指标低于设定的阈值,就很有可能发生模型漂移。

然而,在某些情况下,无法测量模型的准确性——尤其是当难以获得预测数据和实际数据时,这仍然是扩展 ML 模型的主要挑战之一。在这种情况下,根据过去的经验重新拟合模型有助于为模型中何时可能发生漂移创建预测时间线。考虑到这一点,可以定期重新开发模型以处理即将发生的模型漂移。

保持原始模型完整也可以用作基线,从中可以创建新模型,从而改进和纠正先前基线模型的预测。

然而,当数据随时间变化时,基于当前变化的权重数据可能很重要。通过确保模型对最近的数据变化给予更多的权重,而不是对旧的数据变化给予较小的权重,ML 模型将变得更加健壮并构建一个简洁的小型数据库来管理未来可能与漂移相关的变化。

创建可持续的机器学习模型

没有包罗万象的方法来确保及时检测和解决模型漂移。无论是通过预定的模型再训练还是通过实时机器学习;创建一个可持续的机器学习模型本身就是一个挑战。

然而,MLOps 的出现简化了重新训练模型的过程,更频繁且间隔更短。它使数据团队能够自动化模型再训练,而触发该过程的最可靠方法是通过调度。通过自动再训练,公司可以在特定时间范围内使用新数据来强化现有数据流水线。好消息是它不需要任何特定的代码更改或流水线重建。但是,如果一家公司发现了以前在模型训练期间不可用的新特征或算法,那么在部署重新训练的模型时将其包括在内可以显着提高模型的准确性。

在决定需要重新训练模型的频率时,需要考虑几个变量。有时等待问题出现成为唯一真正的选择(特别是如果没有过去的历史可以继续工作)。在其他情况下,应根据与变量季节性变化相关的模式重新训练模型。然而,在这种变化的海洋中保持不变的是监控的重要性。无论时间表或业务领域如何;定期进行持续监测是并且永远是检测模型漂移的最佳方法。

虽然在数千个机器学习模型中管理、检测和解决模型漂移的挑战似乎令人生畏,但来自 Sigmoid 等服务提供商的机器学习运营解决方案可以为您提供正面面对这些问题所需的优势。 Sigmoid 的 MLOps 实践提供了数据科学、数据工程和 DataOps 专业知识的正确组合,这是实施和扩展机器学习以提供业务价值和构建有效的 AI 战略所需的。

要了解有关我们如何帮助数据驱动型公司加快实现 AI 项目商业价值并克服模型漂移挑战的更多信息,请单击此处的链接。

原文链接:How to Detect and Overcome Model Drift in MLOps

相关内容

热门资讯

大连牙齿矫正一般多少钱,面诊正... 大连牙齿矫正一般多少钱,面诊正畸医生要注意什么?面诊牙齿矫正是一个全面而细致的过程,应当充分准备,与...
财报透视|服不服?银之杰连续亏... 1月14日,银之杰(300085)发布公告,公司预计2025年度归母净利润为负值,公司2025年度经...
现货白银再创历史新高 1月14日,现货白银价格延续2025年以来的强劲涨势,盘中首次突破90美元/盎司大关,最高攀升至91...
海外巨头启示录系列(十七):S... SpaceX 由埃隆・马斯克于 2002 年创立,从初期濒临破产到如今估值达 8000 亿美元(拟 ...
阿斯利康与诺和诺德2026战略... 引言 在全球范围内,肥胖问题日益严重,成为影响人们健康的重要因素。根据世界卫生组织的数据显示,肥胖不...
北京国丹医院郑华国介绍:泛发型... 白癜风是临床常见的顽固皮肤疾病,可发生于任何年龄阶段,全身各部位均可能发病。泛发型白癜风作为其中一类...
股价波动较大!易点天下:15日... 【大河财立方消息】1月14日,易点天下网络科技股份有限公司(简称易点天下)公告称,公司股价波动较大,...
币圈院士:1.15比特币过关斩... 交易的根本是生存,其次才是收益,所以每次操作之前先想清楚自己的操作是否合理,本金是否安全,要形成一套...
专家解读 | 数据应用场景激活... 文 | 北京软件和信息服务业协会 国家数据局会同有关部门研究编制了《工业制造、现代农业等九个领域“数...
2026年十大危机公关公司榜单... 凌晨三点,某上市公司公关总监的手机被一条视频推送点亮。短短15秒的剪辑,将产品质量问题放大成了企业道...
原创 寒... 2025年寒冬的乌克兰,并非末日电影中的场景,而是残酷的现实。当零下十五度的凛冽寒流裹挟着鹅毛大雪,...
白银站稳90美元关口,白银矿业... 来源:环球市场播报 核心要点 现货白银价格于周二首次突破每盎司 90 美元,并在周三交易时段延续...
AI应用端全面爆发!4大黄金赛... 2026年1月14日周三的A股市场,AI应用端彻底点燃全场!浩瀚深度、壹网壹创等多只个股20CM涨停...
FXGT:平台监管合规与全球市... 本文探讨FXGT平台的核心优势,重点分析其监管合规性和全球市场连接的整合价值。通过严格的合规框架,F...
原创 1... 写在文章前的声明:在本文之前的说明:本文中所列的投资信息,只是一个对基金资产净值进行排行的客观描述,...
原创 美... 2026 年 1 月 13 日,美国多家媒体集中披露两条重磅消息,中国美债持仓降至 6887 亿美元...
融资保证金比例重回100%:A... "两融余额突破2.67万亿!"当这个数字刷屏各大财经媒体时,监管层的一纸通知瞬间引爆市场——融资保证...
靠中式精酿9个月狂卖11亿,河... 不到两年时间,一群“微醺女孩”把一家成立44年的河南地方啤酒厂推到IPO门口。 1月13日,河南金星...
原创 黄... 哈喽大家好,今天小无带大家聊聊最近刷屏的抢金热潮!金饰价格飙涨不停,一条项链一夜涨1.5万还被疯抢,...
原创 虚... 小睿就来深扒“纸上黄金”的IPO迷局,Suplay冲刺港股欲成“收藏卡第一股”,靠米哈游IP赚足利润...