如何检测和克服MLOps中的模型漂移
admin
2024-01-20 13:21:31
0
image.png
image.png

机器学习 (ML) 被广泛认为是数字化转型的基石,但 ML 模型最容易受到数字环境变化动态的影响。 ML 模型由创建它们的时间段内可用的变量和参数定义和优化。

让我们看看一个基于垃圾邮件的通用模板创建的 ML 模型的案例,该模板当时可能正在激增。有了这个基线,机器学习模型就能够识别和阻止这类电子邮件,从而防止潜在的网络钓鱼攻击。然而,随着威胁形势的变化和网络犯罪分子变得更加聪明,更复杂和现实的电子邮件已经取代了旧的电子邮件。当面对这些较新的黑客攻击尝试时,基于前几年变量操作的机器学习检测系统将无法正确分类这些新威胁。这只是模型漂移的一个例子。

模型漂移(或模型衰减)是 ML 模型预测能力的退化。由于数字环境的变化,以及随之而来的概念和数据等变量的变化,模型漂移在 ML 模型中很突出,这仅仅是机器语言模型作为一个整体的性质。

假设所有未来变量将与创建 ML 模型时普遍存在的变量保持一致,这为 MLOps 中的模型漂移提供了肥沃的温床。

例如,如果模型在使用静态数据的静态环境中运行,那么它的性能不应降低,因为预测的数据来自与训练期间使用的相同分布。但是,如果模型存在于一个不断变化的动态环境中,涉及的变量太多,那么模型的性能也会有所不同。

模型漂移的类型

根据变量或预测变量的变化,模型漂移可以大致分为两种主要类型:分别是概念漂移和数据漂移。

  1. 概念漂移——当模型中目标变量的统计属性发生变化时,就会发生概念漂移。简而言之,如果模型变量的性质发生变化,那么模型就无法按预期运行。
  2. 数据漂移——最常见的模型漂移类型,发生在某些预测变量的统计属性发生变化时。随着变量的变化,模型会因此而失败。可能在一段时间内有效的模型在应用于不同的环境时可能不会看到相同的效果,这仅仅是因为数据没有针对不断变化的变量进行定制。

在概念漂移与数据漂移的较量中,上游数据变化对模型漂移的影响也很突出。 由于所有必需的数据都通过数据流水线移动。因此,未生成的特征和单位的变化(例如:测量、尺寸)也可能导致缺失值,这将阻碍 ML 模型运行。

解决模型漂移

在保持模型准确性方面,早期检测模型漂移至关重要。这是因为模型精度随着时间的推移而降低,并且预测值继续与实际值进一步偏离。这个过程越深入,对整个模型造成的不可替代的损害就越大。因此,尽早发现问题至关重要。 F1 值(评估模型的精度和召回能力的准确性)是一种快速检测是否有问题的方法

同样,根据模型的目的,各种其他指标也会因情况而异。与为业务运营设计的 ML 模型相比,为医疗用途设计的 ML 模型需要一组不同的指标。但是,最终结果是相同的:只要指定的指标低于设定的阈值,就很有可能发生模型漂移。

然而,在某些情况下,无法测量模型的准确性——尤其是当难以获得预测数据和实际数据时,这仍然是扩展 ML 模型的主要挑战之一。在这种情况下,根据过去的经验重新拟合模型有助于为模型中何时可能发生漂移创建预测时间线。考虑到这一点,可以定期重新开发模型以处理即将发生的模型漂移。

保持原始模型完整也可以用作基线,从中可以创建新模型,从而改进和纠正先前基线模型的预测。

然而,当数据随时间变化时,基于当前变化的权重数据可能很重要。通过确保模型对最近的数据变化给予更多的权重,而不是对旧的数据变化给予较小的权重,ML 模型将变得更加健壮并构建一个简洁的小型数据库来管理未来可能与漂移相关的变化。

创建可持续的机器学习模型

没有包罗万象的方法来确保及时检测和解决模型漂移。无论是通过预定的模型再训练还是通过实时机器学习;创建一个可持续的机器学习模型本身就是一个挑战。

然而,MLOps 的出现简化了重新训练模型的过程,更频繁且间隔更短。它使数据团队能够自动化模型再训练,而触发该过程的最可靠方法是通过调度。通过自动再训练,公司可以在特定时间范围内使用新数据来强化现有数据流水线。好消息是它不需要任何特定的代码更改或流水线重建。但是,如果一家公司发现了以前在模型训练期间不可用的新特征或算法,那么在部署重新训练的模型时将其包括在内可以显着提高模型的准确性。

在决定需要重新训练模型的频率时,需要考虑几个变量。有时等待问题出现成为唯一真正的选择(特别是如果没有过去的历史可以继续工作)。在其他情况下,应根据与变量季节性变化相关的模式重新训练模型。然而,在这种变化的海洋中保持不变的是监控的重要性。无论时间表或业务领域如何;定期进行持续监测是并且永远是检测模型漂移的最佳方法。

虽然在数千个机器学习模型中管理、检测和解决模型漂移的挑战似乎令人生畏,但来自 Sigmoid 等服务提供商的机器学习运营解决方案可以为您提供正面面对这些问题所需的优势。 Sigmoid 的 MLOps 实践提供了数据科学、数据工程和 DataOps 专业知识的正确组合,这是实施和扩展机器学习以提供业务价值和构建有效的 AI 战略所需的。

要了解有关我们如何帮助数据驱动型公司加快实现 AI 项目商业价值并克服模型漂移挑战的更多信息,请单击此处的链接。

原文链接:How to Detect and Overcome Model Drift in MLOps

相关内容

热门资讯

ST中装:公司主要银行账户已全... 证券之星消息,ST中装(002822)06月24日在投资者关系平台上答复投资者关心的问题。 投资者提...
2026年开窗机行业趋势与战略... 一、开篇引言:市场格局重塑下的选择逻辑 步入2026年,全球建筑智能化与绿色节能政策的叠加驱动,使开...
资金全面转向科技,传统消费企业... 近期 A 股出现明显风格切换,老牌消费资金持续流出,机构与传统上市公司纷纷加码半导体、算力赛道。 先...
合肥保利翡翠天奕具体交房时间是... 对于众多购房者而言,“合肥保利翡翠天奕具体交房时间是什么时候?能按时交房吗?”是心中最关切的问题。根...
港股风向标|恒指连续杀跌后企稳... 财联社6月24日讯(编辑 冯轶)今日港股短线企稳,三大指数集体收涨。截至收盘,恒生指数涨0.33%,...
瑞众人寿达州中支被罚17万,涉... 蓝鲸新闻6月24日讯,近日,国家金融监督管理总局达州监管分局发布行政处罚决定书,剑指瑞众人寿保险有限...
美国最担心的事还是来了,中国加... 最近这段时间,国际金融圈子里有一笔账,算得各家央行心里都不太踏实。 截至2026年春季,美国国债总规...
马斯克,不是万亿富豪了 资产历史性超过万亿美元不到两周,特斯拉、SpaceX掌门人埃隆·马斯克的身价近日快速下跌。 据中新经...
突发!金价跌破4000美元,近... 每经记者:杜宇 记者|杜宇 编辑|何小桃 杜恒峰 校对|金冥羽 金银价格大跳水。 6月24日晚,现货...
粗粮吃越多越好?很多糖友吃错升... 控糖圈一直流传多吃粗粮稳血糖,不少糖友直接三餐全吃粗粮、顿顿杂粮,不仅胃胀消化不良,餐后血糖反而不降...
持续大跌!刚刚,黄金跌破400... 潮新闻客户端 记者 吴恩慧 6月24日,贵金属再次大跌。 截至发稿时,现货黄金大跌近3%,跌破400...
2026年安徽白酒代加工/贴牌... 一、行业背景与痛点引入 白酒代加工领域正经历结构性变革。据行业观察,2025年至2026年,中小酒企...
曾在次贷危机中取得900%收益... 来源:环球市场播报 对冲基金经理Lee Robinson在全球金融危机期间曾凭借及时做空美国次级抵押...
基金“业界良心”又吹哨?杨东旗... 图片来源:图虫创意 “A股大量的热门股票,未来极有可能跌掉八成乃至九成以上,我们不敢再参与了。”6月...
浙江稠州商业银行护航“两司两员... 近年来,随着平台经济、共享经济蓬勃兴起,货车司机、网约车司机、快递员、外卖配送员(以下简称:两司两员...
IPO研究 | 中国日均Tok... 瑞财经 王敏 6月22日,河南鑫宇光科技股份有限公司(以下简称“鑫宇科技”)北交所IPO获受理,保荐...
IPO定向松绑,难道硬科技无动... 睡前和大家唠两句,最近市场藏着不少容易被忽略的动向,值得好好捋捋。本篇为大家准备了4条要闻,都是实打...
Kalshi首席执行官称预测交... 来源:环球市场播报 核心要点 Kalshi首席执行官塔雷克・曼苏尔在消费者新闻与商业频道《财经早...
韩国科技股暴跌点燃全球抛售潮 在全世界范围内, AI资本神话遭遇微观与宏观的双重审视 文|《财经》特约撰稿人 金焱 发自华盛顿 编...
审计署通报!中国银行逃税23.... 6月23日,审计署发布《国务院关于2025年度中央预算执行和其他财政收支的审计工作报告》,在报告中的...