腾讯首席AI科学家姚顺雨入职后首发研究成果
创始人
2026-02-03 23:52:48
0

IT之家 2 月 3 日消息,腾讯混元官网技术博客(Tencent HY Research)今日(2 月 3 日)上线并发表了一篇名为《从 Context 学习,远比我们想象的要难》的文章,系统介绍了腾讯混元团队联合复旦大学的一项新研究。

这是姚顺雨加入腾讯担任首席 AI 科学家后带领团队首次发布研究成果,也是腾讯混元技术博客首次公开。这一博客的推出,旨在分享腾讯混元研究员在前沿技术研究和实践中的探索与经验。

博客提到,过去几年,大语言模型的进化速度快得令人惊叹。如今的前沿模型,已经是顶级的“做题家”:它们能解开奥数级别的难题,能推演复杂的编程逻辑,甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。

然而,这些耀眼的成绩单可能掩盖了一个真相:能在考场拿满分的学生,未必能胜任真实世界的工作

回看我们人类的日常工作:开发者扫过从未见过的工具文档,就能立刻开始调试代码;玩家拿起新游戏的规则书,在实战中边玩边学;科学家从复杂的实验日志中筛选数据,推导出新的结论和定律。我们发现在这些场景中,人类并不只依赖多年前学到的“死知识”,而是在实时地从眼前的 Context 中学习

然而,今天的语言模型并非如此。它们主要依赖“参数化知识”—— 即在预训练阶段被压缩进模型权重里的静态记忆。在推理时,模型更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。

这揭示了当前模型的训练范式和在真实场景中应用之间是不匹配的:我们优化出的模型擅长对自己“已知”的事物进行推理,但用户需要的,却是让模型解决那些依赖于杂乱、动态变化的 Context 的任务。

简而言之:我们造出了依赖“过去”的参数推理者,但世界需要的是能吸收“当下”环境的 Context 学习者。要弥合这一差距,我们必须从根本上改变模型的优化方向

为了衡量现有模型距离真正的“Context Learner”还有多远,姚顺雨团队构建了 CL-bench。这是一个专门评测语言模型能否从 Context 中学习新知识并正确应用的基准。

CL-bench 包含由资深领域专家精心制作的 500 个复杂 Context、1,899 个任务和 31,607 个验证标准。CL-bench 只包含一个简单但苛刻的要求:解决每个任务要求模型必须从 Context 中学习到模型预训练中不存在的新知识,并正确应用

具体来说,CL-bench 涵盖了四种广泛的现实世界 Context 学习场景:

  • 领域知识推理: Context 提供特定的领域知识(例如,虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。
  • 规则系统应用:Context 提供新定义的正式系统(例如,新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。
  • 程序性任务执行:Context 提供复杂的过程系统(例如,工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。
  • 经验发现与模拟: Context 提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。

这些类别包含了大部分现实世界工作中常见的演绎推理和归纳推理任务,能充分衡量模型的 Context 学习能力。

为了确保性能真正反映 Context 学习,而不是记忆或数据泄露,CL-bench 采用了无污染(Contamination-free)设计

  • 虚构创作:专家创作完全虚构的内容,例如为虚构国家设计一套完整的法律体系(包括新颖的判例和法律原则),或创建具有独特语法和语义的新编程语言。
  • 现有内容的修改:专家修改现实世界的内容以创建变体,例如更改历史事件、改变科学和数学定义,或修改技术文档和标准。
  • 整合小众和新兴内容:专家纳入了在预训练数据集中代表性极低的小众或近期新兴内容,如前沿研究发现、新发布的产品手册或技术文档,以及来自专门领域的特定知识。

在不提供任何 Context 的情况下,最先进的模型 GPT-5.1 (High) 仅能解决不到 1% 的任务。这证明了数据是无污染的,模型若不从 Context 中学习,几乎完全无法解决这些任务。

此外,CL-bench 的设计具有高复杂性和序列依赖性。51.1% 的任务需要序列依赖,意味着后续任务的解决方案取决于早期交互的结果。这种多轮次设计显著增加了任务难度。平均而言,领域专家花费约 20 小时标注每个 Context ,以确保任务构建的质量和深度。

CL-bench 中的每个任务都是完全可验证的。平均而言,每个 Context 关联 63.2 个验证标准,每个任务包含 16.6 个评估标准。每个任务的正确性都从多个角度进行评估,确保了评估的全面性。

该团队在 CL-bench 上评估了十个最先进的语言模型。结果揭示了清晰且一致的差距。

平均而言,模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High),也仅达到了 23.7%。换句话说,尽管 Context 中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前的 SOTA 模型几乎不会从 Context 中学习。

IT之家附项目官网如下:

相关内容

热门资讯

消息称百度旗下昆仑芯瞄准500... 6 月 29 日消息,据《The Information》昨日援引知情人士消息,百度旗下 AI 芯片...
打造夏日消费新场景 第35届北... 北京商报讯(记者 翟枫瑞)6月29日消息,第35届北京国际燕京啤酒文化节新闻发布会在京举行。本届啤酒...
社保基金持仓数据出炉,一季度增... 最近各大上市公司一季度财报都公开了,咱们国家社保基金的持仓数据也全部曝光。目前社保拿着比亚迪价值44...
36氪首发 | 海思、中兴团队... 作者 | 乔钰杰 编辑 | 袁斯来 硬氪获悉,广州宸思通讯科技有限公司(以下简称“宸思科技”)近日完...
两天蒸发47亿市值!一纸税务通... 一纸税务通知书,能让一家百亿龙头两天蒸发47亿市值。 6月22日,北大荒(600598.SH)公告称...
SK海力士将投资1100万亿韩... SK集团会长崔泰源6月29日在韩国“三大重大计划”发布会上宣布,公司将投资1100万亿韩元扩大半导体...
两只A股,终止上市! 两家A股公司,即将摘牌。 6月29日,退市沪科(600608.SH)公告称,上海证券交易所将在202...
原创 M... 一家成立近十年的自动驾驶公司,在IPO时吸引了14家基石投资者认购近一半的发行股份,其中不乏奔驰、比...
基金忠言|国寿安保滤镜碎,三年... 图片来源:视觉中国 蓝鲸新闻6月29日讯(记者 祁和忠)保险系基金公司国寿安保总经理换人了。 6月2...
三星电机计划加码玻璃基板!相关... 6月29日,玻璃基板概念股午后有所回升, 华工科技(000988.SZ)逼近涨停, 彩虹股份(600...
拉萨海关持续壮大外贸经营主体 ...   新华网拉萨6月28日电(记者蒋梦辰)近日,记者从拉萨海关获悉,今年前5个月,西藏有进出口实绩的外...
机构:二季报临近,医药生物板块... 6月29日,华源证券发布了一篇医药生物行业的研究报告,报告指出,业绩期临近,产业链景气度有望再次迎来...
每日收评科创50放量涨超4.5... 财联社6月29日讯,三大指数全线收红,创业板指探底回升,科创50指数大涨4.61%。沪深两市成交额3...
6月多地土拍结构性升温:深圳单... 进入2026年6月,不少城市核心区地块集中诞生高溢价宗地,热度突出的城市包含深圳、杭州、长沙。 其中...
业绩炸裂!盛达资源半年预盈3.... 6月29日,贵金属矿山龙头盛达资源(000603.SZ)发布 2026 年半年度业绩预告,上半年业绩...
A股午后拉升三大股指收涨:半导... A股三大股指6月29日开盘涨跌互现。早盘沪强深弱,创指一度跌超2%。半导体午后拉升,带动两市上涨,沪...
原创 空... 前言 大家好,我是老金。 这几天,两幅极度割裂的画面放在一起,把我看笑了。 一边是在持续的热浪下,欧...
澳大利亚审慎监管局拟放宽银行风... 澳大利亚审慎监管局(APRA)6月29日就修改 银行信用风险资本设定公开征求意见,旨在加大信贷投放以...
全民炒股,急踩刹车!韩国股市突... 屈红燕/证券时报网 全民狂欢、交易高度拥挤、杠杆资金猛增、新入市投资者表现激进、大型IPO吸金等现象...