业界首个!蚂蚁开源万亿参数混合线性思考模型,IMO金牌水平
创始人
2026-02-14 02:52:41
0

智东西

作者 | 程茜

编辑 | 李水青

智东西2月13日消息,今天,蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T

根据官方信息,相比蚂蚁2025年10月发布的万亿级思考模型Ring-1T,Ring-2.5-1T在生成效率、推理深度和长时程任务执行能力三个关键维度上实现提升,且在长文本生成、数学推理与智能体任务执行上达到开源领先水平。

在生成效率上,Ring-2.5-1T在32K以上长文本生成场景中,对比上代模型访存规模降低至1/10,生成吞吐提升3倍以上。

在深度思考能力方面,该模型在国际数学奥林匹克竞赛(IMO 2025)和中国数学奥林匹克(CMO 2025)自测均达到金牌水平,IMO为35分、CMO为105分。

目前,该模型已经适配Claude Code等智能体框架与OpenClaw个人AI助理,支持多步规划与工具调用。

Ring-2.5-1T的模型权重与推理代码已在Hugging Face、ModelScope等主流开源平台发布,官方平台Chat体验页和API服务将在近期上线。

一、拿下多项开源SOTA,达IMO金牌水平

为了评估Ring-2.5-1T的深度思考与长时任务执行能力,蚂蚁研究人员选择了具有代表性的开源思考模型DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking和闭源API GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking作为比较。

蚂蚁集团公布的多项权威基准测试结果显示,Ring-2.5-1T在数学、编程和逻辑推理的IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2等高难度推理任务以及Agent搜索、工具调用和软件工程Gaia2-search、Tau2-bench和SWE-Bench Verified等长时任务执行方面均实现了最先进的开源性能。

此外,蚂蚁还对深度思考(Heavy Thinking)模式下的模型性能进行了额外测试,Ring-2.5-1T在IMOAnswerBench、HMMT-25等数学竞赛推理基准和LiveCodeBench-v6代码生成基准中超越所有对比模型。

其中,在IMO 2025(满分42分)中,Ring-2.5-1T获得35分,达到金牌水平;在CMO 2025(满分126分)中,该模型获得105分,超过金牌分数线78分和国家队集训队选拔线87分。

研究人员比较了Ring-2.5-1T和Ring-1T的答案发现,前者在推理逻辑的严谨性、高级数学证明技术的应用以及答案表述的完整性方面均有提升。

智能体搜索任务Gaia2-search中,Ring-2.5-1T在开源模型中取得了SOTA性能。Gaia2环境强调跨应用工具协作和复杂任务执行能力,Ring-2.5-1T在规划生成和多步工具调用方面均展现出较高的效率和准确性。

二、三大关键维度提升,能快速适配Claude Code、OpenClaw

相比蚂蚁2025年10月发布的万亿级思考模型Ring-1T,Ring-2.5-1T在生成效率、推理深度和长时程任务执行能力三个关键维度上有显著改进。

首先在生成效率方面,通过采用高比例线性注意力机制,Ring-2.5-1T将内存访问开销降低至1/10,并将超过32K token序列的生成吞吐量提高了3倍以上,适用于深度思考和长时程任务执行。

其次在深度思考层面,该模型在RLVR(基于可验证奖励的强化学习)基础上引入密集奖励机制,为推理过程提供严格性反馈,使Ring-2.5-1T同时达到IMO 2025和CMO 2025(自测)的金奖水平。

最后是长程任务执行,Ring-2.5-1T通过大规模完全异步智能体RL(强化学习)训练,增强了解决复杂任务的长时程自主执行能力,使其能快速适配Claude Code等智能体编程框架和OpenClaw个人AI助手。

三、引入混合线性注意力架构,可提升长程推理场景吞吐量

Ring-2.5-1T基于Ling 2.5架构,通过优化注意力机制,可提升长文本推理的效率与稳定性。

作为实现自主模型架构的关键进展,Ling 2.5架构在Ling 2.0架构的基础上引入了一种混合线性注意力架构。通过增量训练,研究人员将Ling 2.0架构中的GQA(分组查询注意力)升级为MLA(多头线性注意力)+Lightning Linear结构的1:7比例。

具体来说,基于其先前发布的Ring-flash-linear-2.0技术路线图,研究人员将部分GQA层转换为Lightning Linear注意力,以提升长时程推理场景中的吞吐量。

同时为了进一步压缩KV缓存,研究人员将剩余的GQA层近似转换为MLA,同时针对QK Norm(查询-核归一化)和Partial RoPE(部分旋转位置编码)等特征进行针对性改进,从而增强Ling 2.5架构的表达能力。

在此基础上,模型激活参数规模从前代的51B提升至63B,并且在混合线性注意力架构的支持下,其推理效率相比Ling 2.0仍实现大幅提升。

与仅具备32B激活参数的Kimi K2架构相比,在1T总参数量下,Ling 2.5架构在长序列推理任务中的吞吐表现优势显著,且随着生成长度增加,效率优势持续扩大。

▲在一台配备8块H20-3e GPU的机器上,批处理大小=64,比较不同生成长度下的解码吞吐量

▲在一台配备8块H200 GPU的机器上,批处理大小=64,比较不同生成长度下的解码吞吐量

结语:从短对话到复杂规划,大模型需突破长文本瓶颈

随着AI大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景扩展,Ring-2.5-1T可以缓解模型在长输出场景下计算开销高、推理速度慢的问题。

此前,传统架构在面对超长文本、多模态内容、复杂业务流程时,普遍面临算力成本高、响应延迟大、部署难度高等问题,蚂蚁百灵团队此次通过底层架构创新,或为行业提供一条兼顾性能、成本与扩展性的技术路径。

相关内容

热门资讯

探索消费信贷与社交支付深度融合... 腾讯这一金融产品再添新功能,4月19日,北京商报记者注意到,微信分付灰度测试转账功能引发热议,在向微...
土耳其主要银行股指早盘下跌2% 每经AI快讯,4月20日,土耳其主要银行股指早盘下跌2%。 每日经济新闻
好用的OTA代运营源头厂家 在如今竞争激烈的酒旅行业中,OTA代运营服务成为了众多酒店、民宿提升竞争力的关键。但市场上的代运营厂...
成都五一出游全国热门第三 “五一”假期临近,同程旅行最新发布的《2026“五一”旅行趋势报告》显示,今年“五一”期间成都同时位...
俞浩:追觅希望成为人类有史以来... 追觅创始人兼 CEO 俞浩今天接受晚点 LatePost 访问,谈自己为何“疯狂”。 俞浩表示,他其...
原创 6... 60万工人的选择 根据中国新闻周刊的统计数据,从2020年1月到7月,仅短短半年的时间,我国的外...
监管重磅!虚拟货币全是骗局!这... 近日,官方召开打击虚拟货币交易炒作工作协调机制会议,再次明确表态:虚拟货币不是法定货币,不具有与法定...
腾讯公司与浙江大学达成深度合作... 当互动娱乐不再只是日常消遣,当高校科研走出象牙塔,一场关乎数字科技未来的深度携手正悄然改写行业格局。...
1分钟,垂直涨停!A股两大板块... 今日早盘,A股整体震荡上扬,创业板指盘中再创11年新高,深证成指亦再创4年新高,上证指数、科创综指、...
原创 预... 最近各大气象机构的报告密集更新,信号已经非常明确了。2026年下半年,厄尔尼诺大概率要来,而且来势不...
菲亚兰德由创始人夫妇控股近95... 瑞财经 吴文婷4月17日,深圳菲亚兰德科技集团股份有限公司(以下简称“菲亚兰德”)在港交所递交招股书...
突发:5吨黄金+8吨白银滞留海... 王爷说财经讯:突然出手!印度开始卡黄金进口了!到底发生了什么? 2026年4月20日,据路透社17 ...
茅台净利润暴跌!24年首次双降... 商业润点 |Biz Run Review 2025年4月16日晚,贵州茅台发布年报:营收1688...
机构预测明晚油价将迎年内首降,... 4月21日24时(即本周三零点),国内成品油调价窗口将再度开启。多家行业机构预测,本轮调价大概率迎来...
增长10%!德国葡萄酒在中国做... 近年来,中国葡萄酒市场持续收缩,但德国葡萄酒却在这一萎缩的市场中,走出了一条逆势上扬的曲线。 202...
「一城一酒」百元档意外扛大旗,... 本报(chinatimes.net.cn)记者周梦婷 北京报道 在白酒行业仍处低谷的大行情下,“西北...
两部门发文加大进出口信贷支持力... 商务部、中国进出口银行近日印发《关于强化进出口信贷支持 服务“十五五”商务高质量发展良好开局的通知》...
原创 炸... 今天聊一个让整个东亚棋局都为之一震的事儿——中国钨出口管制,直接把日本打了个措手不及。 很多朋友可能...
高盛:母猪去化11%,猪价后续... 2026年4月,高盛发布最新研报指出,中国生猪行业已触达周期底部,虽当前价格承压,但供需反转在即。数...
超3400只个股飘红,沪指、深... 20日,A股三大指数开盘涨跌不一,随后集体翻红,午后创业板指翻绿。Wind数据显示,截至收盘,上证指...