用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
创始人
2025-09-02 16:03:34
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

生成分钟级的长视频,只需要和短视频相当的成本?

字节Seed与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低85%。

而且质量不减,还能够保持人物和场景的连贯性。

请看VCR:

团队认为,长视频生成本质上是一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务

为此,团队提出了一种新的稀疏注意力机制——Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。

低成本生成分钟级视频

先来看用这项技术生成的长视频效果。

首先是写实场景,这段视频长度56秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。

从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。

换成卡通场景,也能在长达一分半的时间之内保持前后一致性。

关键是,生成这样长时间一致的视频成本,被MoC打下了一个数量级。

使用MoC机制生成一分钟的480P视频,仅需消耗2.32×10¹²FLOPs的计算量,而基线模型需要1.66×10¹³FLOPs,MoC将计算量削减了85%

对于短片来说,MoC也同样能实现降本效果。

多镜头64秒(8×8秒)的480P视频中,基线为1.7×10¹³FLOPs,而MoC只用2.3×10¹²FLOPs,同样节省约86%。

并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。

单镜头8秒的320×192短片测试里,基线1.9×10¹⁰FLOPs,MoC为4.1×10⁹FLOPs,计算量减少约78%。

那么,MoC方法是如何实现的呢?

将长视频生成重构为信息检索

作者认为,长视频生成主要是受制于跨时域记忆的高效调取,为突破这一瓶颈,他们提出了名为Mixture of Contexts(MoC)的稀疏上下文检索层,将生成过程重构为一次内部信息检索

而MoC的核心机制,是,具体来说,先把跨模态序列切成语义同质的内容块,然后让每个查询token只与最相关的少数块建立注意力连接。

这一系列操作不改变扩散Transformer主干,仅以稀疏检索的方式把计算集中在真正重要的历史。

“可训练稀疏路由”

MoC的第一步是“内容对齐分块”——论文指出视频序列在三维时空上高度非均匀,如果简单按固定长度滑窗切片,会把远隔的场景混入同一窗口,导致均值池化后的块描述符失去判别力。

因此,作者依据帧、镜头、模态边界动态切块,让每个块在三维位置上局部且语义一致,从源头上提高了检索精度,也避免了无谓的计算浪费。

随后进入“动态top-k路由”,对于每个查询qi,模型用均值池化得到的块描述符计算点积相似度,只保留得分最高的k个块参与注意力,再把必选锚点加入掩码中。

这一步完全无参数,却在反向传播中通过梯度调节投影矩阵,使查询与块描述符不断自适应,最终把简单的“均值+top-k”训练成高表达力的检索器。

为了防止提示漂移和局部模糊,作者在路由前硬性加入两类强制边:

  • 其一是“跨模态”链接,保证所有视觉token始终可访问完整文本提示,维系主题一致且强化可编辑性;

  • 其二是“镜头内”链接,使每个token至少关注自身镜头范围内的块,既为稀疏图提供稳定下界,又让稀疏预算真正用于跨镜头长依赖。

另外,稀疏图本身易形成闭环,造成信息滞留。作者通过在路由阶段加入严格时间掩码,禁止任何查询访问自己或之后的块,把整个图约束为DAG,从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。

除了机制本身,在工程实现方面,MoC回把选中的键值一次性打包进FlashAttention可变长核,实现对数千万token的线性伸缩且访存连续,在GPU上可充分并行。

论文地址:

https://arxiv.org/abs/2508.21058

项目主页:

https://primecai.github.io/moc/

相关内容

热门资讯

2月A股新开252万户,日均水... 扬子晚报网3月4日讯(记者 范晓林 薄云峰)据上交所最新披露2026年2月A股新开户数据,当月A股新...
全球陷入能源“焦虑”,新能源能... 一场突如其来的中东“风暴”,正在席卷全球能源市场。 3月4日,国际油价延续涨势,国际原油期货结算价大...
原创 黄... 简单说:这个世界不缺油,油太多,用不完,买不完。 作者:今纶 战争在继续,黄金、石油怎么走? 我们...
“年轻化”与“她力量”,汾酒奏... 在推进“年轻化”战略的同时,汾酒还顺势将女性市场纳入了年轻化的战略纵深。 文/每日财报 杜康 当前...
雷军2026两会准备5份建议:... 站长之家(ChinaZ.com) 3月4日 消息:今日,小米CEO雷军以全国人大代表的身份发文透露,...
电商模特图片怎么生成?AI模特... 作为商家或平台,在电商平台运营的过程中,我们经常会需要使用到一些带有模特的形象的产品图片进行产品宣传...
瑞幸大股东被传已买下蓝瓶咖啡 雀巢旗下高端咖啡品牌蓝瓶咖啡(Blue Bottle Coffee)的出售有了新消息。 3月4日下午...
2026化工基金投资指南:宏利... 2026年,化工板块不再是单纯的“周期代言人”。在供给端优化与需求端(AI、新能源、机器人)爆发式增...
库克秀刀法 苹果MacBook... 快科技3月5日消息,苹果公司正式发布了新款笔记本电脑MacBook Neo,起售价定为4599元。作...
从A股折戟到港股再战!沪鸽口腔... 2026年2月27日,港交所披露山东沪鸽口腔医疗集团有限公司(简称:沪鸽口腔)更新后的招股书,这已是...
佰维存储大宗交易折价成交17.... 佰维存储03月04日大宗交易平台共发生1笔成交,合计成交量17.90万股,成交金额3150.22万元...
全国人大代表、联泓新科董事长郑... 2026年全国两会召开之际,《每日经济新闻》记者获悉,全国人大代表、联泓新科(SZ003022,股价...
中东局势引爆油市!多家基金公司... 本文自南都·湾财社。 采写 | 南都·湾财社记者 罗曼瑜 编辑 | 柴华 2月28日以来,美以与伊...
年初业绩暴增9倍!佰维存储“2... 图源:图虫 3月4日,存储器概念逆势上涨。 Wind数据显示,存储器指数(8841241.WI)3月...
关于现货黄金,这几个说法你相信... 现货黄金在很多人脑子里,是一个带着点神秘气息的东西——像一块蒙着布的棋盘,看不清里面的规则,只能靠别...
原创 湖... 湖北银行最近完成了一笔76亿元的增资扩股,引发市场关注。这笔钱不是小数目,相当于给银行做了一次大输血...
Wolf & Badg... "我越来越多地回到产品运营岗位,与技术副总裁合作开展一些人工智能项目,并亲自上手操作,"Wolf &...
沪指失守4100点!成交额缩量... 【大河财立方消息】3月4日,A股继续回调,主要股指震荡下挫。截至收盘,沪指收跌0.98%,失守410...
海湾战火推高油价 美页岩油高管... 财联社3月4日讯(编辑 赵昊)美国页岩油行业高管警告称,在中东石油供应受挫之际,美国页岩油企业无法迅...
拆解2025药品终端市场:3大... 2025年,中国药品终端市场正处于医保改革深化、产业结构重构的关键转型期,提质控费成为行业发展的核心...