用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
创始人
2025-09-02 16:03:34
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

生成分钟级的长视频,只需要和短视频相当的成本?

字节Seed与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低85%。

而且质量不减,还能够保持人物和场景的连贯性。

请看VCR:

团队认为,长视频生成本质上是一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务

为此,团队提出了一种新的稀疏注意力机制——Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。

低成本生成分钟级视频

先来看用这项技术生成的长视频效果。

首先是写实场景,这段视频长度56秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。

从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。

换成卡通场景,也能在长达一分半的时间之内保持前后一致性。

关键是,生成这样长时间一致的视频成本,被MoC打下了一个数量级。

使用MoC机制生成一分钟的480P视频,仅需消耗2.32×10¹²FLOPs的计算量,而基线模型需要1.66×10¹³FLOPs,MoC将计算量削减了85%

对于短片来说,MoC也同样能实现降本效果。

多镜头64秒(8×8秒)的480P视频中,基线为1.7×10¹³FLOPs,而MoC只用2.3×10¹²FLOPs,同样节省约86%。

并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。

单镜头8秒的320×192短片测试里,基线1.9×10¹⁰FLOPs,MoC为4.1×10⁹FLOPs,计算量减少约78%。

那么,MoC方法是如何实现的呢?

将长视频生成重构为信息检索

作者认为,长视频生成主要是受制于跨时域记忆的高效调取,为突破这一瓶颈,他们提出了名为Mixture of Contexts(MoC)的稀疏上下文检索层,将生成过程重构为一次内部信息检索

而MoC的核心机制,是,具体来说,先把跨模态序列切成语义同质的内容块,然后让每个查询token只与最相关的少数块建立注意力连接。

这一系列操作不改变扩散Transformer主干,仅以稀疏检索的方式把计算集中在真正重要的历史。

“可训练稀疏路由”

MoC的第一步是“内容对齐分块”——论文指出视频序列在三维时空上高度非均匀,如果简单按固定长度滑窗切片,会把远隔的场景混入同一窗口,导致均值池化后的块描述符失去判别力。

因此,作者依据帧、镜头、模态边界动态切块,让每个块在三维位置上局部且语义一致,从源头上提高了检索精度,也避免了无谓的计算浪费。

随后进入“动态top-k路由”,对于每个查询qi,模型用均值池化得到的块描述符计算点积相似度,只保留得分最高的k个块参与注意力,再把必选锚点加入掩码中。

这一步完全无参数,却在反向传播中通过梯度调节投影矩阵,使查询与块描述符不断自适应,最终把简单的“均值+top-k”训练成高表达力的检索器。

为了防止提示漂移和局部模糊,作者在路由前硬性加入两类强制边:

  • 其一是“跨模态”链接,保证所有视觉token始终可访问完整文本提示,维系主题一致且强化可编辑性;

  • 其二是“镜头内”链接,使每个token至少关注自身镜头范围内的块,既为稀疏图提供稳定下界,又让稀疏预算真正用于跨镜头长依赖。

另外,稀疏图本身易形成闭环,造成信息滞留。作者通过在路由阶段加入严格时间掩码,禁止任何查询访问自己或之后的块,把整个图约束为DAG,从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。

除了机制本身,在工程实现方面,MoC回把选中的键值一次性打包进FlashAttention可变长核,实现对数千万token的线性伸缩且访存连续,在GPU上可充分并行。

论文地址:

https://arxiv.org/abs/2508.21058

项目主页:

https://primecai.github.io/moc/

相关内容

热门资讯

央行副行长邹澜:继续综合施策 ... 中国网财经1月15日讯 今日,国务院新闻办公室举行新闻发布会,介绍货币金融政策支持实体经济高质量发展...
山东多城市消费上新,品质生活触... 海报新闻记者 李金珊 实习生 宋亚轩 孙晔 报道 上午十点,临沂兰山区的李女士送完孩子回家,指尖轻点...
“20cm”六连板,大牛股明日... 1月15日晚,志特新材(300986)、*ST铖昌(001270)两只停牌核查股同日宣布,即将复牌。...
原创 特... 特朗普政府试图将委内瑞拉的石油资源纳入美国巨头的囊中,但事与愿违。这场旨在促成巨额投资的白宫会议,最...
原创 谢... 谢尔盖·布林:科技巨擘的崛起与慈善之路 2026年1月12日,一个值得铭记的日子。这一天,在Alph...
马士基宣布恢复红海航线 航运业... 财联社1月16日讯(编辑 牛占林)丹麦航运巨头马士基(Maersk)当地时间周四表示,在该地区安全形...
贵金属价格上涨能否持续 回顾2025年大类资产表现,以黄金、白银、铂族金属为代表的贵金属板块价格一路狂飙,令全球投资者印象深...
手握金条无处安放?银行保管箱“... 本报(chinatimes.net.cn)记者付乐 见习记者 林佳茹 北京报道 “现在网点暂时没有空...
雷军直播再谈“反小字营销”!新... 1月15日晚,小米创办人、董事长兼CEO雷军在直播中再度聚焦“小字营销”问题,明确表达小米反对该行业...
重庆今年首只新股至信股份上市 ... 1月15日,重庆至信实业股份有限公司(以下简称“至信股份”)在上海证券交易所主板敲锣上市,成为今年A...
创历史新高!2025年我国外汇... 国家外汇管理局1月15日发布数据显示,2025年,我国外汇市场交易量达42.6万亿美元,企业外汇套期...
跨境电商运营:2026全球瑜伽... 今天分享的是:跨境电商运营:2026全球瑜伽服市场洞察报告 报告共计:41页 《2026全球瑜伽服市...
中文在线涨势“刹车”,上市以来... 来源:市场资讯 来源:国际金融报 1月15日,连续多日因“狂飙”行情被称为新“易中天”之一的中文在线...
原创 1... 写在文章前的声明:在本文之前的说明:本文中所列的投资信息,只是一个对基金资产净值进行排行的客观描述,...
湾财晚报| 商业用房首付比例降... 编辑 | 子衿 商业用房首付比例降至30% 今日,商办地产市场迎来重磅利好。 中国人民银行新闻发言人...
全年26亿!这些银行“喜提”罚... 过去一年,监管“长牙带刺、有棱有角”的态度一以贯之,驱动银行从根源上提升合规能力,强化内控管理。 企...
业绩拐点已现?金沃股份预计去年... 公司于今日晚间发布公告,2025年,公司在手订单情况良好,预计实现营业收入12.4-12.5亿元,同...
监管批复!郑荣波就任东亚银行珠... 2026年1月15日,根据国家金融监督管理总局消息,《关于核准郑荣波东亚银行(中国)有限公司珠海分行...
格力电器,近56亿元“大红包”... 1月15日晚,格力电器披露2025年中期权益分派实施公告。 根据方案,格力电器拟以公司现有总股本剔...
新技术助力提高IVF成功率,女... 打破生育瓶颈:新技术或助提高IVF成功率 想象一下,经历了数次试管婴儿(IVF)治疗的女性,心中满是...