用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
创始人
2025-09-02 16:03:34
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

生成分钟级的长视频,只需要和短视频相当的成本?

字节Seed与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低85%。

而且质量不减,还能够保持人物和场景的连贯性。

请看VCR:

团队认为,长视频生成本质上是一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务

为此,团队提出了一种新的稀疏注意力机制——Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。

低成本生成分钟级视频

先来看用这项技术生成的长视频效果。

首先是写实场景,这段视频长度56秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。

从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。

换成卡通场景,也能在长达一分半的时间之内保持前后一致性。

关键是,生成这样长时间一致的视频成本,被MoC打下了一个数量级。

使用MoC机制生成一分钟的480P视频,仅需消耗2.32×10¹²FLOPs的计算量,而基线模型需要1.66×10¹³FLOPs,MoC将计算量削减了85%

对于短片来说,MoC也同样能实现降本效果。

多镜头64秒(8×8秒)的480P视频中,基线为1.7×10¹³FLOPs,而MoC只用2.3×10¹²FLOPs,同样节省约86%。

并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。

单镜头8秒的320×192短片测试里,基线1.9×10¹⁰FLOPs,MoC为4.1×10⁹FLOPs,计算量减少约78%。

那么,MoC方法是如何实现的呢?

将长视频生成重构为信息检索

作者认为,长视频生成主要是受制于跨时域记忆的高效调取,为突破这一瓶颈,他们提出了名为Mixture of Contexts(MoC)的稀疏上下文检索层,将生成过程重构为一次内部信息检索

而MoC的核心机制,是,具体来说,先把跨模态序列切成语义同质的内容块,然后让每个查询token只与最相关的少数块建立注意力连接。

这一系列操作不改变扩散Transformer主干,仅以稀疏检索的方式把计算集中在真正重要的历史。

“可训练稀疏路由”

MoC的第一步是“内容对齐分块”——论文指出视频序列在三维时空上高度非均匀,如果简单按固定长度滑窗切片,会把远隔的场景混入同一窗口,导致均值池化后的块描述符失去判别力。

因此,作者依据帧、镜头、模态边界动态切块,让每个块在三维位置上局部且语义一致,从源头上提高了检索精度,也避免了无谓的计算浪费。

随后进入“动态top-k路由”,对于每个查询qi,模型用均值池化得到的块描述符计算点积相似度,只保留得分最高的k个块参与注意力,再把必选锚点加入掩码中。

这一步完全无参数,却在反向传播中通过梯度调节投影矩阵,使查询与块描述符不断自适应,最终把简单的“均值+top-k”训练成高表达力的检索器。

为了防止提示漂移和局部模糊,作者在路由前硬性加入两类强制边:

  • 其一是“跨模态”链接,保证所有视觉token始终可访问完整文本提示,维系主题一致且强化可编辑性;

  • 其二是“镜头内”链接,使每个token至少关注自身镜头范围内的块,既为稀疏图提供稳定下界,又让稀疏预算真正用于跨镜头长依赖。

另外,稀疏图本身易形成闭环,造成信息滞留。作者通过在路由阶段加入严格时间掩码,禁止任何查询访问自己或之后的块,把整个图约束为DAG,从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。

除了机制本身,在工程实现方面,MoC回把选中的键值一次性打包进FlashAttention可变长核,实现对数千万token的线性伸缩且访存连续,在GPU上可充分并行。

论文地址:

https://arxiv.org/abs/2508.21058

项目主页:

https://primecai.github.io/moc/

相关内容

热门资讯

卡夫亨氏联姻十年后分手,&qu... 巴菲特十年前主导的卡夫亨氏并购以拆分收场。这位"股神"本周二对卡夫亨氏宣布的拆分决定表示失望,认为拆...
澜沧古茶上半年收入降近4成,面... 澜沧古茶,这家源自云南景迈山的普洱茶生产商,近期公布了其2025年上半年的财务报告,数据显示公司业绩...
上市险企半年报:总投资收益增9... 近期,A股市场五大上市保险公司的2025年半年度报告已悉数公布,引起了业界的广泛关注。作为资本市场中...
CNN:前所未见,美国大跌! 近日,美国有线电视新闻网(CNN)的“旅游版”发表了一篇哀叹美国旅游业失去吸引力的文章。文章表示,美...
比亚迪研发投入领跑A股,技术创... 在A股市场近期公布的二季报及半年报中,科技企业的研发投入情况吸引了广泛关注。其中,比亚迪以其在研发领...
股市必读:国投电力(60088... 截至2025年9月2日收盘,国投电力(600886)报收于14.45元,上涨2.05%,换手率0.5...
瑞幸加码全球原产地布局,原产地... 新京报讯(记者王子扬)9月1日,瑞幸开启“就喝原产地节”,推出主打原产地的产品矩阵,包括新品阿克苏苹...
读懂IPO|道生天合23家交易... 本文时代商业研究院 作者:陆烁宜 来源丨时代商业研究院 作者丨陆烁宜 编辑丨郑琳 上交所官网显示,...
奥克斯电气成功登陆港交所;港交... |2025年9月3日 星期三| NO.1奥克斯电气成功登陆港交所 9月2日是奥克斯电气(02580....
京城“胖东来”的蜕变之路 8月29日,西城区首家物美超市“学习胖东来自主调改店”在位于新街口北大街1号新华百货地下层开业; 8...
中金公司创新跨境融资模式,助力... 9月2日,中金公司作为牵头全球协调人及交割行,成功协助哈萨克斯坦开发银行(Development B...
黄金“杀”回来了,突破3500... 来源:国际金融报 黄金又“杀”回来了。 9月2日,伦敦金现盘中大涨,一度触及3508.69美元/盎司...
北交所宣布设立四周年:聚“新”... 274家公司总市值超9000亿元,合格投资者超900万户,打造了一条服务创新型中小企业的特色路径 本...
贵州华夏购销通资金追回方法?骗... 大宗商品现货交易中心公司是正规公司吗交易中心揭露大宗商品现货骗局的真相:一场精心设计的财富陷阱近年来...
柔性电子+智慧医疗:滕州市中心... 滕州市中心人民医院作为一所集医疗、教学、科研于一体的综合性医院,正积极推动智慧医院建设。在为期四天的...
北交所上市公司广信科技大宗交易... 每经讯,2025年9月2日,北交所上市公司广信科技(920037,收盘价:92.29元)发生一笔大宗...
贵州华夏购销通资金追回方法?骗... 大宗商品现货交易中心公司是正规公司吗交易中心揭露大宗商品现货骗局的真相:一场精心设计的财富陷阱近年来...
青海首创“拉面+骑行+文旅”多... 9月2日,“中华美食荟”青海家宴品鉴暨“拉面+骑行+文旅多业态融合”消费场景发布活动在青海省海北藏族...
贵州华夏购销通资金追回方法?骗... 大宗商品现货交易中心公司是正规公司吗交易中心揭露大宗商品现货骗局的真相:一场精心设计的财富陷阱近年来...
新三板基础层公司中玒口腔大宗交... 每经讯,2025年9月2日,新三板基础层公司中玒口腔(873323,收盘价:16元)发生一笔大宗交易...