用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
创始人
2025-09-02 16:03:34
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

生成分钟级的长视频,只需要和短视频相当的成本?

字节Seed与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低85%。

而且质量不减,还能够保持人物和场景的连贯性。

请看VCR:

团队认为,长视频生成本质上是一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务

为此,团队提出了一种新的稀疏注意力机制——Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。

低成本生成分钟级视频

先来看用这项技术生成的长视频效果。

首先是写实场景,这段视频长度56秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。

从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。

换成卡通场景,也能在长达一分半的时间之内保持前后一致性。

关键是,生成这样长时间一致的视频成本,被MoC打下了一个数量级。

使用MoC机制生成一分钟的480P视频,仅需消耗2.32×10¹²FLOPs的计算量,而基线模型需要1.66×10¹³FLOPs,MoC将计算量削减了85%

对于短片来说,MoC也同样能实现降本效果。

多镜头64秒(8×8秒)的480P视频中,基线为1.7×10¹³FLOPs,而MoC只用2.3×10¹²FLOPs,同样节省约86%。

并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。

单镜头8秒的320×192短片测试里,基线1.9×10¹⁰FLOPs,MoC为4.1×10⁹FLOPs,计算量减少约78%。

那么,MoC方法是如何实现的呢?

将长视频生成重构为信息检索

作者认为,长视频生成主要是受制于跨时域记忆的高效调取,为突破这一瓶颈,他们提出了名为Mixture of Contexts(MoC)的稀疏上下文检索层,将生成过程重构为一次内部信息检索

而MoC的核心机制,是,具体来说,先把跨模态序列切成语义同质的内容块,然后让每个查询token只与最相关的少数块建立注意力连接。

这一系列操作不改变扩散Transformer主干,仅以稀疏检索的方式把计算集中在真正重要的历史。

“可训练稀疏路由”

MoC的第一步是“内容对齐分块”——论文指出视频序列在三维时空上高度非均匀,如果简单按固定长度滑窗切片,会把远隔的场景混入同一窗口,导致均值池化后的块描述符失去判别力。

因此,作者依据帧、镜头、模态边界动态切块,让每个块在三维位置上局部且语义一致,从源头上提高了检索精度,也避免了无谓的计算浪费。

随后进入“动态top-k路由”,对于每个查询qi,模型用均值池化得到的块描述符计算点积相似度,只保留得分最高的k个块参与注意力,再把必选锚点加入掩码中。

这一步完全无参数,却在反向传播中通过梯度调节投影矩阵,使查询与块描述符不断自适应,最终把简单的“均值+top-k”训练成高表达力的检索器。

为了防止提示漂移和局部模糊,作者在路由前硬性加入两类强制边:

  • 其一是“跨模态”链接,保证所有视觉token始终可访问完整文本提示,维系主题一致且强化可编辑性;

  • 其二是“镜头内”链接,使每个token至少关注自身镜头范围内的块,既为稀疏图提供稳定下界,又让稀疏预算真正用于跨镜头长依赖。

另外,稀疏图本身易形成闭环,造成信息滞留。作者通过在路由阶段加入严格时间掩码,禁止任何查询访问自己或之后的块,把整个图约束为DAG,从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。

除了机制本身,在工程实现方面,MoC回把选中的键值一次性打包进FlashAttention可变长核,实现对数千万token的线性伸缩且访存连续,在GPU上可充分并行。

论文地址:

https://arxiv.org/abs/2508.21058

项目主页:

https://primecai.github.io/moc/

相关内容

热门资讯

中国工商银行援建金阳县人民医院... 6月11日,中国工商银行援建金阳县人民医院项目揭牌仪式顺利举行。此次工商银行援建项目的落地投用,有效...
美股休市,三大股指期货集体下跌... 来源:北京日报客户端 北京时间19日晚间,美股因美国六月节休市一天。 美股三大股指期货全线下跌,截至...
Momenta上市不为钱 兜兜转转两年,Momenta终于要上市了。 6月18日,据中国证监会备案信息,Momenta Glo...
原创 日... 在阅读文章前,辛苦您点下“关注”,方便讨论和分享。作者定会不负众望,按时按量创作出更优质的内容。 文...
体检查出卵巢囊肿先别慌!基层中... 现代保健报讯:大荔县同州路中段的光华诊所里,齐军敏已经坐了二十多年诊室。2002年从陕西省中医学院毕...
超20万家!京东政企业务AI采... 这个618,京东在产品、价格、服务的综合体验上获得了消费者和政企客户的高满意度。消费市场活力持续释放...
运营型GEO-AI全域营销服务... 六月的武汉,暑气正浓。花山·月酒店的会议室里,却连续两天坐满了从全国各地赶来的网络公司老板。 这是一...
海宁黄金回收如何挑选经验丰富的... 县域贵金属变现需求的发展现状 作为民营经济活跃的县域城市,海宁本地居民、个体工商户及小微企业主常有闲...
原创 2... 银行大堂的电子屏上,那一栏定期存款利率早就换成了"0"和"1"打头的数字。十万块存一年,到手利息还不...
美伊会谈生变!日韩股市、金银、... 中东局势再生变数。 今日,美国和伊朗谈判代表取消会谈后,全球股市下跌,MSCI全球指数下跌0.14%...
募资加码风光发电,华润新能源冲... 市占率稳居第一梯队,运营效率远超行业平均。 作者 | 赵晴 编辑丨马景行 来源 | 野马财经 当光伏...
国际锐评丨外资如何打开投资中国... “跨国公司投资中国的下一篇在于创新、可持续发展,在于更深层次的合作和共同繁荣。”在17日闭幕的第七届...
直击老百姓股东大会,谢子龙:面... 【大河财立方 记者 王鑫 长沙报道】6月18日下午,老百姓大药房连锁股份有限公司(以下简称“老百姓”...
外资集体唱多,岂是短期利好这么... 放下一周的交易疲惫,静下心,理性总结行情与问题。本篇为大家准备了4条要闻,覆盖当前市场核心动向,帮大...
原创 “... 老铁们,今天这盘面,不用看K线,看评论区就够了。 创业板、科创一举冲高,刷新阶段强势区间;上证这边却...
2026中国快消自有品牌价值进... 今天分享的是:2026中国快消自有品牌价值进阶之路研究报告-尼尔森IQ 报告共计:12页 这份尼尔森...
原创 秦... 兵马俑的全称应为秦始皇兵马俑,这一举世震惊的考古奇迹首次被发现于1974年,自那以后,它便成为中华文...
原创 反... 大家好,我是小毋。 一场看似针对性极强的产业链博弈,在今年的G7峰会上正式摆上台面。 一众西方发达国...
局势突变!刚刚,全线跳水!股市... 美伊谈判的变数搅动金融市场。 今日(6月19日)午间,日韩股市全线跳水,韩国KOSPI指数一度跌超2...
国际金价失守4200美元关口 图片来源:视觉中国 6月19日,国际黄金市场持续走弱,现货黄金价格盘中加速跳水,一举跌破4200美元...