100万token,一次能分析1小时YouTube视频,「大世界模型」火了 100万token,一次能分析1小时YouTube视频,「大世界模型」火了
admin
2024-02-19 19:41:01
0

机器之心报道

编辑:陈萍、小舟

这项研究为语言模型更好地理解物理世界铺平了道路。

最近几天,我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。然而,这些刷屏无数的模型真的能很好的理解世界吗?我们就拿 Sora 来说,该模型在给大家带来惊叹的同时,却不能很好的模拟复杂场景的物理原理,如一位健身的男子倒着跑跑步机。



不仅 Sora,现如今大模型虽然发展迅速,然而其自身也存在缺点,比如在现实世界中不容易用语言描述的内容,模型理解起来非常困难,又比如这些模型难以处理复杂的长程任务。视频模型的出现在一定程度上缓解了这个问题,其能提供语言和静态图像中所缺少的时间信息,这种信息对 LLM 非常有价值。随着技术的进步,模型开始变得对文本知识和物理世界有了更好的理解,从而帮助人类。

然而,由于内存限制、计算复杂性和有限的数据集,从数百万个视频和语言序列的 token 中进行学习挑战巨大。

为了应对这些挑战,来自 UC 伯克利的研究者整理了一个包含各种视频和书籍的大型数据集,并且提出了大世界模型( Large World Model ,LWM),利用 RingAttention 技术对长序列进行可扩展训练,逐渐将上下文大小从 4K 增加到 1M token。



论文地址:https://arxiv.org/pdf/2402.08268.pdf项目主页:https://github.com/LargeWorldModel/LWM?tab=readme-ov-file论文标题:WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION

项目 5 天揽获 2.5K 星标。



本文的贡献可总结为如下几个方面:

(a)该研究在长视频和语言序列上训练了一个拥有极大上下文尺寸的 transformers 模型,从而设立了新的检索任务和长视频理解方面的标杆。

(b) 为了克服视觉 - 语言训练带来的挑战,该研究采取了以下措施,包括使用掩码序列以混合不同长度的序列、损失加权以平衡语言和视觉、以及使用模型生成的问答数据来处理长序列对话。

(c) 通过 RingAttention、掩码序列打包等方法,可以训练数百万长度的多模态序列。

(d) 完全开源 7B 参数系列模型,其能够处理超过 100 万 token 的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。

LWM 可以基于文本提示自动生成图像,例如黑色的小狗:



LWM 还可以基于文本提示生成视频,例如在夜空中绽放的烟花在天空中绽放:



接下来,LWM 还能深入理解图片、回答关于图片的问题,例如 LWM 能对经典艺术作品的二次创作进行解读:



值得一提的是,LWM 可以回答时长为 1 小时的 YouTube 视频。比如在示例中,当用户询问「那个穿着霸王龙服装的人骑的是什么车」?GPT-4V 不能提供支持,Gemini Pro Vision 回答错误。只有 LWM 给了「那个穿着霸王龙服装的人骑的是摩托车」正确答案。显示出 LWM 在长视频理解中的优势。



更多示例结果如下,我们可以得出,即使是最先进的商业模型 GPT-4V 和 Gemini Pro 在回答有关视频的问题时都失败了,只有 LWM 仍能回答长达 1h 的 YouTube 视频问题。



这项研究的作者共有四位, 其中一位是深度强化学习大牛、UC 伯克利教授 Pieter Abbeel 。Abbeel 在业余时间还出了很多课程,其中 Intro to AI 课程在 edX 上吸引了 10 万多名学生学习,他的深度强化学习和深度无监督学习教材是 AI 研究者的经典学习资料,包括 CS294-158(Deep Unsupervised Learning)、CS188(Introduction to Artificial Intelligence)、CS287(Advanced Robotics)等。

方法介绍

该研究在 Llama2 7B 的基础上训练了一个大型自回归 Transformer 模型,该模型具有长达 100 万个 token 的超大上下文窗口。为了实现这一点,研究团队采用多种策略:使用书籍资料将上下文扩展到 100 万个 token,然后在长多模态序列上进行联合训练,包括文本 - 图像、文本 - 视频数据和书籍资料。



计算注意力权重的二次复杂度会带来内存限制,因此在长文档上进行训练异常昂贵。为了解决这些计算限制,研究团队采用 RingAttention 实现,利用具有序列并行性的块式计算。理论上这种方法可以将上下文窗口扩展到无限长度,仅受可用设备数量的限制。该研究还使用 Pallas 进一步将 RingAttention 与 FlashAttention 融合,以优化模型性能。

如下表 1 所示,为了扩展上下文窗口的长度,该研究采用渐进式训练的方法。直观地讲,这使得模型可以通过首先学习较短范围的依赖关系,然后再转移到较长的序列上来节省计算量。



LWM 模型的整体架构如下图 4 所示,总体上讲是一个数百万长度 token 序列上的自回归 transformer。视频中的每个帧使用 VQGAN tokenized 为 256 个 token,这些 token 会与文本 token 连接起来,并输入到 transformer 中,以自回归方式预测下一个 token。输入和输出的顺序反映了不同的训练数据格式,包括图像 - 文本、文本 - 图像、视频、文本 - 视频和纯文本格式。



实验结果

该研究将 LWM 与谷歌的 Gemini Pro 和 OpenAI 的 GPT-4 进行了实验比较,实验结果表明 LWM 模型在检索方面能够媲美 GPT-4,如下表 3 所示。



该研究还在 MT-Bench 上评估了模型的对话能力。表 5 显示了模型获得的 MT-Bench 分数。表 6 说明了模型的对话能力与事实检索能力的关系。



在准确性方面,LWM 在上下文窗口为 1M 时优于 GPT-4V 和 Gemini Pro。





感兴趣的读者可以阅读论文原文,了解更多研究内容。

相关内容

热门资讯

涉及680万股东!A股下周一正... 文/帅可聪 下周一(7月6日)起,沪深交易所主板风险警示股票(ST股)涨跌幅限制将上调至10%。 今...
2025-2000上市公司医药... 本人将中国上市公司医药数据精心整理为面板数据的形式,医药企业具有471家,5972多个样本,无论是做...
汇川技术:PLC已形成完整系列... 来源:问董秘 投资者提问: 董秘,您好:想问一下贵司在大中型PLC的研发投入和技术发展现在处于什么阶...
原创 董... 昨晚天津卫视黄金档突然上线的《花开如梦》,像是从时间缝隙里掉出来的一部剧,让不少守在电视机前的观众一...
和讯高璐明:突发!券商爆利好!... 券商爆利好,业绩大幅飙升,创历史新高,那么到底对于下周市场会产生多大影响?券商板块未来还有没有上攻的...
国足短期内不会与佛得角交手 近期,关于佛得角可能与国足来一场友谊赛的消息备受关注。 在与阿根廷队赛前,佛得角队首发阵容合影。图...
BC技术接棒、钙钛矿叠层技术蓄... 本报记者 殷高峰 张晓玉 “现阶段光伏项目招标,不配备BC(背接触)组件,基本很难进入业主采购短名单...
原创 海... 新华社德黑兰7月4日电,伊朗伊斯兰革命卫队迎来关键人事变动,阿里·阿兹玛伊少将出任革命卫队海军司令。...
金属3D打印火箭厂商Rocke... 长三角G60激光联盟导读:国外的金属3D打印火箭厂商Rocket Lab,发展速度之快就像坐上了火箭...
嘴歪眼斜是什么病前兆 嘴歪眼斜一般情况下是面瘫、脑卒中、脑梗死等疾病的前兆。 1、面瘫:通常是因为感染因素,也有可能是因为...
上海建工:获政府补助3.48亿... 根据《企业会计准则第16号——政府补助》相关规定,公司将上述与收益相关的政府补助确定为“其他收益”并...
李彦宏最大IPO来了 窗口期。 作者/吴琼 报道/投资界PEdaily “份额抢不到。” 这一幕正在出现在昆仑芯身上。自年...
万全区召开传统制造业数字化升级... 来源:厚德万全 7月3日,万全区召开传统制造业数字化升级与电子商务发展座谈会。区政协、区商务局、...
原创 德... 在全球经济的复杂棋局中,近期德国总理默茨对人民币汇率的言论引发了不小的波澜。他声称人民币“低估了30...
煤科先锋丨从戈壁“小白”到攻坚... (来源:中国煤炭科工集团) 2022年初夏,刚入职不到半年的田凤亮,第一次踏上新疆戈壁深处的露天矿。...
海归博士回国创业,一年狂飙4倍... 文 | 硅基象限,作者 | 张思 一个50后海归博士,扎进全球仅剩三个玩家的“冷门”芯片赛道,做到...
3个月融资35亿,清华90后博... 极佳视界创始人 黄冠 作者 | 邱鑫浩 来源 | 邱处机 投资人正在押注物理AI的到来。 据《投资界...
12亿天价豪宅成交,又一个神秘... 文丨金融八卦女 月月 卖豪宅“续命”的大佬,又多了一个。 近日,香港地产圈诞生了2026年以来最贵...
今夜,欧美全线拉升!黄金白银,... 【导读】平静的一晚 中国基金报记者 泰勒 大家好啊,今晚美股休假,一起简单看看海外市场的表现吧。 7...
上半年880只新基成立创历史新... 财联社7月4日讯(记者 封其娟)2026 年上半年的公募发行市场,呈现出一幅“分裂式繁荣”的图景。 ...