谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说 璋锋瓕transformer 璋锋瓕transformer妯″瀷
admin
2024-04-12 23:28:29
0

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌大改Transformer,“无限”长度上下文来了。

现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。

8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA

这就是谷歌最新提出的Infini-attention机制(无限注意力)。



它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现114倍压缩比

什么概念?

就是在内存大小不变的情况下,放进去114倍多的信息。好比一个存放100本书的图书馆,通过新技术能存储11400本书了。

这项最新成果立马引发学术圈关注,大佬纷纷围观。



加之最近DeepMind也改进了Transformer架构,使其可以动态分配计算资源,以此提高训练效率。

有人感慨,基于最近几个新进展,感觉大模型越来越像一个包含高度可替换、商品化组件的软件栈了。



引入压缩记忆

该论文核心提出了一种新机制Infini-attention。

它通过将压缩记忆(compressive memory)整合到线性注意力机制中,用来处理无限长上下文。

压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能减少内存占用和计算成本。

线性注意力机制不同于传统Transformer中的二次方复杂度注意力机制,它能通过更小的计算开销来检索和更新长期记忆。

在Infini-attention中,旧的KV状态({KV}s-1)被存储在压缩记忆中,而不是被丢弃。

通过将查询与压缩记忆中存储的键值进行匹配,模型就可以检索到相关的值。

PE表示位置嵌入,用于给模型提供序列中元素的位置信息。



对比来看Transformer-XL,它只缓存最后一段KV状态,在处理新的序列段时就会丢弃旧的键值对,所以它只能保留最近一段的上下文信息。



对比几种不同Transformer模型可处理上下文的长度和内存占用情况。

Infini-attention能在内存占用低的情况下,有效处理非常长的序列。



Infini-attention在训练后,分化出了两种不同类型的注意力头,它们协同处理长期和短期上下文信息。

专门化的头(Specialized heads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gating score)接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息。混合头(Mixer heads):这些头的门控得分接近0.5,它们的作用是将当前的上下文信息和长期记忆内容聚合到单一的输出中。



研究团队将训练长度增加到100K,在Arxiv-math数据集上进行训练。

在长下文语言建模任务中,Infini-attention在保持低内存占用的同时,困惑度更低。

对比来看,同样情况下Memorizing Transformer存储参数所需的内存是Infini-attention的114倍。

消融实验比较了“线性”和“线性+增量”记忆两种模式,结果显示性能相当。



实验结果显示,即使在输入只有5K进行微调的情况下,Infini-Transformer可成功搞定1M长度(100万)的passkey检索任务。



在处理长达500K长度的书籍摘要任务时,Infini-Transformer达到最新SOTA。



Bard成员参与研究

该研究由谷歌团队带来。

其中一位作者(Manaal Faruqui)在Bard团队,领导研究Bard的模型质量、指令遵循等问题。



最近,DeepMind的一项工作也关注到了高效处理长序列数据上。他们提出了两个新的RNN模型,在高效处理长序列时还实现了和Transformer模型相当的性能和效率。



感觉到谷歌最近的研究重点之一就是长文本,论文在陆续公布。

网友觉得,很难了解哪些是真正开始推行使用的,哪些只是一些研究员心血来潮的成果。

不过想象一下,如果有一些初创公司专门做内存数据库,但是模型能已经能实现无限内存了,这可真是太有趣了。



论文地址:
https://arxiv.org/abs/2404.07143

参考链接:
[1]https://twitter.com/Joby_Fi/status/1778240236201386072
[2]https://twitter.com/omarsar0/status/1778480897198612839
[3]https://twitter.com/swyx/status/1778553757762252863

相关内容

热门资讯

政策催化碳中和产业链,新能源E... 截至2月24日10点30分,上证指数涨0.98%,深证成指涨1.55%,创业板指涨1.36%。ETF...
原创 不... 李保田已经80岁了,现在几乎不再拍戏。他的晚年过得十分自在,孙女经常陪伴在侧,生活也因此充满了笑声与...
制造业与服务业如何在医疗领域深... 2月24日,广东再度擂响高质量发展的战鼓。在全省高质量发展大会上,“制造业与服务业协同发展”被置于突...
ESG强信披来了!2025年E... 来源:经济观察网 回顾2025年ESG发展,国际分化与监管细化并存。欧美政策摇摆导致市场短期调整,...
原创 6... 港股迎来“国产AI大模型”时刻。 2026年2月20日,丙午马年首个交易日,港股迎来了“国产AI大...
超45亿投入争夺全民入口 AI... [ 豆包方面披露,除夕当天豆包AI互动总数达19亿次。春节场景下的AI图片生成、拜年祝福等玩法吸引用...
全球船东看向中国 在江西省九江市都昌县造船总厂船舶制造工地,工人进行刷漆作业。 傅建斌摄(新华社发) 近日,由中国船...
港股马年开盘大分化:AI狂涨、... 港股马年首个交易日(正月初四)走出极致割裂行情:恒生科技指数走弱,AI原生模型、人形机器人全线暴涨,...
优化营商环境 激活发展动能·企... (来源:河北新闻网) 转自:河北新闻网 河北永洋特钢集团有限公司董事长杜庆申 专班贴心服务,企业发展...
机构持续看好A股后市表现,中证... 截至2月24日10点15分,上证指数涨0.99%,深证成指涨1.63%,创业板指涨1.69%。油气开...
大悦城控股原董事长陈朗突然间宣... 运营商财经网 章少霞/文 近期,大悦城控股发布公告称,董事陈朗因已达退休年龄,申请辞去公司董事职务,...
“世界工厂”的跨境电商创业者:... 界面新闻记者 | 张熹珑 2025年对跨境电商从业者是充满起伏的一年。全球贸易壁垒抬升、欧美终端消...
【政策】“十五五”期间支持科技... 财政部 海关总署 税务总局关于“十五五”期间支持科技创新进口税收优惠政策的通知财关税〔2026〕7号...
雷军发开工红包,并公布新一代S... 今日,小米汽车创始人雷军发文。 马年开工第一天,他和高管团队一起,给小米同学们发开工红包,并祝福大家...
游戏概念股走低,相关ETF跌约... 游戏概念股走低,光线传媒跌20%,浙数文化跌超8%,巨人网络、恺英网络跌超5%。 受盘面影响,游戏相...
A股开门红!三大股指集体上涨,... 2月24日,A股早盘高开,三大股指盘初震荡上涨,油气、贵金属等板块大涨,算力硬件股活跃,影视股普遍下...
【立方早知道】马年A股怎么走?... 第 820 期 2026-02-24 焦点事件 A股马年开市在即!节后如何布局,哪些方向值得关...
又一家日系消费电子巨头撤退,松... 2月24日,据报道,日本电子巨头松下控股正式宣布,2026年4月起将北美和欧洲市场的电视销售业务全面...
袁记云饺IPO:一碗饺子的资本... 一碗饺子能承载多少资本想象?袁记云饺给出了答案:35亿估值、4266家门店,以及一场“危机”过了的食...
内需复苏叠加“反内卷” 聚焦两... 证券时报记者 吴琦 对于马年的投资机会,鹏华基金权益投资二部副总监、基金经理陈金伟最看好的两个方向是...