西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」 西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」
admin
2023-09-30 15:49:00
0


新智元报道

编辑:LRS

【新智元导读】DALL·E 3让我们看到了生成+理解的大语言模型的魔力。就在其发布的同一天,国内的一个新工作引起了社区的关注:DreamLLM。DreamLLM实现了协同学习的多模态理解和生成的大一统,能端到端进行生成和理解,这是否有望成为未来「DALL·E 4」的技术路线?

想象一下,如果AI已经能够帮助你完成一个图文并茂的文档,而不是仅有文字部分的内容,你会拿来干什么?

例如,问问自己假期想去的旅游城市是什么样的?


或者聊聊自己喜欢的电影?


或者,你只需要你的大语言模型用图片给你展示一些你想象中的画面?(文生图)

an astronaut riding a horse in a photorealistic style/in the style of Pop Art/as a charcoal sketch/as a golden relief.

一位宇航员骑着一匹马的真实照片/波普艺术风格画(Pop Art)/炭笔素描/金色浮雕。


robots meditating in a vipassana retreat.

机器人在观禅闭关中冥想。


Downtown Istanbul/Austin/Beijing/LA at sunrise. detailed ink wash.

日出时的伊斯坦布尔/奥斯汀/北京/洛杉矶。详细的水墨画。


Oil-on-canvas painting of a blue night sky with roiling energy. A fuzzy and bright yellow crescent moon shining at the top. Below the exploding yellow stars and radiating swirls of blue, a distant village sits quietly on the right. Connecting earth and sky is a flame-like cypress tree with curling and swaying branches on the left. A church spire rises as a beacon over rolling blue hills.

油画作品,描绘了一个蓝色夜空中翻滚的能量。顶部有一轮模糊而明亮的黄色新月在闪耀。在爆炸的黄色星星和辐射着蓝色涡旋下方,一个遥远的村庄静静地坐落在右侧。连接大地和天空的是一棵像火焰般的柏树,在左侧卷曲摇摆着枝干。教堂尖塔高耸于起伏的蓝山之上,像一个灯塔。


这些结果来自于国内研究人员的最新研究DreamLLM,全新的多模态生成理解统一大模型。能生成能理解,图文并茂的内容也可以生成了!


论文地址:https://arxiv.org/abs/2309.11499

项目地址:https://dreamllm.github.io/

GitHub:https://github.com/RunpeiDong/DreamLLM

诸如DALL·E 3、Midjourney此类文生图模型,是否能对多模态大语言模型的理解起到帮助呢?在这篇论文中,研究人员提出了「协同多模态生成和理解」,即生成能够帮助理解,理解也能帮助生成。

正如费曼在1988年去世之前写在他的办公室黑板上的名言:「What I cannot create, I do not understand」。


这句话的含义是说,如果你不能创造一个东西,那么你就无法真正理解它。

费曼相信,真正的理解源于能够从头构建或重建某事物的能力。这是他的科学哲学的一个核心部分,也是他作为一位教师和科学家的教学方法的基础。

技术介绍

DreamLLM的模型作为一个多模态大语言模型,包含一个大语言模型逻辑核心、多模态输入编码器和数据生成解码器,其设计思想主要遵循两大原则:

生成一切

与生成中间图像语义表示(如CLIP嵌入)的现有工作不同,在训练过程中,DreamLLM不仅将所有模态的原始数据作为输入,而且以真正端到端的方式将其作为输出。其中的挑战在于使多模态大语言模型能够学习图像后验而不损害其理解能力。

为了解决这个问题,作者引入了可学习嵌入集合「dream queries」,这些嵌入封装了由多模态大语言模型编码的语义信息。这种方法避免了改变多模态大语言模型的输出空间。

然后,原始图像通过基于这些语义作为生成条件的Stable Diffusion扩散图像生成解码器进行解码生成。

通过预训练Stable Diffusion充当得分函数(「score function」),直接在像素空间中对图像后验进行建模,并借助得分蒸馏实现直接采样。

图文交错文档的生成式预训练(Interleaved-GPT, I-GPT)

DreamLLM经过训练,可以使用互联网上图文交错的多模态语料库进行生成式预训练,既编码又解码交错的图文多模态输入。

与现有方法中将多模态输入进行编码不同,解码交错的多模态输出具有挑战性,因为它涉及复杂的交错布局结构和对图像的长期上下文要求。

作者使用一个独特的标记来处理交错布局学习,该标记预测了图像在文本中的位置。利用DreamLLM大语言模型的因果关系特性,所有内容都是根据任意长度的历史多模态上下文生成的。

这种交错生成预训练(I-GPT)固有地形成了文档中图像和文本的所有联合、边际和条件分布,并导致了一种学习协同作用,在创造中促进使DreamLLM的理解,反之亦然。

下面这张图可以直观的看出DreamLLM和现有图文多模态大模型的差异:


(a)类似于CLIP的模型一般使用双塔结构明确对齐图文语义表示。

(b)类似于Flamingo/多模态大语言模型将图文表示编码至统一的流形空间。然而,这些模型缺乏完全自回归性能力,因为它们只输出语言。

(c)另一类工作将视觉输出与CLIP表示进行对齐,但此对齐发生在一个中间语义空间而不是原始数据空间。由于固有的模态差距,CLIP语义主要关注「共享模态知识」,往往忽视了可能增强多模态理解的「特定模态知识」。

另外,根据信息瓶颈理论,CLIP学习的图文「不变性」(invariance知识)目标会导致大量信息的丢失。

对齐CLIP也会导致像Emu这样的模型生成原始图像需要进行第二阶段扩散图像生成模型的微调,这些模型也无法生成原始的图文并茂的文档。

(d)相比较而言,DreamLLM以统一自回归方式生成原始语言和图像输入,实现了图文信号的完全自回归建模,因此天然支持图文并茂的文档生成。

实验结果

DreamLLM在多项零样本多模态图文理解和生成任务上取得先进的效果。

零样本多模态理解(文+图-> 文)


零样本文生图(文->图)


零样本in-context(上下文)图像编辑


零样本subject-driven(主体驱动)图像生成


零样本物体组合生成(文+图->图)


多模态上下文理解是多模态大语言模型的一个关键新兴能力。

虽然在上下文视觉问答方面已经取得了重大进展,但在上下文图像生成方面仍相对不足。DreamLLM的多模态上下文条件图像合成能力如上图所示,为该领域提供了有希望的见解。

然而,零样本上下文图像编辑、主题驱动的图像生成和组合式生成等任务中仍存在显著挑战,特别是没有像DreamBooth中的下游微调或Prompt2Prompt中的注意力修改技术。

尽管存在这些障碍,DreamLLM根据提供的图像上下文生成图像的能力。这种能力表明DreamLLM在保持主题、身份和语义上下文方面具有潜在的前景,从而为解决这些复杂任务铺平了一条新路。

多模态对话样例(文+图->文+图)

艺术和生活:


动物:


文字:


人文:


对比GPT-4



结论与讨论

DreamLLM首次实现了大语言模型LLM的具有协同促进作用的多模态内容创作和理解的学习,充分探索了多模态理解和生成的协同效应。

通过在多模态原始数据空间采样进行完全的自回归建模,在大量极易获取的互联网图文混排数据上训练,激发出诸如图文交互对话、图文并茂文档的自由生成、文生图、零样本subject-driven image generation等多模态理解和生成任务。

对比DALL·E 3的ChatGPT和生成的组合系统方案,DreamLLM迈向了更进一步的端到端学习,展现出未来可能超越DALL·E 3的巨大潜力。

当然,我们离人类水平的智能还有很长的距离。对于生成模型存在偏见、安全性和滥用问题也引起了关注,但是像DreamLLM这样的框架为未来更具能力和合作性的AI助手指明了方向。

该项工作对关键点是在图像和文本中共同训练生成能力可以带来更出色的理解力和创造力。

随着AI不断跨越多种形式,找到感知、推理和创作之间的协同效应将开辟前进之路。

这种多模态生成模型对我们与人工智能系统的互动方式可能具有革命性的影响。

想象一下,你可以要求个人助理不仅描述一个概念,还可以生成或编辑一张图片来说明它,或者通过描述而不是关键词在互联网上搜索媒体内容,实现视觉和语言的流畅共同理解和生成是迈向更自然、直观的人机交互的基石。

参考资料:

https://dreamllm.github.io/


相关内容

热门资讯

优化保障体系释放消费潜能 在浙江省湖州市长兴县,医保村级服务站点工作人员给村民办理业务。新华社记者 徐 昱摄 近日,中国人民银...
高盛:中国上市公司今年派息或达... 财联社7月8日讯(编辑 刘蕊)美东时间周日,高盛研究团队发布名为《奏响中国现金交响乐中的回报乐章(C...
债券通"南向通&qu... 中国人民银行金融市场司副司长江会芬在债券通周年论坛2025上宣布了三项新的对外开放优化措施。这些措施...
深夜,中国资产大涨! 纳斯达克中国金龙指数一度涨近2%,热门中概股集体大涨。 美国总统特朗普的新关税政策让美股周一(7月7...
特朗普威胁对铜和药品征收高额关... 隔夜股市 美股三大指数收盘涨跌互现,道指跌0.37%,纳指涨0.03%,标普500指数跌0.07%...
江苏银行位列“全球银行1000... 7月2日,英国《银行家》杂志(TheBanker)公布了2025年全球银行1000强(Top1000...
落袋约1.76亿元!高伟达控股... 7月8日晚间,金融科技股高伟达(300465)公告显示,控股股东鹰潭市鹰高投资咨询有限公司(以下简称...
2025年毅达资本行业分享沙龙... 盛夏时节,蝉鸣荔熟。2025 年 6 月 27 日,2025 年毅达资本行业分享沙龙暨大湾区系列基金...
沪市新兴产业集群崛起 构建新质... 证券时报记者 陈雨康 近年来,沪市公司创新研发力度持续增长。数据显示,2024年沪市公司研发投入超一...
中公教育副总何有立去年薪酬上涨... 运营商财经网 实习生郑永杰/文 近期,中公教育公布了2024年年报。据年报显示,中公教育2024年全...
多省电网负荷创历史新高!华银电... 本文来源:时代财经 作者:周立 图片来源:图虫创意 冬炒煤炭夏炒电,亘古不变的投资理念再次应验。 ...
恒玄科技实控人及一致行动人拟减... 《科创板日报》7月7日讯(记者 吴旭光)7月7日,恒玄科技股价收跌0.78%,报226.00元/股,...
股市必读:浙数文化(60063... 截至2025年7月8日收盘,浙数文化(600633)报收于13.89元,上涨3.27%,换手率4.2...
纯苯期货在大商所正式挂牌上市 本文转自【新华社】; 新华社大连7月8日电(记者刘羽佳、郭翔)7月8日9时,纯苯期货正式在大连商品交...
中美史克终结近40年合资历史!... 中国医药市场在过去近40年发生了巨大的变化,最初以大输液、抗生素、抗真菌药、止痛药、消化道药物等产品...
原创 这... 在十位开国大将中,来自八路军的将领有六位,分别是:陈赓、谭政、萧劲光、罗瑞卿、王树声和许光达;而出身...
兵器工业集团,董事长调整! 7月8日,中国兵器工业集团有限公司发布公告称,7月4日,根据党中央决定:周治平任中国兵器工业集团有限...
年内第5只!又有银行可转债触发... 来源:金融时报 7月4日晚间,齐鲁银行发布公告称,“齐鲁转债”已触发有条件赎回条款,将行使提前赎回权...
友发集团:部分实际控制人减持公... 每经AI快讯,友发集团7月8日晚间发布公告称,公司于2025年7月8日收到部分实际控制人函告,自20...
原创 去... 去年四月底,房价攀至历史高点。王勇抓住时机,将名下的一套老房以380万元的高价售出。然而,此后房价持...