西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」 西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」
admin
2023-09-30 15:49:00
0


新智元报道

编辑:LRS

【新智元导读】DALL·E 3让我们看到了生成+理解的大语言模型的魔力。就在其发布的同一天,国内的一个新工作引起了社区的关注:DreamLLM。DreamLLM实现了协同学习的多模态理解和生成的大一统,能端到端进行生成和理解,这是否有望成为未来「DALL·E 4」的技术路线?

想象一下,如果AI已经能够帮助你完成一个图文并茂的文档,而不是仅有文字部分的内容,你会拿来干什么?

例如,问问自己假期想去的旅游城市是什么样的?


或者聊聊自己喜欢的电影?


或者,你只需要你的大语言模型用图片给你展示一些你想象中的画面?(文生图)

an astronaut riding a horse in a photorealistic style/in the style of Pop Art/as a charcoal sketch/as a golden relief.

一位宇航员骑着一匹马的真实照片/波普艺术风格画(Pop Art)/炭笔素描/金色浮雕。


robots meditating in a vipassana retreat.

机器人在观禅闭关中冥想。


Downtown Istanbul/Austin/Beijing/LA at sunrise. detailed ink wash.

日出时的伊斯坦布尔/奥斯汀/北京/洛杉矶。详细的水墨画。


Oil-on-canvas painting of a blue night sky with roiling energy. A fuzzy and bright yellow crescent moon shining at the top. Below the exploding yellow stars and radiating swirls of blue, a distant village sits quietly on the right. Connecting earth and sky is a flame-like cypress tree with curling and swaying branches on the left. A church spire rises as a beacon over rolling blue hills.

油画作品,描绘了一个蓝色夜空中翻滚的能量。顶部有一轮模糊而明亮的黄色新月在闪耀。在爆炸的黄色星星和辐射着蓝色涡旋下方,一个遥远的村庄静静地坐落在右侧。连接大地和天空的是一棵像火焰般的柏树,在左侧卷曲摇摆着枝干。教堂尖塔高耸于起伏的蓝山之上,像一个灯塔。


这些结果来自于国内研究人员的最新研究DreamLLM,全新的多模态生成理解统一大模型。能生成能理解,图文并茂的内容也可以生成了!


论文地址:https://arxiv.org/abs/2309.11499

项目地址:https://dreamllm.github.io/

GitHub:https://github.com/RunpeiDong/DreamLLM

诸如DALL·E 3、Midjourney此类文生图模型,是否能对多模态大语言模型的理解起到帮助呢?在这篇论文中,研究人员提出了「协同多模态生成和理解」,即生成能够帮助理解,理解也能帮助生成。

正如费曼在1988年去世之前写在他的办公室黑板上的名言:「What I cannot create, I do not understand」。


这句话的含义是说,如果你不能创造一个东西,那么你就无法真正理解它。

费曼相信,真正的理解源于能够从头构建或重建某事物的能力。这是他的科学哲学的一个核心部分,也是他作为一位教师和科学家的教学方法的基础。

技术介绍

DreamLLM的模型作为一个多模态大语言模型,包含一个大语言模型逻辑核心、多模态输入编码器和数据生成解码器,其设计思想主要遵循两大原则:

生成一切

与生成中间图像语义表示(如CLIP嵌入)的现有工作不同,在训练过程中,DreamLLM不仅将所有模态的原始数据作为输入,而且以真正端到端的方式将其作为输出。其中的挑战在于使多模态大语言模型能够学习图像后验而不损害其理解能力。

为了解决这个问题,作者引入了可学习嵌入集合「dream queries」,这些嵌入封装了由多模态大语言模型编码的语义信息。这种方法避免了改变多模态大语言模型的输出空间。

然后,原始图像通过基于这些语义作为生成条件的Stable Diffusion扩散图像生成解码器进行解码生成。

通过预训练Stable Diffusion充当得分函数(「score function」),直接在像素空间中对图像后验进行建模,并借助得分蒸馏实现直接采样。

图文交错文档的生成式预训练(Interleaved-GPT, I-GPT)

DreamLLM经过训练,可以使用互联网上图文交错的多模态语料库进行生成式预训练,既编码又解码交错的图文多模态输入。

与现有方法中将多模态输入进行编码不同,解码交错的多模态输出具有挑战性,因为它涉及复杂的交错布局结构和对图像的长期上下文要求。

作者使用一个独特的标记来处理交错布局学习,该标记预测了图像在文本中的位置。利用DreamLLM大语言模型的因果关系特性,所有内容都是根据任意长度的历史多模态上下文生成的。

这种交错生成预训练(I-GPT)固有地形成了文档中图像和文本的所有联合、边际和条件分布,并导致了一种学习协同作用,在创造中促进使DreamLLM的理解,反之亦然。

下面这张图可以直观的看出DreamLLM和现有图文多模态大模型的差异:


(a)类似于CLIP的模型一般使用双塔结构明确对齐图文语义表示。

(b)类似于Flamingo/多模态大语言模型将图文表示编码至统一的流形空间。然而,这些模型缺乏完全自回归性能力,因为它们只输出语言。

(c)另一类工作将视觉输出与CLIP表示进行对齐,但此对齐发生在一个中间语义空间而不是原始数据空间。由于固有的模态差距,CLIP语义主要关注「共享模态知识」,往往忽视了可能增强多模态理解的「特定模态知识」。

另外,根据信息瓶颈理论,CLIP学习的图文「不变性」(invariance知识)目标会导致大量信息的丢失。

对齐CLIP也会导致像Emu这样的模型生成原始图像需要进行第二阶段扩散图像生成模型的微调,这些模型也无法生成原始的图文并茂的文档。

(d)相比较而言,DreamLLM以统一自回归方式生成原始语言和图像输入,实现了图文信号的完全自回归建模,因此天然支持图文并茂的文档生成。

实验结果

DreamLLM在多项零样本多模态图文理解和生成任务上取得先进的效果。

零样本多模态理解(文+图-> 文)


零样本文生图(文->图)


零样本in-context(上下文)图像编辑


零样本subject-driven(主体驱动)图像生成


零样本物体组合生成(文+图->图)


多模态上下文理解是多模态大语言模型的一个关键新兴能力。

虽然在上下文视觉问答方面已经取得了重大进展,但在上下文图像生成方面仍相对不足。DreamLLM的多模态上下文条件图像合成能力如上图所示,为该领域提供了有希望的见解。

然而,零样本上下文图像编辑、主题驱动的图像生成和组合式生成等任务中仍存在显著挑战,特别是没有像DreamBooth中的下游微调或Prompt2Prompt中的注意力修改技术。

尽管存在这些障碍,DreamLLM根据提供的图像上下文生成图像的能力。这种能力表明DreamLLM在保持主题、身份和语义上下文方面具有潜在的前景,从而为解决这些复杂任务铺平了一条新路。

多模态对话样例(文+图->文+图)

艺术和生活:


动物:


文字:


人文:


对比GPT-4



结论与讨论

DreamLLM首次实现了大语言模型LLM的具有协同促进作用的多模态内容创作和理解的学习,充分探索了多模态理解和生成的协同效应。

通过在多模态原始数据空间采样进行完全的自回归建模,在大量极易获取的互联网图文混排数据上训练,激发出诸如图文交互对话、图文并茂文档的自由生成、文生图、零样本subject-driven image generation等多模态理解和生成任务。

对比DALL·E 3的ChatGPT和生成的组合系统方案,DreamLLM迈向了更进一步的端到端学习,展现出未来可能超越DALL·E 3的巨大潜力。

当然,我们离人类水平的智能还有很长的距离。对于生成模型存在偏见、安全性和滥用问题也引起了关注,但是像DreamLLM这样的框架为未来更具能力和合作性的AI助手指明了方向。

该项工作对关键点是在图像和文本中共同训练生成能力可以带来更出色的理解力和创造力。

随着AI不断跨越多种形式,找到感知、推理和创作之间的协同效应将开辟前进之路。

这种多模态生成模型对我们与人工智能系统的互动方式可能具有革命性的影响。

想象一下,你可以要求个人助理不仅描述一个概念,还可以生成或编辑一张图片来说明它,或者通过描述而不是关键词在互联网上搜索媒体内容,实现视觉和语言的流畅共同理解和生成是迈向更自然、直观的人机交互的基石。

参考资料:

https://dreamllm.github.io/


相关内容

热门资讯

路易威登之家落地北京三里屯太古... 北京商报讯(记者 刘卓澜)12月19日,路易威登之家于北京三里屯太古里启幕。北京商报记者在现场看到,...
政策优势显著,发展机遇更多,国... 【环球时报记者 郭媛丹 环球时报驻俄罗斯特派记者 肖新新 环球时报驻法国特约记者 董铭】12月18日...
华大北斗冲刺港股:上半年营收4... 雷递网 雷建平 12月20日 深圳华大北斗科技股份有限公司(简称:“华大北斗”)日前更新招股书,准备...
深夜重磅!A股7900亿巨头,... A股,又要见证历史了! 本次交易对价的整体股份和现金支付比例分别为30%和70%,其中现金支付对价...
2025新消费大会:寻找新增量... 来源:21世纪经济报道 资料图片 12月17日,大消费行业“年度风向标”级别的会议——21世纪经济...
腾讯AI 的突围之战:双倍薪资... 出品 | 头部财经 作者 | 陈丽丽 AI赛道的人才争夺战,正在被腾讯的“钞能力”推向高潮。 过去几...
溜溜果园完成港股上市备案,今年... 来源:独角兽早知道 境外发行上市及境内未上市股份“全流通”备案通知书。溜溜果园将计划发行不超过19...
多家上市公司披露11月份经营数... 本报记者 桂小笋 截至12月18日,多家上市公司披露了前11个月经营相关数据。综合来看,这些数据展现...
信任透支后 谁还愿为“山姆”们... 曾经让消费者趋之若鹜的会员卡,如今在不少人手中渐渐失了温度;那些年被奉为“闭眼买”的品质信任,正被一...
澄天伟业:关于完成增选独立董事... 证券日报网讯 12月19日晚间,澄天伟业发布公告称,公司于2025年12月19日召开2025年第二次...
大参林:柯康保将其质押的300... 每经AI快讯,大参林(SH 603233,收盘价:18.45元)12月19日晚间发布公告称,2025...
日本11月核心CPI同比上涨3... 来源:环球市场播报 周五公布的数据显示,日本11月份核心消费者价格指数(CPI)同比上涨3.0%,连...
财通资管中证500指数增强型证... 1 公告基本信息 ■ 2 基金募集情况 ■ ■ 注:1、本基金合同生效前的律师费、会计师费、信息披露...
东方生物多家子公司获得多项国内... 12月19日晚间,东方生物发布公告称,公司全资子公司Healgen Scientific LLC(美...
ST人福:HW252001片获... 12月19日晚间,ST人福发布公告称,公司全资子公司湖北生物医药产业技术研究院有限公司近日收到国家药...
渤海化学终止重大资产重组 北京商报讯(记者 马换换 王蔓蕾)12月19日晚间,渤海化学(600800)披露公告称,公司终止筹划...
大麻行业密集游说后,特朗普下调... 【文/观察者网 林琛力】在大麻行业进行了密集的游说活动后,当地时间12月18日,美国总统特朗普签署行...
“别告诉银行投资的事儿!” 民... 邮储银行柜员发现 一位女士神色匆忙 办理大额转账 却对收款方含糊其词 银行柜员立即联系了 上海市公安...
最高涨超450% 光通信电芯片... 上证报中国证券网讯(陈铭 记者 杨烨)12月19日,优迅股份在上交所科创板挂牌上市,开盘报240.0...
年度盘点 | 回看2025:I... 编者按 全球ICT产业正迎来一场决定未来十年格局的技术竞速,欧美正聚焦AI算力与6G研发争夺标准话语...