多模态大模型最全综述来了!7位微软研究员大力合作,成文119页 多模态大模型最全综述来了!7位微软研究员大力合作,成文119页
admin
2023-09-26 04:15:43
0

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

多模态大模型最全综述来了!

微软7位华人研究员撰写,足足119页——



它从目前已经完善的还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:

视觉理解视觉生成统一视觉模型LLM加持的多模态大模型多模态agent



并重点关注到一个现象:

多模态基础模型已经从专用走向通用

Ps. 这也是为什么论文开头作者就直接画了一个哆啦A梦的形象。

谁适合阅读这份综述(报告)?

用微软的原话来说:

只要你想学习多模态基础模型的基础知识和最新进展,不管你是专业研究员,还是在校学生,它都是你的“菜”。

一起来看看~

一文摸清多模态大模型现状

这五个具体主题中的前2个为目前已经成熟的领域,后3个则还属于前沿领域。

1、视觉理解

这部分的核心问题是如何预训练一个强大的图像理解backbone。

如下图所示,根据用于训练模型的监督信号的不同,我们可以将方法分为三类:
标签监督、语言监督(以CLIP为代表)和只有图像的自监督。

其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。

在这些方法之外,文章也进一步讨论了多模态融合、区域级和像素级图像理解等类别的预训练方法。



还列出了以上这些方法各自的代表作品。



2、视觉生成

这个主题是AIGC的核心,不限于图像生成,还包括视频、3D点云图等等。

并且它的用处不止于艺术、设计等领域——还非常有助于合成训练数据,直接帮助我们实现多模态内容理解和生成的闭环。

在这部分,作者重点讨论了生成与人类意图严格一致的效果的重要性和方法(重点是图像生成)。

具体则从空间可控生成、基于文本再编辑、更好地遵循文本提示和生成概念定制(concept customization)四个方面展开。



在本节最后,作者还分享了他们对当前研究趋势和短期未来研究方向的看法。

即,开发一个通用的文生图模型,它可以更好地遵循人类的意图,并使上述四个方向都能应用得更加灵活并可替代。

同样列出了四个方向的各自代表作:



3、统一视觉模型

这部分讨论了构建统一视觉模型的挑战:

一是输入类型不同;

二是不同的任务需要不同的粒度,输出也要求不同的格式;

三是在建模之外,数据也有挑战。

比如不同类型的标签注释成本差异很大,收集成本比文本数据高得多,这导致视觉数据的规模通常比文本语料库小得多。

不过,尽管挑战多多,作者指出:

CV领域对于开发通用、统一的视觉系统的兴趣是越来越高涨,还衍生出来三类趋势:



一是从闭集(closed-set)到开集(open-set),它可以更好地将文本和视觉匹配起来。

二是从特定任务到通用能力,这个转变最重要的原因还是因为为每一项新任务都开发一个新模型的成本实在太高了;

三是从静态模型到可提示模型,LLM可以采用不同的语言和上下文提示作为输入,并在不进行微调的情况下产生用户想要的输出。我们要打造的通用视觉模型应该具有相同的上下文学习能力。

4、LLM加持的多模态大模型

本节全面探讨多模态大模型。

先是深入研究背景和代表实例,并讨论OpenAI的多模态研究进展,确定该领域现有的研究空白。

接下来作者详细考察了大语言模型中指令微调的重要性。

再接着,作者探讨了多模态大模型中的指令微调工作,包括原理、意义和应用。

最后,涉及多模态模型领域中的一些高阶主题,方便我们进行更深入的了解,包括:

更多超越视觉和语言的模态、多模态的上下文学习、参数高效训练以及Benchmark等内容。

5、多模态agent

所谓多模态agent,就是一种将不同的多模态专家与LLM联系起来解决复杂多模态理解问题的办法。

这部分,作者主要先带大家回顾了这种模式的转变,总结该方法与传统方法的根本差异。

然后以MM-REACT为代表带大家看了这种方法的具体运作方式。

接着全面总结了如何构建多模态agent,它在多模态理解方面的新兴能力,以及如何轻松扩展到包含最新、最强的LLM和潜在的数百万种工具中。

当然,最后也是一些高阶主题讨论,包括如何改进/评估多多模态agent,由它建成的各种应用程序等。



作者介绍

本报告一共7位作者。

发起人和整体负责人为Chunyuan Li。

他是微软雷德蒙德首席研究员,博士毕业于杜克大学,最近研究兴趣为CV和NLP中的大规模预训练。

他负责了开头介绍和结尾总结以及“利用LLM训练的多模态大模型”这章的撰写。



核心作者一共4位:

Zhe Gan

目前已进入Apple AI/ML工作,负责大规模视觉和多模态基础模型研究。此前是Microsoft Azure AI的首席研究员,北大本硕毕业,杜克大学博士毕业。

Zhengyuan Yang

微软高级研究员,罗切斯特大学博士毕业,获得了ACM SIGMM杰出博士奖等荣誉,本科就读于中科大。

Jianwei Yang

微软雷德蒙德研究院深度学习小组首席研究员。佐治亚理工学院博士毕业。

Linjie Li(女)

Microsoft Cloud & AI计算机视觉组研究员,普渡大学硕士毕业。

他们分别负责了剩下四个主题章节的撰写。

综述地址:
https://arxiv.org/abs/2309.10020

相关内容

热门资讯

糖市早评:波动加剧202507... 来源:沐甜科技 原糖在持续下跌后报复性反弹,十月合约昨晚收出一根吞没阳线,盘中攻破16美分整数关口阻...
大商所期货仓单:多品种有增减,... 【7月4日大商所多品种仓单有变化】7月4日大商所品种仓单及变化公布,玉米淀粉期货仓单22643手,环...
杭州地王有动作了!楼面价8.8... 潮新闻客户端 记者 印梦怡 今年3月28日,杭州地价首次突破“8字头”。建发以楼面价88029元/㎡...
吐车洗车费,跨城返程费,该由谁... 6月27日,滴滴开放日“司机体验监管员评审会”第二期活动在广东中山举办。现场,30多位司机代表、乘客...
重庆8岁女孩被邻居带到长江游泳... 极目新闻记者 肖名远 7月1日,回重庆丰都县外婆家过暑假的8岁女孩萌萌(化名),在长江中不幸溺亡。4...
高频交易频率限速?量化私募再引... 随着《程序化交易管理实施细则》(下称《实施细则》)正式实施日的临近,市场近期流出传言:“高频交易频率...
【世界说】摩根大通:关税带来高... 中国日报网7月4日电 据美联社2日报道,摩根大通研究所(JPMorganChase Institut...
4连板创新药牛股,原因曝光! 【导读】塞力医疗发布股票异常波动公告,参股公司降压疫苗新药临床试验获受理 中国基金报记者 卢鸰 7月...
昆明璞域 ONE 首开登顶改善... 在当前房地产市场深度调整,改善型需求逐渐成为市场主力的背景下,各大房企纷纷发力改善赛道。然而,如何在...
ETF互联互通“开闸”三周年 ... 2025年7月4日,ETF互联互通迎来“开闸”3周年。3年来,“ETF通”交易热度高涨,成交金额持续...
盛京银行拓展零售业务,2024... 瑞财经 严明会近日,盛京银行发布年报。从财报上看,盛京银行对公业务、零售业务均增长乏力。2024年,...
涉及低空载人飞行和驾驶员培育!... 7月4日,粤港澳大湾区低空经济产业联盟合作交流会暨广州开发区低空产业对接会在广州黄埔举办。当天正值该...
华福证券53岁总裁黄德良升任董... 瑞财经 王敏 7月4日,华福证券有限责任公司(以下简称“华福证券”)发布关于选举董事长暨变更法定代表...
华为工程师卖毫米波雷达,年入3... 不跟巨头抢激光雷达,另辟蹊径做毫米波雷达。 作者丨 祝枝杉 深圳,又跑出一只未来独角兽。 近日,深圳...
盘中跳水量化背锅?机构:新规影... 图片来源:视觉中国 蓝鲸新闻7月4日讯(记者 敖玉连)7月4日,A股盘中跳水,市场部分声音将“锅”甩...
600962,重大资产重组!拟... 国投中鲁重大资产重组将注入国投集团优质资产。 以收购中国电子工程设计院股份有限公司(简称“电子院”)...
冯来法已任国家能源投资集团总经... 【大河财立方消息】7月4日,国家能源投资集团官网显示,冯来法已任国家能源投资集团董事、总经理、党组副...
中欧基金葛兰在管规模最大产品增... 中欧基金投资总监葛兰在管规模最大基金增聘基金经理。 7月4日晚间,中欧医疗健康混合发布公告称,增聘...
芯动联科、惠而浦上半年业绩大幅... 今日焦点惠而浦:上半年净利润同比预增559%左右 惠而浦公告称,公司预计2025年半年度实现归属于...
钢铁电商平台寻找新故事:找钢集... 国内头部钢铁电商平台正在寻找钢铁之外的新故事。 7月2日,找钢集团-W(06676.HK)发布公告称...