国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题 国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题
admin
2024-04-26 01:19:41
0


智东西
编辑 ZeR0

奔向通用人工智能,大模型又迈出一大步。

智东西4月25日报道,近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。

Vitron解决了困扰大语言模型产业已久的图像/视频模型割裂问题,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行全面的理解、生成、分割和编辑等任务,能处理复杂的视觉任务,擅长视觉理解和任务执行,同时支持与用户的连续操作,实现了灵活的人机互动。


论文链接:https://is.gd/aGu0VV
开源代码:https://github.com/SkyworkAI/Vitron

该模型在四大视觉相关任务的功能支持及其关键优势如下:


这展示了通向更统一的视觉多模态通用模型的巨大潜力,为下一代通用视觉大模型的终极形态奠定了基础。

一、应对视觉任务关键挑战,提出大一统的多模态大语言模型

构建更通用、更强大的多模态大语言模型(MLLM)被视作通向通用人工智能(AGI)的必经之路。

通过引入能进行视觉感知的模块,扩展纯语言基础大语言模型(LLM)至MLLM,近年来有很多擅长图像理解的研究成果冒出,比如如BLIP-2、LLaVA、MiniGPT-4等。专注于视频理解的MLLM也陆续面世,包括VideoChat、Video-LLaMA和Video-LLaVA等等。

研究人员主要从两个维度试图进一步扩展MLLM的能力。

一是尝试深化MLLMs对视觉的理解。从粗略的实例级理解过渡到对图像的像素级细粒度理解,从而实现视觉区域定位能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。

二是尝试扩展MLLM可以支持的视觉功能。部分研究已经开始研究让MLLM不仅理解输入视觉信号,还能支持生成输出视觉内容。比如,GILL、Emu等模型能够灵活生成图像内容,GPT4Video、NExT-GPT实现了视频生成。

当前AI社区认为视觉MLLMs必然会朝着高度统一、能力更强的方向发展。

这条路存在一些关键挑战。比如很大一部分工作都没有实现细粒度像素级别的视觉理解,或者缺乏对图像和视频的统一支持,或者对于各种视觉任务的支持不充分,离通用大模型相差甚远。

下表简单归纳了现有部分视觉MLLM模型的能力:


研究人员认为,未来MLLM应该是一个通用大语言模型,能覆盖更广泛的视觉任务和操作范围,实现对所有视觉相关任务的统一支持,达到“one for all”的能力。这对实际应用尤其是在经常涉及一系列迭代和交互操作的视觉创作中至关重要。

例如,用户通常首先从文本开始,通过文生图,将一个想法转化为视觉内容;然后通过进一步的细粒度图像编辑来完善初始想法,添加更多细节;接着通过图像生成视频来创建动态内容;最后进行几轮迭代交互,如视频编辑,完善创作。

为了弥补上述差距,研究团队提出一种通用的像素级视觉MLLM——Vitron。

二、Vitron系统架构包含三大模块,模型训练有三个阶段

Vitron采用了与现有相关MLLM相似的架构,包括三个关键部分:1) 前端视觉&语言编码模块;2) 中心LLM理解和文本生成模块;3) 后端用户响应和模块调用以进行视觉操控模块。


▲Vitron整体框架

前端模块:视觉-语言编码。为了感知图像和视频模态信号并支持细粒度用户视觉输入,集成了图像编码器、视频编码器、区域框/草图编码器。中心模块:核心LLM。采用Vicuna(7B,1.5)来实现理解、推理、决策制定和多轮用户交互。后端模块:用户响应与模块调用。采用以文本为中心的调用策略,整合现成的几个强大先进(SoTA)的图像和视频处理模块,用于解码和执行从低层到高层的一系列视觉终端任务。通过采用以文本为中心的模块集成调用方法,不仅实现了系统统一,还确保了对齐效率和系统可扩展性。


基于上述架构,再对Vitron进行训练微调,实现更强的视觉理解和任务执行能力。其模型训练主要包括三个阶段。

步骤一:视觉-语言整体对齐学习。将输入的视觉语言特征映射到一个统一的特征空间中,从而使其能够有效理解输入的多模态信号。这是一种粗粒度的视觉-语言对齐学习,可以让系统具备整体上有效处理传入的视觉信号。研究人员采用了现存的图像-标题对(CC3M)、视频-标题对(Webvid)和区域-标题对(RefCOCO)的数据集进行训练。

步骤二:细粒度的时空视觉定位指令微调。系统采用了调用外部模块方式来执行各种像素级视觉任务,但LLM本身并未经过任何细粒度的视觉训练,这将会阻碍了系统实现真正的像素级视觉理解。为此,研究人员提出了一种细粒度的时空视觉定位指令微调训练,核心思想是使LLM能够定位图像的细粒度空间性和视频的具体时序特性。

步骤三:输出端面向命令调用的指令微调。上述第二阶段的训练赋予了LLM和前端编码器在像素级别理解视觉的能力。这最后一步,面向命令调用的指令微调,旨在让系统具备精确执行命令的能力,允许LLM生成适当且正确的调用文本。

由于不同的终端视觉任务可能需要不同的调用命令,为了统一这一点,研究人员提出将LLM的响应输出标准化为结构化文本格式,其中包括:

用户响应输出,直接回复用户的输入。模块名称,指示将要执行的功能或任务。调用命令,触发任务模块的元指令。区域(可选输出),指定某些任务所需的细粒度视觉特征,例如在视频跟踪或视觉编辑中,后端模块需要这些信息。对于区域,基于LLM的像素级理解,将输出由坐标描述的边界框。


三、评估四大主要视觉任务性能,展示灵活人机交互能力

研究人员基于Vitron在22个常见的基准数据集、12个图像/视频视觉任务上进行了广泛的实验评估。Vitron展现出在四大主要视觉任务群组(分割、理解、内容生成和编辑)中的出色性能,同时其具备灵活的人机交互能力。

以下代表性地展示了一些定性比较结果:

视觉分割:


▲图像指代图像分割结果

细粒度视觉理解:


▲图像目标指代理解结果


▲视频QA结果

视频生成:


▲文生图


▲文生视频


▲图生视频

视觉编辑:


▲图像编辑结果

具体更多详细实验内容和细节参见论文。

结语:未来可探索三大方向,系统架构、用户交互性、模态能力

Vitron在综合性、技术创新、人机交互和应用潜力等方面展现出独特的优势和潜力,有助于推动了多模态大模型的发展,并为未来的视觉大模型研究提供了一个新的方向。

昆仑万维2050全球研究院一直致力于打造一家面向未来世界的卓越科学研究机构,与科学社区共同跨越“奇点”,探索未知世界,创造美好未来。该研究院此前已发布并开源了数字智能体研发工具包AgentStudio,未来还将持续推动AI技术突破。

其团队联合研发的Vitron系统表现出强大的通用能力,但前方依然存在一些局限性。

研究人员列出了未来可进一步探索的三个方向:

1、系统架构

Vitron系统仍采用半联合、半代理的方式来调用外部工具。虽然这种基于调用的方法便于扩展和替换潜在模块,但这也意味着这种流水线结构的后端模块不参与到前端与LLM核心模块的联合学习。这一限制不利于系统的整体学习,这意味着不同视觉任务的性能上限将受到后端模块的限制。

未来的工作应将各种视觉任务模块整合成一个统一的单元。实现对图像和视频的统一理解和输出,同时通过单一生成范式支持生成和编辑能力,仍然是一个挑战。

目前一种有希望的方式是结合modality-persistent的tokenization, 提升系统在不同输入和输出以及各种任务上的统一化。

2、用户交互性

与之前专注于单一视觉任务的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促进LLM和用户之间的深度交互,类似于行业内的OpenAI的DALL-E系列,Midjourney等。实现最佳的用户交互性是本项工作的核心目标之一。

Vitron利用现有的基于语言的LLM,结合适当的指令调整,以实现一定程度的交互。例如,系统可以灵活地响应用户输入的任何预期消息,产生相应的视觉操作结果,而不要求用户输入精确匹配后端模块条件。

然而,该工作在增强交互性方面仍有很大的提升空间。例如,从闭源的Midjourney系统汲取灵感,不论LLM在每一步做出何种决定,系统都应积极向用户提供反馈,以确保其行动和决策与用户意图一致。

3、模态能力

当前,Vitron集成了一个7B的Vicuna模型,其可能对其理解语言、图像和视频的能力会产生某些限制。

未来的探索方向可以发展一个全面的端到端系统,比如扩大模型的规模,以实现对视觉的更彻底和全面的理解。此外,应该努力使LLM能够完全统一图像和视频模态的理解。

相关内容

热门资讯

加快完善中央银行制度!国常会讨... 5月21日,国务院总理李强主持召开国务院常务会议,研究推进全国统一大市场建设有关工作,审议通过《现代...
毕业人数历史新高,大城市却还在... 今年的毕业生人数要破纪录了,预计1270万人,和去年相比又增长了48万,再创历史新高。 按理来说,就...
28.5万亿美元——这是Spa... 全球太空探索领军者SpaceX最新发布的这份万众瞩目IPO招股说明书显示,其自行评估的SpaceX总...
乐聚智能冲击IPO,聚焦人形机... 2025年以来全球人形机器人行业进入爆发期,无论是企业数量,还是融资规模均实现跨越式增长。 据人形机...
年轻人把澡堂子玩成了社交顶配 ... 花上几百元,甚至上千元,到澡堂子待一天——这是时下最流行的休闲消费方式。当然,澡堂子们也把名字升级为...
原创 五... 无营生可做,无房产置办,也无心做任何投资,整日里就单纯陪着父亲左右度日。 这话是他说的,5月13日,...
合肥居家闲置黄金整理指南 轻松... 随着近年来黄金市场行情持续向好,合肥不少市民开始整理家中闲置的黄金首饰、金条等物品,希望通过合理处置...
廿载荣耀见证!52位券商领军者... 权威集结,见证行业标杆! 由证券时报主办的“2026中国证券业君鼎奖”活动即将进入专家评审阶段。本届...
小米YU7首战Model Y八... 快科技5月21日消息,今晚小米人车家全生态新品发布会上,雷军宣布正式推出小米YU7标准版,售价23....
小米跑车级SUV YU7 GT... 记者|李星 编辑|陈柯名 裴健如 杜恒峰 校对|程鹏 5月21日晚间,小米YU7 GT正式上市,售价...
霍尔木兹海峡封锁 日本原油进口... 据日本共同社5月21日报道,日本财务省21日公布4月贸易统计初值(通关口径)显示,从中东进口原油38...
鲍威尔任内最后一次会议纪要公布... 当地时间5月20日,美国联邦储备委员会公布的4月货币政策会议纪要表明,如果美国通胀持续高于目标水平,...
晚间开售,非标提价,茅台改革进... 出品|中访网 审核|李晓燕 5月18日,贵州茅台接连抛出两大市场动作,瞬间搅动白酒行业神经。继5月1...
海关律师、走私辩护律师邵丹:罗... 近日,罗湖海关查获旅客走私红酒3支。 某日,罗湖海关关员在对进境旅客进行监管时,发现一名男性旅客进...
原创 三... 目前全球所有的电子产品中,涨的最猛的,就是内存。 最近一年以来,平均涨了四五倍,内存厂商们是大赚特赚...
长鑫科技科创板IPO将于5月2... 观点网讯:5月20日,据上交所网站披露,上交所上市审核委员会定于5月27日召开2026年第27次上市...
345.68亿!上海S基金交易... 来源:看看新闻KNEWS 日前,由上海股权托管交易中心、上海科创中心股权投资基金管理有限公司联合主办...
腾讯云·云上好CP携手六大消费... 当告白季的温柔氛围, 撞上科技赋能的好物狂欢, 腾讯云「云上好 CP」带着六大消费电子企业CP惊喜登...
擎天租与京东集团达成战略合作,... 来源:猎云网 5月21日,擎天租宣布与京东集团达成全面战略合作,双方将围绕产品解决方案共建、渠道供应...
金鹰基金固收老将林暐一次性卸任... 5月19日,金鹰基金管理有限公司(下称“金鹰基金”)发布多份基金经理变更公告,旗下基金经理林暐因个人...