CVPR‘24:与任务无关的多模态数据也能提升Transformer性能 CVPR‘24:与任务无关的多模态数据也能提升Transformer性能
admin
2024-05-04 13:25:07
0

Yiyuan 投稿
量子位 | 公众号 QbitAI

万万没想到,与任务无直接关联的多模态数据也能提升Transformer模型性能

比如训练一个图像分类模型,除了标注好类别的图像数据集,增加视频、音频、点云等模态数据,也能显著提升模型在图像分类上的性能。

这样一来,在AI训练阶段就可以减少与特定任务直接相关的标注数据需求,可以节省大量成本,或在数据有限的任务上提供新解决思路。



这个神奇的发现来自港中文MMLab和腾讯AI Lab的合作研究,相关论文已被CVPR 2024接收,引起广泛关注。



从无关数据中学习有用知识

具体来说,团队提出了一种称为多模态通路(Multimodal Pathway)的新框架。

该框架允许Transformer模型在处理特定模态的数据时,同时利用其他模态中的无关数据进行训练,从而在不增加额外推理成本的前提下显著提升模型性能。



多模态通路的核心技术是跨模态重参数化(Cross-Modal Re-parameterization)*。

这一技术的创新之处在于,它通过结构上的智能重组,使得模型能够在保持原有计算成本的同时,增加从其他模态学习的能力。

对于已经被广泛运用到多模态特征提取的Vision Transformer,团队关心的是这些神经网络中的主要线性层。



具体来说,这一技术在模型的每一个线性层中引入了辅助模态的权重,这些权重通过可学习的参数进行调节,从而在不增加推理时间的情况下,实现模态间的知识迁移。



如图所示,比如有不同模态的两个线性层FC和FC’, 那么跨模态结构重参数化就是要通过构建一个运算完全等价的线性层来承载两个模态的运算,在这里直接将来自不同模态的两部分权重(W和W’)做线性组合(W+λW’)来平衡两个模态的权重对于目标模态的贡献。

实验结果:跨模态增益挖掘Transformer潜力

在论文中,研究团队详细介绍了他们的实验设计和结果。

在图像识别、点云处理、视频理解和音频分析等多个任务上应用了多模态通路技术,观察到多模态通路能够在12种不同的模态相互帮助的关系中实现一致的性能提升



例如,在ImageNet图像识别任务中,结合了点云数据的多模态通路Transformer模型,比传统的Transformer模型在识别准确率上提高了0.7%。

与MAE预训练方法的各种改进相比,该方法无需高昂的计算成本来预训练1600 Epoch,而是直接在下游任务中微调,就能显著地提升模型性能。这充分展示了多模态学习在处理大规模复杂数据集时的强大潜力。

研究人员还发现,跨模态知识迁移的效果不仅与模型参数规模有关,还可能与层次表示(Hierarchical Representation)能力密切相关。也就是越擅长学习层次化的抽象表示的模型,迁移效果就越好。

更值得注意的是,该方法有效地证明了即使毫不相关的多模态数据之间,仍能存在着明显的多模态增益效果,这充分说明我们现在对多模态学习的理解与认知还有很大的提升空间。



总的来说,这项研究不仅能够启发多模态学习在学术领域的发展,也为工业界提供了新的思路。通过利用现有的海量数据资源,即使这些数据与当前任务不直接相关,也能够为AI模型的训练带来积极的影响。

这种方法为数据资源有限或难以标注的领域提供了新的解决方案,特别是在自动驾驶、医疗影像分析、自然语言处理等技术要求极高的领域,多模态通路技术的应用前景广阔。

此外,这一研究还揭示了AI跨模态学习的新机制,推动了学界对于不同数据模态间交互和协同处理的深入理解。研究团队表示,未来他们将探索将多模态通路技术应用于卷积神经网络(CNN)和其他跨架构的AI系统,以进一步挖掘这一技术的潜力。

论文地址:https://arxiv.org/abs/2401.14405
项目网页:https://ailab-cvc.github.io/M2PT/
开源代码:https://github.com/AILab-CVC/M2PT
讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/

相关内容

热门资讯

AI冲击银行就业!渣打宣布裁员... 人工智能加速渗透金融业,全球银行业就业格局正面临深刻重构。 据英国《金融时报》周二报道,渣打银行首席...
跨境电商圈常说的IP关联到底是... 在跨境电商和海外社媒运营的圈子里,有一个词被提起的频率几乎和“封号”一样高——IP关联。新手听到这个...
今日头条!金茂、金地纷纷下场,... 进入5月,继德通下场拿地之后,今天金茂、金地也纷纷在西安土地市场出手。 截至目前,今年二季度在西安土...
亮成本!5月来中小银行密集响应... 财联社5月19日讯(记者 彭科峰)在央行一季度货币政策执行报告明确发声“持续深化明示企业贷款综合融资...
泰国服装电商市场趋势洞察报告 今天分享的是:泰国服装电商市场趋势洞察报告 报告共计:14页 这份报告聚焦泰国服装电商市场,以Sho...
金饰克价年内大跌300元!从全... 2026年5月16日,国内黄金市场迎来标志性时刻:周生生、老凤祥、老庙黄金等主流品牌足金首饰价格集体...
信达证券股份有限公司 关于召开... 本公司董事会及全体董事保证本公告内容不存在任何虚假记载、误导性陈述或者重大遗漏,并对其内容的真实性、...
卫星ETF(159218)连续... 近日,卫星产业链迎来重磅信号。马斯克表示,SpaceX今年或在火箭完全快速可复用性方面取得成功,这将...
国企举报前高管利用职务便利侵吞... 2013年,北京国润水清环境工程有限公司(以下简称“国润公司”)通过招商引资,与当地政府签订郑州市上...
原创 账... 2026年开年至今,印度能源进口账单持续疯狂飙升,彻底击穿了该国的经济防线,多重危机叠加形成致命反噬...
完成喜马拉雅收购,腾讯音乐全员... 转自:贝壳财经 新京报贝壳财经讯(记者韦英姿)5月18日,腾讯音乐发布公告称,根据并购协议的条款,收...
美股三大指数涨跌不一,美光、应... 美股三大指数收盘涨跌不一,纳指跌0.51%,标普500指数跌0.07%,道指涨0.32%。费城半导体...
A股午评:超2900只个股飘绿... 19日,A股三大指数低开,沪指翻红。截至午间收盘,沪指涨0.02%,深证成指跌0.78%,创业板指跌...
如何选择小红书推广服务?效果及... 在当今数字化营销的浪潮中,小红书作为一个极具影响力的社交平台,吸引了众多品牌和企业的关注。对于希望在...
人工智能概念股走弱,创业板人工... 人工智能概念股走弱,天孚通信跌超8%,新易盛跌超6%,中际旭创跌超4%。 受盘面影响,创业板人工智能...
大金重工(002487.SZ)... 览富财经网讯:5月18日,港交所官网显示,大金重工股份有限公司(大金重工)已递交聆讯后资料集,登陆香...
深演智能将在港上市:业绩下滑明... 来源|贝多商业&贝多财经 5月18日,北京深演智能科技股份有限公司(下称“深演智能”,HK:0272...
退税更省心、更省时、更省事,六... 离境退税政策2.0版“上线”。5月18日,商务部、财政部、国家税务总局等六部门发布《关于加力优化离境...
原创 全... 美国总喜欢卡别人脖子,挥舞制裁大棒,如今却面临被制裁的问题,尤其是在稀土领域。 在2025年4月,中...
芯片、存储概念股下挫!美光科技... 【导读】美股三大指数涨跌不一。芯片、存储概念股下挫,美光科技大跌近6% 中国基金报记者 伊万 美东时...