CVPR‘24:与任务无关的多模态数据也能提升Transformer性能 CVPR‘24:与任务无关的多模态数据也能提升Transformer性能
admin
2024-05-04 13:25:07
0

Yiyuan 投稿
量子位 | 公众号 QbitAI

万万没想到,与任务无直接关联的多模态数据也能提升Transformer模型性能

比如训练一个图像分类模型,除了标注好类别的图像数据集,增加视频、音频、点云等模态数据,也能显著提升模型在图像分类上的性能。

这样一来,在AI训练阶段就可以减少与特定任务直接相关的标注数据需求,可以节省大量成本,或在数据有限的任务上提供新解决思路。



这个神奇的发现来自港中文MMLab和腾讯AI Lab的合作研究,相关论文已被CVPR 2024接收,引起广泛关注。



从无关数据中学习有用知识

具体来说,团队提出了一种称为多模态通路(Multimodal Pathway)的新框架。

该框架允许Transformer模型在处理特定模态的数据时,同时利用其他模态中的无关数据进行训练,从而在不增加额外推理成本的前提下显著提升模型性能。



多模态通路的核心技术是跨模态重参数化(Cross-Modal Re-parameterization)*。

这一技术的创新之处在于,它通过结构上的智能重组,使得模型能够在保持原有计算成本的同时,增加从其他模态学习的能力。

对于已经被广泛运用到多模态特征提取的Vision Transformer,团队关心的是这些神经网络中的主要线性层。



具体来说,这一技术在模型的每一个线性层中引入了辅助模态的权重,这些权重通过可学习的参数进行调节,从而在不增加推理时间的情况下,实现模态间的知识迁移。



如图所示,比如有不同模态的两个线性层FC和FC’, 那么跨模态结构重参数化就是要通过构建一个运算完全等价的线性层来承载两个模态的运算,在这里直接将来自不同模态的两部分权重(W和W’)做线性组合(W+λW’)来平衡两个模态的权重对于目标模态的贡献。

实验结果:跨模态增益挖掘Transformer潜力

在论文中,研究团队详细介绍了他们的实验设计和结果。

在图像识别、点云处理、视频理解和音频分析等多个任务上应用了多模态通路技术,观察到多模态通路能够在12种不同的模态相互帮助的关系中实现一致的性能提升



例如,在ImageNet图像识别任务中,结合了点云数据的多模态通路Transformer模型,比传统的Transformer模型在识别准确率上提高了0.7%。

与MAE预训练方法的各种改进相比,该方法无需高昂的计算成本来预训练1600 Epoch,而是直接在下游任务中微调,就能显著地提升模型性能。这充分展示了多模态学习在处理大规模复杂数据集时的强大潜力。

研究人员还发现,跨模态知识迁移的效果不仅与模型参数规模有关,还可能与层次表示(Hierarchical Representation)能力密切相关。也就是越擅长学习层次化的抽象表示的模型,迁移效果就越好。

更值得注意的是,该方法有效地证明了即使毫不相关的多模态数据之间,仍能存在着明显的多模态增益效果,这充分说明我们现在对多模态学习的理解与认知还有很大的提升空间。



总的来说,这项研究不仅能够启发多模态学习在学术领域的发展,也为工业界提供了新的思路。通过利用现有的海量数据资源,即使这些数据与当前任务不直接相关,也能够为AI模型的训练带来积极的影响。

这种方法为数据资源有限或难以标注的领域提供了新的解决方案,特别是在自动驾驶、医疗影像分析、自然语言处理等技术要求极高的领域,多模态通路技术的应用前景广阔。

此外,这一研究还揭示了AI跨模态学习的新机制,推动了学界对于不同数据模态间交互和协同处理的深入理解。研究团队表示,未来他们将探索将多模态通路技术应用于卷积神经网络(CNN)和其他跨架构的AI系统,以进一步挖掘这一技术的潜力。

论文地址:https://arxiv.org/abs/2401.14405
项目网页:https://ailab-cvc.github.io/M2PT/
开源代码:https://github.com/AILab-CVC/M2PT
讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/

相关内容

热门资讯

国投白银LOF估值调整后补偿方... 2月15日,国投瑞银基金管理有限公司公告,受近期白银市场价格出现历史性极端行情影响,为公平对待所有投...
硬盘还得涨!西数CEO:202... 继希捷之后,西部数据今年的HDD(机械硬盘)产能也售罄了,这是他们的CEO说的。在当前这个内存与存储...
SIRODHARA滴油按摩入门... 行业痛点分析 当前,阿育吠陀疗法在全球健康产业中加速渗透,但SIRODHARA(头部滴油按摩)等核心...
联合利华股价创新高,四季度业绩... 来源:经济观察网 经济观察网 根据最新财报数据和市场表现,联合利华(UL.N)股价在2026年2月1...
白银基金出台补偿方案!2月26... 财联社2月15日讯(记者 闫军)仅隔12天,国投白银LOF赔偿方案春节前落地。 国投瑞银基金今日公...
“云”织乡韵调研团 赴长阳星途... 为深入了解县域农副产品品牌化与电商发展现状,助力乡村产业振兴,山东大学(威海)“云”织乡韵调研团成员...
全线反弹!加密货币大涨,超9万... 加密货币全线反弹。 比特币价格一度站上70000美元,截至发稿涨幅收窄报69977美元/枚;以太坊涨...
002969突发!深交所暂停部... 来源:证券时报综合自深交所、公司公告等 嘉美包装(002969)部分投资者被暂停交易。 据深交所消息...
恒丰银行为新春“肉篮子”添“金... 一碗重庆?“刨猪汤”的爆火?,不只是人们追寻一口地道的年味,更是岁末年关最滚烫的仪式感。这背后,早已...
央视曝光黄金回收套路 近期,国际、国内金价屡屡刷新历史纪录,在高金价刺激下,部分消费者选择高位套现。各地黄金回收、“以旧换...
原创 中... 2026年刚开年,一则关于中国建议银行降低美债持仓的消息引爆了华尔街,没有任何预警,美元和美债价格应...
1月份国家铁路发送货物3.32... 今年1月,国家铁路累计发送货物3.32亿吨,同比增长1.6%;日均装车18.07万车,同比增长3%,...
创业如何申请创业担保贷款?1分... 按现行政策规定,申请创业担保贷款贴息支持的个人或小微企业应向当地人力资源社会保障部门申请资格审核,通...
原创 中... 春节脚步越来越近,中国沿海的工厂与港口呈现出一派火热景象,生产线昼夜不停,集装箱码头一片繁忙。 可就...
原创 美... 高市早苗胜选的消息很快就在国际上传开,这次的高市不但赢了体面,还可以修改宪法,只能说未来的日本发展方...
中国现代音乐治疗发展(1989... 文/张勇 1989年至1999年是中国现代音乐治疗事业从奠基走向初步发展的关键十年。以1989年10...
从“体面过年”到“悦己过年”!... 当前,博州节日消费市场持续升温,除购置年货这样的传统消费外,美发、美甲等“美丽消费”“悦己消费”持续...
有火锅店需排队三小时、翻台率涨... 2月14日晚8点30分,拖着行李箱的江西游客韩女士在成都万象城一家餐厅外,经过三小时排队,终于落座就...
35亿美元!赫伯罗特联手基金收... 航运界网消息,备受关注的全球第10大班轮公司以星(ZIM)收购案传出最新消息,据以色列媒体《The ...
原创 不... 文/李光斗 经商有两个原则,一个是不吃独食,还有一个就是,不赚最后一个铜板。字面意思很好理解,就是你...