视觉Mamba来了:速度提升2.8倍,内存能省87% 视觉Mamba来了:速度提升2.8倍,内存能省87%
admin
2024-01-19 14:39:07
0

机器之心报道

编辑:陈萍、泽南

Vision Mamba 不是个普通模型。

号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。

本周四,来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba(Vim)。



论文地址:https://arxiv.org/pdf/2401.09417.pdf项目地址:https://github.com/hustvl/Vim论文标题:Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

效果如何呢?在 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务上,与 DeiT 等成熟的视觉 Transformers 相比,Vim 实现了更高的性能,同时还显著提高了计算和内存效率。例如,在对分辨率为 1248×1248 的图像进行批量推理提取特征时,Vim 比 DeiT 快 2.8 倍,并节省 86.8% 的 GPU 内存。结果表明,Vim 能够克服对高分辨率图像执行 Transformer 式理解时的计算和内存限制,并且具有成为视觉基础模型的下一代骨干的巨大潜力。



接下来我们看看论文内容。

Mamba 的提出带动了研究者对状态空间模型(state space model,SSM)兴趣的增加,不同于 Transformer 中自注意力机制的计算量会随着上下文长度的增加呈平方级增长,由于 SSM 擅长捕捉远程依赖关系,因而开始受到大家追捧。

在此期间,一些基于 SSM 的方法如线性状态空间层(LSSL)、结构化状态空间序列模型(S4)、对角状态空间(DSS)和 S4D 都被研究者提出来,用于处理各种序列数据,特别是在建模远程依赖关系方面。

Mamba 将时变参数纳入 SSM 中,并提出了一种硬件感知算法来实现高效的训练和推理。Mamba 卓越的扩展性能表明它在语言建模方面是 Transformer 有前途的替代品。

然而,到目前为止,研究者还尚未在视觉任务中探索出通用的基于纯 SSM 的骨干网络。

受 Mamba 在语言建模方面成功的激励,研究者开始设想能否将这种成功从语言转移到视觉,即用先进的 SSM 方法设计通用且高效的视觉主干。然而,由于 Mamba 特有的架构,需要解决两个挑战,即单向建模和缺乏位置感知。

为了应对这些问题,研究者提出了 Vision Mamba (Vim) 块,它结合了用于数据依赖的全局视觉上下文建模的双向 SSM 和用于位置感知视觉识别的位置嵌入。

与其他基于 SSM 的视觉任务模型相比,Vim 是一种基于纯 SSM 的方法,并以序列方式对图像进行建模。与基于 Transformer 的 DeiT 相比,Vim 在 ImageNet 分类上取得了优越的性能。此外,Vim 在 GPU 内存和高分辨率图像的推理时间方面更加高效。

方法介绍

Vision Mamba (Vim) 的目标是将先进的状态空间模型 (SSM),即 Mamba 引入到计算机视觉。

Vim 的概述如图 2 所示,标准的 Mamba 是为 1-D 序列设计的。为了处理视觉任务,首先需要将二维图像转换成展开的 2-D patch 。式中 (H, W) 为输入图像的大小,C 为通道数,P 为图像 patch 的大小。接下来,需要将 x_p 线性投影到大小为 D 的向量上,并添加位置嵌入得到如下公式:





Vim 块

原始的 Mamba 块是为一维序列设计的,不适合需要空间感知理解的视觉任务。Vim 块集成了用于视觉任务的双向序列建模,Vim 块如上图 2 所示。

Vim 块的操作算法如下所示。



架构细节

架构的超参数如下:

L:块数D:隐藏状态维度E:扩展状态维度N:SSM 维度

遵循 ViT 和 DeiT,该研究首先采用 16×16 内核大小的投影层来获得非重叠 patch 嵌入的一维序列。随后直接堆叠 L 个 Vim 块。默认情况下块数 L 设置为 24,SSM 维度 N 设置为 16。为了与 DeiT 系列模型大小保持一致,该研究将小( tiny)尺寸变体的隐藏状态维度 D 设置为 192,将扩展状态维度 E 设置为 384。对于小(small)尺寸变体,该研究将 D 设置为 384,将 E 设置为 768。

实验

该研究在 ImageNet-1K 数据集上对 Vim 进行了基准测试。

图像分类

表 1 将 Vim 与基于 ConvNet、基于 Transformer 和基于 SSM 的骨干网络进行了比较。与基于 ConvNet 的 ResNet 相比,Vim 表现出更优越的性能。例如,当参数大致相似时,Vim-Small 的 top-1 准确率达到 80.3,比 ResNet50 高 4.1 个百分点。与传统的基于自注意力的 ViT 相比,Vim 在参数数量和分类准确率方面都有相当大的优势。与高度优化的 ViT 变体(即 DeiT )相比,VimTiny 比 DeiT-Tiny 高 0.9 个点,Vim-Small 比 DeiT 高 0.5 个点。与基于 SSM 的 S4ND-ViTB 相比,Vim 以减少 3 倍的参数实现了类似的 top-1 准确率。



图 1 (b) 和 (c) 比较了小型 Vim 和 DeiT 的 FPS 和 GPU 内存。随着图像分辨率的提高,Vim 在速度和内存方面表现出更好的效率。具体来说,当图像大小为 512 时,Vim 实现了与 DeiT 相似的 FPS 和内存。当图像大小增长到 1248 时,Vim 比 DeiT 快 2.8 倍,并节省 86.8% 的 GPU 内存。Vim 在序列长度上的线性扩展的显著优势使其为高分辨率下游视觉应用和长序列多模态应用做好了准备。



语义分割

如表 2 所示,Vim 在不同尺度上始终优于 DeiT:Vim-Ti 比 DeiT-Ti 高 1.0 mIoU,Vim-S 比 DeiT-S 高 0.9 mIoU。与 ResNet-101 主干网络相比,Vim-S 以减少近 2 倍的参数实现了相同的分割性能。



为了进一步评估研究方法在下游任务上(即分割、检测和实例分割)的效率,本文将骨干网与常用的特征金字塔网络(FPN)模块结合起来,并对其 FPS 和 GPU 内存进行基准测试。

如图 3 和图 4 所示,尽管该研究在主干网上附加了一个 heavy FPN,但效率曲线与纯主干网(图 1)的比较结果相似。





目标检测和实例分割

表 3 使用 Cascade Mask R-CNN 框架对 Vim-Ti 和 DeiT-Ti 进行了比较。Vim-Ti 超过 DeiT-Ti 1.3 box AP 和 1.1 mask AP。



下图为可视化结果:本文方法可以捕获图像中非常大的物体,这是 DeiT-Ti 等无法做到的。



了解更多内容,请参考原论文。

相关内容

热门资讯

机构席位买入1317.94万 ... 每经讯,2026年1月14日,北交所上市公司大鹏工业(920091,收盘价:96.46元)登上龙虎榜...
人民日报关注!福州增加体育消费... 1月14日 《人民日报》聚焦福州 “改善型服务消费如何激发活力” 专栏刊发 《福建福州增加体育消费空...
医院IPTV领域实力厂商榜单:... 在医疗信息化与智慧养老产业快速发展的背景下,医院IPTV系统作为连接医患、优化服务流程的核心载体,其...
ERP系统深度测评:它如何重塑... 想象一下,一家中型制造企业的会议室里,销售部门抱怨库存数据不准导致丢单,财务部门为月底对不上账而焦头...
时代更替浪潮下:从陈景河荣退看... 最近,亚布力论坛理事、紫金矿业创始人陈景河的荣退,让我心里涌起不少感慨——这不仅是一位矿业巨擘44年...
股价再度“一字”跌停!这只白酒... 昨日, *ST岩石公告称,公司预计2025年度营业收入不足3亿元且扣非前后净利润均为负,将触及财务类...
焦点复盘沪指午后跳水一度逼近4... 财联社1月14日讯,今日102股涨停,59股炸板,封板率为63%,直真科技5连板,三维通信、省广集团...
美国外资审查新动向!CFIUS... 过去一年间,随着美国政府换届及“美国优先投资政策”的推行,美国外国投资委员会(CFIUS)的审查逻辑...
建议收藏!凌春鸣总结的12条酒... 摘 要 入行二十余载,从外贸到酒业,从中喜的创立到“嬉阁”的坚守,我目睹了行业的潮起潮落。在这张看似...
年入117亿,广东阳江姐弟卖猪... 作者 | 华泰诗 “一到晚上猪肉就打折卖”的钱大妈,也要去港股上市了。 仅仅14年前,钱大妈还只是东...
因电池缺陷,沃尔沃在多国市场召... 红星资本局1月14日消息 2026年开年,沃尔沃在全球多个市场发起了一项召回计划,原因为车辆搭载的高...
新三板创新层公司华清飞扬大宗交... 每经讯,2026年1月14日,新三板创新层公司华清飞扬(834195,收盘价:2.29元)发生一笔大...
原创 我... 普瑞巴林,一种在带状疱疹治疗中几乎成为“标配”的处方药,被推到了风口浪尖上。 该药于2004年获美国...
马云前助理去世,曾撰写《这就是... 据电商大V倪叔透露,马云前助理陈伟去世。 追悼会现场摆放着马云夫妇献的花圈,挽联上写「爱得真诚,获一...
1.14:突发消息,A股跳水,... 周三,沪深A股主要的大盘指数调整,符合昨天分析的预期。中午分析中,也指出了上午上涨和昨天大盘释放的信...
利空?融资保证金上调至100%... 沪深北三大交易所同步发布通知,宣布经中国证监会批准,将投资者融资买入证券时的融资保证金最低比例从现行...
每日收评沪指冲高回落小幅收跌,... 财联社1月14日讯,市场冲高回落,沪指午后快速翻绿,此前一度涨超1%。沪深两市成交额3.94万亿,较...
原创 3... 哈喽,大家好,今天小墨这篇评论,主要来分析黄金超越美元成储备王者的变局,拆解普通人该紧跟的财富新逻辑...
量化派入选2025北京信用领跑... 在市场经济中,企业信用连接着企业与社会、市场与消费者,是企业生存与发展的生命线。良好的企业信用,不仅...
视频丨“新国补”政策落地 消费... 新年伊始,河南积极落实2026年国家“以旧换新”补贴新政,迅速释放政策红利,汽车、电子消费品等市场消...