MMDeploy学习笔记(一):模型部署基础知识
创始人
2025-06-01 04:51:21
0

MMDeploy学习笔记(一):模型部署基础知识

  • 概述
  • ONNX模型
  • 模型部署案例-分类模型ResNet
    • Pytorch模型转ONNX模型
    • 使用ONNX Runtime对ONNX模型进行推理
    • 使用TensorRT对ONNX模型进行推理
    • 提升推理效率的两个tricks
      • 批处理
      • 量化
  • 常见问题

概述

模型部署是把训练好的模型在特定的软硬件平台下进行推理,能够对输入的数据进行前向计算得到预测结果,并针对硬件的特点进行优化与加速(例如矩阵的乘法计算在CPU、GPU和DSP的实现方式各不相同,计算速度也各不相同)。将其封装成软件开发包(SDK)后,就可以利用它开发应用软件(APP)。

由于现有Pytorch、TensorFlow等不同的深度学习框架,以及Nvidia、Intel、Qualcomm、Apple、Huawei等不同的硬件平台,那么在不同的硬件平台上部署不同的深度学习框架时,需要适配不同的模型格式,这个适配的复杂度是相当大的,因此需要针对不同的深度学习框架引入一个统一的模型格式,即ONNX。

ONNX的本质是文本,而不是程序,所以它无法直接在硬件平台上运行,因此需要推理引擎(推理框架)来加载ONNX模型,并在硬件设备上进行高效的推理。市面上所有的推理引擎都支持ONNX模型,这些引擎可以分为两类:

  • 芯片厂商自研的推理框架,例如Nvidia的TensorRT、Intel的openVINO、Qualcomm的SNPE、Apple的ML、Huawei的CANN等,这类推理引擎的优点是可以充分发挥自家芯片的能力,获得比较好的推理性能,缺点是不具有普适性,无法应用在其他的芯片上。
  • 通用的推理引擎,例如ONNX RUNTIME、MNN、TNN、PP、tvm、TensorFlow Lite等,这些推理引擎的优点是具备通用性,可运行在不同的软硬件平台下,对于用户来说,可以降低开发的难度并提升开发效率。

因此,模型部署流程可以用下图进行描述:
在这里插入图片描述

ONNX模型

ONNX(Open Neural Network Exchange)模型由微软、亚马逊、Facebook和IBM等公司共同发起开发,它是一种针对机器学习所设计的开放式文件格式,用于存储训练好的模型。不同的训练框架可采用相同格式存储模型并交互。

权重使用随机值,构建LeNet模型并导出ONNX的代码实例:

import torch
from torch import nnclass LeNet(nn.Module):def __init__(self):super(LeNet, self).__init__()self.net = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5),nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5),nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Flatten(),nn.Linear(16*5*5, 120),nn.Sigmoid(),nn.Linear(120, 84),nn.Sigmoid(),nn.Linear(84,10))def forward(self, img):return self.net(img)model = LeNet()
model.eval()
x = torch.rand(size=(1, 1, 32, 32), dtype=torch.float32)
torch.onnx.export(model, x, f='lenet.onnx', input_names=['input'],output_names=['output'], opset_version=11)

ONNX的可视化可参考博主的另一篇博客ONNX可视化与编辑工具。导出的ONNX模型是一个有向无环图,图中的节点为算子,所有算子的集合成为算子集(opset),图中的边表示节点的计算顺序和数据流向。所有算子的定义可以访问官网。
在这里插入图片描述

模型部署案例-分类模型ResNet

Pytorch模型转ONNX模型

在此链接下载相应的模型和权重文件。使用以下代码导出ONNX模型:

from mmcls.apis import init_model
import torchresnet18 = init_model('resnet18_8xb32_in1k.py',checkpoint='resnet18_8xb32_in1k_20210831-fbbb1da6.pth',device='cuda:0')
# 由于模型在训练过程中有drop_out,而且模型中BN层的参数会随着输入的变化而变化,推理的时候要消除这些影响,因此需要打开evaluation模式,起到使参数固定的作用
resnet18.eval()
x = torch.rand((1,3,224,224),device='cuda:0')
# 单张输入
torch.onnx.export(resnet18, (x,False), 'resnet18.onnx', input_names=['input'], output_names=['output'], opset_version=11)

注:torch.onnx.export函数说明:
在这里插入图片描述

使用ONNX Runtime对ONNX模型进行推理

ONNX Runtime是微软维护的一个跨平台推理引擎,可以直接加载并运行ONNX模型,支持不同的操作系统、CPU架构和AI加速设备。

import onnxruntime as ort
import torch
import mmcv
from mmcv.parallel import collate, scatter
from mmcls.datasets.pipelines import Copose
import numpy as np
session = ort.InferenceSession('resnet18.onnx', providers =['CUDAExecutionProvider']) 
cfg = mmcv.Config.fromfile('resnet18_8xb32_in1k. py')test _ pipeline = Compose(cfg.data.test.pipeline) 
input _ data = dict(img _ info=dict(filename='daisy.webp'), img _ prefix=None)
input _ data = test _ pipeline(input_data)
input _ data = collate([input_data], samples_per_gpu=1) 
input _ data = scatter(input_data ,[torch.device('cuda:0')])[0]
input _ data = input_data['img']
io_binding = session.io_binding()
io _ binding.bind_input(name='input', device_type='cuda',device_id=0,element_type=np.float32,shape=input_data.shape,buffer_ptr = input_data.data_ptr())
io_binding.bind_output('output') 
session.run_with_iobinding(io_binding)
scores = io_binding.copy_outputs_to_cpu()[0]
pred_score = np.max(scores, axis=1)[0]
pred _ label = np.argmax(scores ,axis =1)[0]
print(pred_score, pred_label)

使用TensorRT对ONNX模型进行推理

使用TensorRT部署ONNX模型时包括以下两个阶段:

  • Build Phase(构建阶段):对ONNX模型转换和优化,输出优化的模型;
trtexec --onnx=resnet18.onnx --saveEngine=resnet18.plan
  • Runtime Phase(运行时阶段):加载优化后模型,执行推理。

运行时阶段的详细过程如下图所示,首先创建运行时,然后加载构建阶段优化处理后的TensorRT模型生成engine,接着创建一个context,绑定输入输出,并准备好一个buffer,用来存预处理好的数据,最后执行计算进行前向推理。
在这里插入图片描述

提升推理效率的两个tricks

批处理

使用批处理(模型可以接受多张图放在一个batch中进行推理)可以提升推理效率,下面演示的是如何使用批处理将Pytorch模型转为ONNX模型的代码:

from mmcls.apis import init_model
import torchresnet18 = init_model('resnet18_8xb32_in1k.py',checkpoint='resnet18_8xb32_in1k_20210831-fbbb1da6.pth',device='cuda:0')
# 由于模型在训练过程中有drop_out,而且模型中BN层的参数会随着输入的变化而变化,推理的时候要消除这些影响,因此需要打开evaluation模式,起到使参数固定的作用
resnet18.eval()
x = torch.rand((1,3,224,224),device='cuda:0')
# 动态输入(批处理)
torch.onnx.export(resnet18, (x,False), 'batch_resnet18.onnx', input_names=['input'], output_names=['output'], opset_version=11, dynamic_axes=dict(input=dict({0:'batch'}),output=dict({0:'batch'})))

使用TensorRT对动态输入的模型进行推理时,在构建阶段需要使用以下代码进行优化和转换:

trtexec --onnx=batch_resnet18.onnx \--saveEngine=batch_resnet18.plan \--minShapes=input:1x3x224x224 \				#最小shape--optShapes=input:8x3x224x224 \				#最优shape--maxShapes=input:32x3x224x224 \			#最大shape--workspace=1024

量化

使用量化(即低精度模型)同样是提升推理效率的手段。这里的可以使用fp16、int8或int4,量化为fp16一般不会有精度损失。

trtexec --onnx=batch_resnet18.onnx \--fp16 \--saveEngine=batch_fp16_resnet18.plan \--minShapes=input:1x3x224x224 \				#最小shape--optShapes=input:8x3x224x224 \				#最优shape--maxShapes=input:32x3x224x224 \			#最大shape--workspace=1024
trtexec --onnx=batch_resnet18.onnx \--int8 \--calib=calibration.cache \--saveEngine=batch_int8_resnet18.plan \--minShapes=input:1x3x224x224 \				#最小shape--optShapes=input:8x3x224x224 \				#最优shape--maxShapes=input:32x3x224x224 \			#最大shape--workspace=1024

常见问题

  1. 避免在torch model中使用numpy或者python内置类型,使用torch.Tensor。
  2. 使用tensor.shape时,避免in-place操作。
  3. 推理框架对onnx支持能力各不相同,需要专门适配:Backend adapter。
  4. 算法迭代更新快,但推理框架对于算子的支持相对滞后:自定义算子。
  5. Pytorch的动态特性(分支、循环),增加部署难度:重写模块、函数或符号。

相关内容

热门资讯

王凤英入职小鹏3年终获股权,此... 5月7日消息,小鹏汽车披露的监管及年报信息显示,公司总裁王凤英已正式进入股东名册,入职小鹏3年后股权...
五块钱红酒卖断货,便宜红酒为何... 最近一段时间,中国的酒类消费市场可以说是显得格外奇怪,一方面,各种高端酒特别是白酒的消费量出现了明显...
财联社C50风向指数调查:4月... 财联社5月8日讯(记者 夏淑媛)新一期财联社“C50风向指数”结果显示,市场机构对4月新增人民币贷款...
央视硬刚国际足联拒掏20亿,背... 作者| 史大郎&猫哥 来源| 是史大郎&大猫财经Pro 央视这次太刚了,离世界杯开幕还有1个月,死活...
新CEO上任直接放大招!Air... 快科技5月8日消息,苹果即将上任的CEO John Ternus对未来一系列新产品充满信心,称这些设...
“特朗普拟邀英伟达、波音等CE... 据路透社当地时间5月7日报道,特朗普政府正邀请英伟达、苹果、埃克森美孚、波音等大公司首席执行官,于下...
世界杯,还能看到直播吗? 2026年美加墨世界杯距离开幕,仅剩一个多月时间。多方信息显示,中央广播电视总台(以下简称“央视”)...
机构警告AI芯片热潮风险,超威... 5月7日,据央视财经,隔夜超威半导体公司(AMD)股价飙升近19%,带动AI芯片热潮持续升温。AMD...
银行员工转走储户1800万最新... 银行员工转走储户1800万最新进展:2名储户已收到银行全部款项
原创 中... 1994年,安徽省的经济格局曾发生过一次戏剧性的转折。在那一年,一座名为安庆的城市,其国内生产总值(...
昆都仑区:政策“蓄力”消费焕新 “一台5000多元的空调,叠加‘国补’和商场的以旧换新活动,能优惠1000元左右,旧机还能免费上门拆...
乐悦置业竞得佛山顺德乐从镇一商... 观点网讯:5月6日,佛山市顺德区乐从镇一商业地块成功出让,由广东省乐悦置业有限公司竞得,乐从南区·邻...
原创 亦... 《爱情没有神话》这部剧,一开始的命运颇为多舛,经历了几次撤档的波折后,终于在观众面前亮相,但其首播的...
美联储34年最大分歧叠加油价飙... 美联储按预期维持利率不变,但内部出现34年来最严重分歧,叠加布油创2022年6月以来新高,美债遭抛售...
支付宝消费券回收后,资金是否支... 摘要: 支付宝消费券回收变现后,资金能否直接转入信用卡?本文解答到账方式的相关规则,帮助用户了解资金...
中医介绍5个化痰穴位!收藏这篇... 很多人忽略了“痰”的危害,觉得咳几下就没事,殊不知,肺里的痰长期堆积,只会一步步加重身体负担。 中医...
黄金平台“杰我睿”涉嫌经济犯罪... 红星资本局5月7日消息,深圳水贝知名金店“杰我睿”兑付困难事件有了新进展。日前,深圳市公安局罗湖分局...
多地出台购房新政促楼市升温 记... 今年的“五一”假期,伴随着多个城市楼市新政密集落地,在叠加市场信心持续修复的作用下,房地产市场热度持...
谁是五一“吸金王”?这5座城市... 来源:市场资讯 (来源:21城市观) 哪座城市成为“五一”假期的大赢家? 图源:摄图网 作者|赵晓...
“低招低裁”格局稳固劳动力市场... 智通财经APP获悉,美国上周初请失业金人数在经历前一周回落至近几十年来最低水平后出现小幅反弹,表明尽...