17 倍加速：PyTorch 模型的 GPU 优化剖析

OStack程序员社区-中国程序员成长平台 › 门户 ›资讯

原作者: [db:作者] 来自: [db:来源] 收藏邀请

17 倍加速：PyTorch 模型的 GPU 优化剖析

背景

IFX 是滴滴自研的 AI 推理引擎框架，针对云、端、边提供 AI 部署解决方案。目前，滴滴内部有很多 PyTorch 模型已经接入到 IFX 云端框架，并且通过 Serving 方式上线。

在模型从接入到上线的整个流程中，有一个必需的环节：在相同环境下评测 IFX 相比 PyTorch(1.3.1) 带来的性能收益。

这些模型大概分为两类：resnet 和 mobilenet。从上面结果可以看到 resnet 系列的(A、B、C、D)模型在适配到 IFX 框架之后性能提升大概在3-4倍，mobilenet 系列的(E、F)模型大概是17倍。

针对用户接入的E、F模型，IFX 相比 PyTorch 提升了 17 倍左右，为什么有这么大的优化空间呢，本文就来一步一步分析下。

基础分析

E、F模型网络结构是 mobilenet-v3，这里是 mobilenet-v3模型介绍，可以看下模型主要的结构以及用途。从 PyTorch 导出的 onnx 模型中粗略估算了下，mobilenet-v3 包含约460个算子；

首先我们先分析一下 PyTorch 的实现，利用 nvprof 看到 PyTorch 的模型执行过程中调用了500+的算子，比460多的原因是 PyTorch 的 conv 算子实现中会额外调用一个数据处理算子。

然后我们具体分析下模型结构，下面这个是 mobilenet-v3 网络中最常见结构。mobilenet-v3 网络中用到了特殊的激活函数 hswish、hsigmoid，上面的四个黑色算子实现的是 hswish。在整个 mobilenet-v3 网络中，hswish 调用了31次，hsigmoid 调用了13次，这样相关的算子总数是31*4+13*3=163个，在模型中占比还是比较大的，而 PyTorch 的计算中没有对这部分做单独的优化实现，只是依次进行基础运算。

这个图里面包含了 PyTorch 针对 hswish 的实现流程，4个红色箭头指向的计算单元分别实现了 hswish 的 add、clip、mul、div 操作，4个算子总耗时为 10.88us。

下面说一下 IFX 针对此模型的一个优化方法，由于 hswish、hsigmoid 这两个算子具有通用性，所以 IFX 将 hswish、hsigmoid 两个函数整合成了2个单独的算子，这样的融合操作降低了算子个数，同时优化过的算子相比原来性能更好。

可以看到 IFX 单独实现的 hswish 算子计算耗时为2.14us，仅计算部分性能是 PyTorch 的5倍左右。

其实这个 hswish 的融合操作只是 IFX fusion 策略中的一个，像 conv+elementwise、conv+bn+relu 这种常见的结构是可以 fusion 成一个 conv 的。

在所有 fusion 策略应用到 mobilenet-v3 之后，模型算子个数由原来的460降低为160，数量降低的同时算子性能还有提升。

可以看到在只做了两个算子的融合+基础算子(Conv、Bn、Fc等)优化之后模型性能已经提升8倍左右，当把所有优化策略应用到模型之后，又有1倍+的性能提升。

算子数量优化掉这么多，为什么会产生这么大影响呢，需要理解的是所有的算子调用都需要从cpu 上 launch 到 GPU 上计算，这部分开销在 PyTorch 的实现里是很大的。

可以看到完成17个算子的计算，GPU 上的耗时大概1.39ms，而其中真正计算占比很小（大约104us），空白区域是 PyTorch 调用到 GPU 其他的一些 Runtime API，这样看GPU 计算资源没有被充分利用。所以说针对 PyTorch 框架：operations more，waste more.

可以看到实现相同的子网络，IFX 5个算子大概的耗时是80us，其中计算的耗时在53ms，相比 PyTorch 计算效率更高。

这样测下来，针对典型子网络结构，IFX 快了 17 倍左右，和整体性能提升保持一致。测试过程和结果表明，PyTorch 慢是有道理的。

拓展分析

接下来我们继续研究下 PyTorch 为什么在 kernel 执行之间调用那么多的 Cuda Runtime API，首先先看下调用的 API 究竟有哪些：放大之后，看到是CudaSetDevice()，

CudaGetDevice() 这两个 API。基于这个信息，我们可以查看下 PyTorch 源码中这两个 API 的调用点，最终定位到c10/cuda目录。

c10 目录是 PyTorch 最重要的源代码文件夹，也就是几乎所有的源代码都与这里的代码有关系，比如我们的类型定义，PyTorch Tensor 的内存分配方式等等，都在这个文件夹中。

cuda 子目录里面则实现了 GPU 相关的 Device、Stream、Tensor 的调度和管理。

通过查看该目录下的源码，看到 CudaSetDevice()，CudaGetDevice()这两个 api 在这些类中有调用：

PyTorch 的实现里确实是有一些 cuda 调用机制会直接或间接的带来很大开销。

除了这点之外，我们还可以从 nvprof 中看到在模型推理过程中 PyTorch 除了算子计算耗时、额外的 Runtime API 耗时之外还有很多空白的地方，这些其实是在执行 cpu 上的指令。那这个地方有没有优化空间呢？有的，大家可以分析下这部分耗时的原因。

欢迎大家使用滴滴云 GPU 云主机来进行深度学习模型的训练和推理，性能非常好。

输入AI大师码【1122】，滴滴云GPU全线产品享9折优惠。

鲜花

握手

雷人

路过

鸡蛋

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

滴滴云Notebook上使用 BlazingSQL 加速BI分析发布时间：2022-11-06

滴滴云IFX斩获斯坦福DAWNBench深度学习推理榜单双料冠军发布时间：2022-11-06

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18807|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9868|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8283|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8639|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8566|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9570|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8560|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7958|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8566|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7496|2022-11-06

客服电话

电子邮件

17 倍加速：PyTorch 模型的 GPU 优化剖析

17 倍加速：PyTorch 模型的 GPU 优化剖析

上一篇：

下一篇：

librespeed/speedtest: Self-hosted Speedt

avehtari/BDA_m_demos: Bayesian Data Anal

四维彩超怎么看性别？四维看男孩女孩诀窍

PHPMailer/PHPMailer: The classic email s

medfreeman/markdown-it-toc-and-anchor: m

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053