【Kevin三连弹之三】Rust真的比C慢吗？进一步分析queen微测评

OStack程序员社区-中国程序员成长平台 › 门户 › 编程›综合其他

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文来自知乎：https://zhuanlan.zhihu.com/p/138103106

作者：Kevin Wang

昨天，我在文章里分析了微测评的不可靠的问题，遗留了一点技术细节没有剖析清楚。评论区＠王明哲提示了我可以用VTune工具，那我今天就来接着分析一下。

前情回顾

昨天的微测评中，我分别通过在queen.rs中程序开头添加NOP指令和queen.c中多次调用测试函数以及perf分析，证明了差异是由编译结果中被测代码的layout(相关代码在内存中的地址位置)导致的噪音。

今天就利用工具进一步分析layout影响了什么。

还是从加NOP开始

写个脚本，自动分别测试在queen.rs中添加1个、２个...N个NOP，看看对测试结果的影响有没有什么规律。

于是我得结果如下:

把它绘成一个曲线图:

queen.rs测试耗时与添加的NOP个数的关系

同样的方法，我们在queen.c的main函数开头添加NOP来得到C语言版的曲线。

queen.c测试耗时与添加的NOP个数的关系

可以看到Rust版的均值533和方差177相比C版还要好一些哦!（当然这个同样也不能作为评判语言性能的标准，CPU微架构层的优化太复杂微妙，不能用特例说明问题）

C和Rust两个版本的执行时间均关于插入NOP数以16为半周期大致呈周期性变化，那么这个周期16是什么鬼？看汇编代码发现编译器会自动将循环体对齐到16byte:

加9个nop的汇编，Block ２是第一个循环体开始

加10个NOP的汇编，Block 2是编译器插入的对齐NOP，原来的Block 2往后挪了16byte变成Block 3

得到线索: 本例中，第一个循环体开头对齐到奇数个16byte会得到较好的性能。

用VTune跑跑看

昨天我们已经分析了和cache line对齐无关。Intel 提供了一个工具VTune用来分析app的性能，比perf更准确详尽。那我们VTune工具来跑跑看。取rust的快慢两个版本做对比实验，分别跑出来得到这样两个Summary报告:

跑得较快的报告

跑得较慢的报告

对比两份报告可以看到，两者的分支预测失败率都高(都还有优化空间)，但差异是由红圈圈出的三项导致。涉及两个东西: DSB和MITE。

大致了解了一下这两个东西：

intel现代CPU中会将程序的机器指令转换成更细粒度的微指令(uops)，主要为了实现指令的乱序执行，MITE就是执行这个转换的引擎，就像一个编译器一样。
由于MITE比较费时费力，新一点的CPU又引入了DSB来缓存转换结果，类似于编译缓存，只不过这个缓存容量可能很小。

那么结合工具再来理解一下，工具中给出了一些注解：

DSB Switches
Metric Description
Intel microarchitecture code name Sandy Bridge introduces a new decoded ICache. This cache, called the DSB (Decoded Stream Buffer), stores uOps that have already been decoded, avoiding many of the penalties of the legacy decode pipeline, called the MITE (Micro-instruction Translation Engine). However, when control flows out of the region cached in the DSB, the front-end incurs a penalty as uOp issue switches from the DSB to the MITE. This metric measures this penalty.
Possible Issues
A significant portion of cycles is spent switching from the DSB to the MITE. This may happen if a hot code region is too large to fit into the DSB.
Tips
Consider changing code layout (for example, via profile-guided optimization) to help your hot regions fit into the DSB.
Front-End Bandwidth
Metric Description
This metric represents a fraction of slots during which CPU was stalled due to front-end bandwidth issues, such as inefficiencies in the instruction decoders or code restrictions for caching in the DSB (decoded uOps cache). In such cases, the front-end typically delivers a non-optimal amount of uOps to the back-end.

前面summay里的三项差异的意思我就大致理解为：

DSB Switches: 慢者从DSB拿指令的命中率较低，更多地被切换到MITE现编译了。

Front-End Bandwidth MITE: 慢者花在MITE上的时间较多，MITE较忙。

Front-End Bandwidth DSB: 慢者花在从DSB取指令的时间较多（这个应该是和第一条呼应的？)。

总结下来就是慢的时候DSB命中率低了，更多时间花在了MITE上。

为啥命中率有区别呢？由于DSB缓存的是代码块，所以，这就要看我们比较热的那些块有没有对准到DSB的框框咯。

小结

故结论依然是：这种微测评结果是错误的，差异和指令对齐相关，属于噪音，有人编译出C快，有人编译出Rust快，全靠运气看编译器把指令对齐到哪里，不能体现语言的差异。

以上分析基于i7 9700K进行，其它CPU可能不同，也可能有类似机制。关于DSB，我没找到更详细的资料，也不知道我的CPU DSB有多大，有误请轻拍。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

matlab学习第一天发布时间：2022-07-18

Matlab中save与load函数的使用发布时间：2022-07-18

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19274|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：10015|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8341|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8710|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8655|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9684|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8643|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：8011|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8680|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7547|2022-11-06

客服电话

电子邮件

【Kevin三连弹之三】Rust真的比C慢吗？进一步分析queen微测评

前情回顾

还是从加NOP开始

用VTune跑跑看

小结

请发表评论

全部评论

上一篇：

下一篇：

dustinvtran/ml-videos: A collection of v

ravikumar001/maven

更的笔顺,体会更的笔画,理会更的部首

CVE-2022-33686

ceejbot/LOUDBOT: AUTOMATED SHOUTING FOR

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053