[续] Matlab 并行编程——GPU CUDA

OStack程序员社区-中国程序员成长平台 › 门户 › 编程›综合其他

原作者: [db:作者] 来自: [db:来源] 收藏邀请

Matlab 并行编程——CUDA

http://163n.blog.163.com/blog/static/560355522010111083613574/

GPUArray
MATLAB中的GPUArray表示存储在GPU上的数据。使用gpuArray函数可以将数据从MATLAB工作空间传送到GPU。例如：
A = data(10);
G = gpuArray(A);

gather

执行以上语句后，G 就是一个MATLAB GPUArray对象了。
当GPU运行完程序后，可以通过gather函数将数据从GPU取回到MATLAB工作空间。
D = gather(G);

其它

GPUArray类也提供了以下静态方法，可用于直接在GPU上创建数组：
parallel.gpu.GPUArray.ones
parallel.gpu.GPUArray.eye
parallel.gpu.GPUArray.zeros
parallel.gpu.GPUArray.colon
parallel.gpu.GPUArray.Inf
parallel.gpu.GPUArray.true
parallel.gpu.GPUArray.NaN
parallel.gpu.GPUArray.false
以下几个函数可直接用于获取GPUArray对象的特性：
classUnderlying, isreal, length, ndims, size

http://cuda.it168.com/a2011/0930/1254/000001254551.shtml

在GPU上执行能够加快我的应用程序吗?

　　GPU能够对符合以下标准的应用程序进行加速：

　　大规模并行—计算能够被分割成上百个或上千个独立的工作单元。

　　计算密集型—计算消耗的时间显著超过了花费转移数据到GPU内存以及从GPU内存转移出数据的时间。

　　不满足上述标准的应用程序在GPU上运行时可能会比CPU要慢。

　　使用MATLAB进行GPU编程

　　FFT，IFFT以及线性代数运算超过了100个内置的MATLAB函数，通过提供一个类型为GPUArray(由并行计算工具箱提供的特殊数组类型)的输入参数，这些函数就能够直接在GPU上运行。这些启用GPU的函数都是重载的，换句话说，这些函数根据传递的参数类型的不同而执行不同的操作。

　　例如，以下代码使用FFT算法查找CPU上伪随机数向量的离散傅里叶变换：

　　A = rand(2^16,1);

　　B = fft (A);

　　为在GPU上执行相同的操作，我们首先使用gpuArray命令将数据从MATLAB工作空间转移至GPU设备内存。然后我们能够运行重载函数fft：

　　A = gpuArray(rand(2^16,1));

　　B = fft (A);

　　fft操作在GPU上而不是在CPU上执行，因为输入参数(GPUArray)位于GPU的内存中。

　　结果B存储在GPU当中。然而，B在MATLAB工作空间中依旧可见。通过运行class(B)，我们看到B是一个GPUArray。

　　class(B)

　　ans =

　　parallel.gpu.GPUArray

　　我们能够使用启用GPU的函数继续对B进行操作。例如，为可视化操作结果，plot命令自动处理GPUArrays。

　　plot(B);

　　为将数据返回至本地的MATLAB工作集，你可以使用gather命令。例如

　　C = gather(B);

　　C现在是MATLAB中的double，能够被处理double变量的所有MATLAB函数操作。

　　在这个简单的例子当中，执行单个FFT函数节省的时间通常少于将向量从MATLAB工作集移动到设备内存的时间。一般来说是这样的但是也取决于硬件和阵列规模。数据传输开销可能变得异常显著以至于降低了应用的总体性能，尤其是当你重复地在CPU和GPU之间交换数据，执行相对来说很少的计算密集型操作时。更有效率的方式是当数据处于GPU当中时对数据进行一些操作，只在必要的情况下才将数据返回至CPU。

　　需要指出的是，和CPU类似，GPU的内存也是有限的。然而，与CPU不同，GPU不能在内存和硬盘之间交换数据。因此，你必须核实你希望保留在GPU当中的数据不会超出内存的限制，尤其是当用到大规模矩阵时。通过运行gpuDevice命令，可以查询GPU卡，获取信息比如名称，总内存以及可用内存。

　　采用MATLAB解波动方程

　　为将上述例子应用到具体的环境中，我们在一个实际的问题中实现GPU的功能。计算目标是解二阶波动方程。

　　当u=0时到达临界值。我们使用基于波谱法的算法解空间方程，使用基于二阶中心有限差分法的算法解时间方程。

　　波谱法通常用于解决偏微分方程。采用波谱法的解决方案接近连续基函数比如正弦和余弦的线性组合。在这个例子中，我们应用了切比雪夫波谱法，使用切比雪夫多项式作为基函数。

　　我们在每一个时间步长使用切比雪夫波普法计算当前解决方案的在x象限和y象限的二次导数。我们同时使用这些中间数值与旧的解决方案和新的解决方案，应用二阶中心有限差分法(也称为蛙跳法)计算新的解决方案。我们选择了保持蛙跳法稳定性的时间步长。

　　MATLAB算法是计算密集型的，当网格中元素的数目超过了计算解决方案的增长，算法的执行时间将显著增加。当在单个CPU上使用2048x2048的网格执行时，完成50个时间步长需要一分多钟。需要指出的是我们计算的时间已经包括了MATLAB内在的多线程性能优势。自从R2007a起，MATLAb的一些函数就支持多线程计算。这些函数自动在多线程上执行，并不需要在代码中显示指定命令去创建线程。

　　当考虑如何使用并行计算工具箱加速计算时，我们将关注每个时间步长所执行的计算指令代码。图3距离说明了为获取在GPU上运行的算法需要做出的改变。需要指出的是涉及MATLAB操作的计算指令、启用GPU的重载函数可以从并行计算工具箱获取。这些操作包括FFT，IFFT，矩阵乘法，以及各种元素明智(element-wise)操作。因此，我们不必改变算法就能够在GPU执行。只需要在进入每个时间步长计算结果的循环前使用gpuArray将数据转移到GPU当中。

图 3. 代码对比工具显示了CPU版本和GPU版本的差异。

CPU和GPU版本共享的代码超过了84%(在111行当中有94行)。

　　计算指令在GPU上执行后，我们将计算结果从GPU转移至CPU。被启用GPU的函数所引用的每个变量必须在GPU上创建或者在使用前转移到GPU上。

　　为将用于光谱分化的一个权重转变为GPUArray变量，我们使用

　　W1T = gpuArray(W1T);

　　某些类型的数组能够直接在GPU上构造，不用从MATLAB工作集转移。例如，为直接在GPU上创建全零矩阵，我们使用

　　uxx = parallel.gpu.GPUArray.zeros(N+1,N+1);

　　我们使用gather函数将数据从GPU中转移回MATLAB工作集;例如：

　　vvg = gather(vv);

　　需要指出的是这只是将一个数据转移至GPU，然后从GPU转移回MATLAB工作集。每个时间步长的所有计算指令都是在GPU上执行的。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

unicode 版本 delphi (如XE2)下的 base64,des,md5 算法发布时间：2022-07-18

Delphi中的字符串函数(6)-StrUtils中的Ansi字符串函数发布时间：2022-07-18

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19159|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9981|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8320|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8690|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8633|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9649|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8617|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7994|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8648|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7531|2022-11-06

客服电话

电子邮件

[续] Matlab 并行编程——GPU CUDA

请发表评论

全部评论

上一篇：

下一篇：

kojino/Harvard-Robust-Machine-Learning:

cescoffier/puppet-nexus: A Puppet Module

文的笔顺,诠释文的笔画,解读文的部首

abos3d/CleanArchitectKotlinFlowHiltSimpl

Cassolotl/sentient.cloud · GitHub

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053