游戏攻略网
当前位置: 首页 游戏攻略

cuda使用共享内存(CUDA加速共享内存介绍及其应用)

时间:2023-07-03 作者: 小编 阅读量: 1 栏目名: 游戏攻略

不同类型的内存有各自不同的特点,不过片上内存通常比板载显存要快,而寄存器又是所有存储种类中最快的。本文我们着重介绍共享内存的基础知识以及应用例子。此方式特点为定义的时候不指定大小,在调用核函数的时候将共享内存大小以输入参数的形式传入。

CUDA的存储器可以大致分为两类:

  • 板载显存(On-board memory)
  • 片上内存(On-chip memory)

其中板载显存主要包括全局内存(global memory)、本地内存(local memory)、常量内存(constant memory)、纹理内存(texture memory)等,片上内存主要包括寄存器(register)和共享内存(shared memory)。不同类型的内存有各自不同的特点,不过片上内存通常比板载显存要快,而寄存器又是所有存储种类中最快的。本文我们着重介绍共享内存的基础知识以及应用例子。


01

查看自己显卡上的共享内存信息

CUDA提供了cudaGetDeviceCount和cudaGetDeviceProperties这两个函数,分别用于获取CUDA设备数、获取CUDA设备属性,通过调用这两个函数,可以方便获取共享内存信息和其它CUDA设备信息:

//显示CUDA设备信息void show_GPU_info(void){int deviceCount;//获取CUDA设备总数cudaGetDeviceCount(&deviceCount);//分别获取每个CUDA设备的信息for(int i=0;i<deviceCount;i){//定义存储信息的结构体cudaDeviceProp devProp;//将第i个CUDA设备的信息写入结构体中cudaGetDeviceProperties(&devProp, i);std::cout << "使用GPU device " << i << ": " << devProp.name << std::endl;std::cout << "设备全局内存总量:" << devProp.totalGlobalMem / 1024 / 1024 << "MB" << std::endl;std::cout << "SM的数量:" << devProp.multiProcessorCount << std::endl;std::cout << "每个线程块的共享内存大小:" << devProp.sharedMemPerBlock / 1024.0 << " KB" << std::endl;std::cout << "每个线程块的最大线程数:" << devProp.maxThreadsPerBlock << std::endl;std::cout << "设备上一个线程块(Block)中可用的32位寄存器数量: " << devProp.regsPerBlock << std::endl;std::cout << "每个EM的最大线程数:" << devProp.maxThreadsPerMultiProcessor << std::endl;std::cout << "每个EM的最大线程束数:" << devProp.maxThreadsPerMultiProcessor / 32 << std::endl;std::cout << "设备上多处理器的数量:" << devProp.multiProcessorCount << std::endl;std::cout << "======================================================" << std::endl;}}

运行以上函数,得到共享内存信息以及其它设备信息,如下图所示,本人使用的显卡上,针对于每一个线程块,其可以使用的最大共享内存为48 KB。


02

共享内存的特性

共享内存的主要特点在于“共享”,也即同一个线程块中的所有线程都可以对这一块存储进行读写操作,所以“共享”是针对同一个线程块中所有线程而言的。一旦共享内存被定义并指定大小,系统将给所有线程块都分配相同大小的共享内存,比如定义一个大小为8 bytes的unsigned char型共享内存,那么所有线程块都会被分配一个8 bytes的unsigned char型共享内存。如下图所示:

共享内存在CUDA核函数中定义,通常有两种方式:静态方式、动态方式。

  • 静态方式定义。这种方式定义的特点是定义的同时指定大小

__global__ shared_memory_kernel(uchar *inputs, int row, int col){int x = threadIdx.xblockDim.x * blockIdx.x;//colint y = threadIdx.yblockDim.y * blockIdx.y;//rowif (x < col && y < row){__shared__ uchar s[8];//定义的同时指定大小为8 bytes,因此每个线程块都被分配8 bytes的共享内存...}}

  • 动态方式定义。此方式特点为定义的时候不指定大小,在调用核函数的时候将共享内存大小以输入参数的形式传入

__global__ shared_memory_kernel(uchar *inputs, int row, int col){int x = threadIdx.xblockDim.x * blockIdx.x;//colint y = threadIdx.yblockDim.y * blockIdx.y;//rowif (x < col && y < row){extern __shared__ uchar s[];//定义的时候不指定大小...}}void shared_memory_test(void){...//传入的第1个参数block_num为线程块总数//第2个参数thread_num为每个线程块包含的线程数//第3个参数8为共享内存大小,所以动态共享内存大小通过第3个参数传入shared_memory_kernel<<<block_num, thread_num, 8>>>(inputs, row, col);...}

需要注意:动态定义共享内存时,调用核函数传入的数值必须以字节byte为单位,所以如果定义的共享内存不是byte类型,数值必须乘以类型占用的字节数。比如要动态定义长度为8的float类型共享内存,那么传入核函数的数值为8*sizeof(float)。

shared_memory_kernel<<<block_num, thread_num, 8 * sizeof(float)>>>(inputs, row, col);


03

共享内存的应用例子

前文我们讲的数组元素规约求和算法,使用CUDA全局内存来存储数据:

CUDA加速——基于规约思想的数组元素求和

我们知道全局内存属于板载显存,而共享内存属于片上内存,因此共享内存的读写速度比全局内存快得多。在前文代码的核函数中有个for循环需要多次读写全局内存,全局内存本身就很慢,而且如果不是连续访问会更慢,因此本文我们尝试使用共享内存来代替全局内存实现前文讲的规约求和算法。

由于前文的规约算法是在不同线程块分别进行的,而共享内存又具有线程块内共享的特性,故共享内存正好适合此应用场景。

前文的规约结构

本文使用共享内存的规约结构

下面我们比较使用共享内存的核函数与前文使用全局内存的核函数:

//使用全局内存__global__ void cal_sum_ker0(float *Para, float *blocksum_cuda){int tid = blockIdx.x * blockDim.xthreadIdx.x;if(tid < N){for (int index = 1; index < blockDim.x; index = (index*2)){if (threadIdx.x % (index*2) == 0){Para[tid]= Para[tidindex];}__syncthreads();//同步,以防止归约过程中某个线程运行速度过快导致计算错误}if(threadIdx.x == 0)//整个数组相加完成后,将共享内存数组0号元素的值赋给全局内存数组0号元素blocksum_cuda[blockIdx.x] = Para[tid];}}//使用共享内存//blockIdx.x为线程块的ID号//blockDim.x每个线程块中包含的线程总个数//threadIdx.x为每个线程块中的线程ID号__global__ void cal_sum_ker(float *Para, float *blocksum_cuda){int tid = blockIdx.x * blockDim.xthreadIdx.x;if(tid < N){//动态方式定义float型共享内存extern __shared__ float s_Para[];//线程块中的每个线程负责把其对应的数据从全局内存加载到共享内存s_Para[threadIdx.x] = Para[tid];__syncthreads();//块内线程同步,等待线程块内所有线程加载数据完毕for (int index = 1; index < blockDim.x; index = (index*2)){if (threadIdx.x % (index*2) == 0){//在for循环中使用共享内存实现规约,避免频繁读写全局内存s_Para[threadIdx.x]= s_Para[threadIdx.xindex];}__syncthreads();//块内线程同步,以防止归约过程中某个线程运行速度过快导致计算错误}if(threadIdx.x == 0)//将共享内存数组0号元素的值赋给全局内存数组blocksum_cuda[blockIdx.x] = s_Para[threadIdx.x];}}

接着在测试代码中分别调用上方两个核函数。调用时指定共享内存的长度为每个线程块包含的线程数:

void cal_sum_test() {Timer_Us2 timer;//定义CPU端数组float *test_d = (float *)malloc(N * sizeof(float));for (long long i = 0; i < N; i){test_d[i] = 0.5;}dim3 sumblock(512);//设置每个线程块有512个线程dim3 sumgrid(((N%sumblock.x) ? (N/sumblock.x1) : (N/sumblock.x)));float *test_d_cuda;float *blocksum_cuda;float *blocksum_host = (float *)malloc(sizeof(float) * sumgrid.x);cudaMalloc((void **)&test_d_cuda, sizeof(float) * N);cudaMalloc((void **)&blocksum_cuda, sizeof(float) * sumgrid.x);timer.start_timer();//将数据从CPU端拷贝到GPU端cudaMemcpy(test_d_cuda, test_d, sizeof(float) * N, cudaMemcpyHostToDevice);//调用使用全局内存规约的核函数cal_sum_ker0 << < sumgrid, sumblock>> > (test_d_cuda, blocksum_cuda);//将所有线程块的规约结果从GPU端拷贝到CPU端cudaMemcpy(blocksum_host, blocksum_cuda, sizeof(float) * sumgrid.x, cudaMemcpyDeviceToHost);//在CPU端对所有线程块的规约求和结果做串行求和double sum = 0.0;for(int i = 0; i < sumgrid.x; i){sum= blocksum_host[i];}timer.stop_timer("GPU time (global memory):");cout << " GPU result (global memory) = " << sum << endl;//显示GPU端结果//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////timer.start_timer();cudaMemcpy(test_d_cuda, test_d, sizeof(float) * N, cudaMemcpyHostToDevice);//调用使用共享内存规约的核函数,sumblock.x为每个线程块包含的线程数,sumblock.x * sizeof(float)就是传入的共享内存字节数cal_sum_ker << < sumgrid, sumblock, sumblock.x * sizeof(float) >> > (test_d_cuda, blocksum_cuda);cudaMemcpy(blocksum_host, blocksum_cuda, sizeof(float) * sumgrid.x, cudaMemcpyDeviceToHost);sum = 0.0;for(int i = 0; i < sumgrid.x; i){sum= blocksum_host[i];}timer.stop_timer("GPU time (shared memory):");cout << " GPU result (shared memory) = " << sum << endl;//显示GPU端结果cudaFree(test_d_cuda);cudaFree(blocksum_cuda);free(blocksum_host);free(test_d);}

运行结果如下,可以看到使用共享内存之后,耗时减少了,这是因为共享内存的读写效率比全局内存高。

    推荐阅读
  • steam棋牌游戏推荐(幸运之夜新版本亮相TGC)

    steam棋牌游戏推荐12月1日,2017腾讯游戏嘉年华正式在成都开幕,腾讯的VR社交游戏《幸运之夜》在现场发布了最新版本。VR《幸运之夜》在TGC2017上惊艳亮相《幸运之夜》新版本发布邀请好友一起游戏今年7月底,《幸运之夜》正式在Steam发布,并推出了首款游戏作品“德州扑克”。今年的TGC2017现场,《幸运之夜》全新版本便带来了对互动性方面的提升。

  • 儿童睡前故事卖火柴的小女孩大全(卖火柴的小女孩)

    在长发公主的故事里,兔子小姐变成了手持宝剑的骑士,穿过了山川和河流,战胜了地狱恶犬,最终救出了长着一头金黄色长发的熊猫先生。随着一阵空间的波动,熊猫先生和兔子小姐来到了冰天雪地的圣诞节。小女孩被这突如其来的变化惊呆了。熊猫先生没有回答,轻轻摸了摸小女孩的头。小女孩点燃了第二根火柴。熊猫先生和兔子小姐则来到壁炉前,商量起小女孩最后一个愿望。熊猫先生蹲下来,握起小女孩的手。

  • 怎样做ppr管快一点(PPR管安装方法及技巧)

    怎样做ppr管快一点PPR管安装方法及技巧首先准备好需要的材料:热熔机,小剪刀,ppr管,管件,手巾。一定要根据自己热熔ppr管的口径,准备相应的热熔头。清洁:清洁管材与管件的焊接段部位,建议用95%浓度酒精擦净。在熔接时间内迅速的将管材无旋转的垂直插入管件中,并维持5秒以上,然后按相应冷却时间冷却。热熔后做到横平竖直,美观大方。

  • 大托特包搭配技巧(大托特包搭配技巧简述)

    西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄搭配撞色托特包,优雅而不失俏皮,让气场变得灵动起来内搭白色连帽卫衣,减龄又可爱,接下来我们就来聊聊关于大托特包搭配技巧?大托特包搭配技巧西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄。衬衫+托特包白色的衬衫休闲慵懒,给人一种空灵的感觉以及干净纯粹的气质。

  • 刘涛电视剧口碑(电视剧景气指数第一)

    还记得3月份刘涛在和周渝民主演的《大宋宫词》中扮嫩出演少妇被很多观众吐槽。万万没想到时隔数月,刘涛带着她的新剧《星辰大海》杀回来了。目前主要的剧情线在刘涛饰演的女主简爱身上。因为小时候意外发现母亲出轨的事,得知真相的父亲激愤之下杀死母亲并自杀,简爱因此成为了一个孤女。逃出傻子家的简爱在与姑姑的争执中误伤姑姑,从此开启逃命生涯。简爱从面馆辞职走投无路,误打误撞进入大公司之后面临着同事的故意刁难。

  • 外墙装修材料有哪些 外墙装修材料有哪些类型

    外墙涂料具有装饰性良好、耐污染耐老化以及施工维修容易和价格合理的特点。一般来说釉面外墙砖有亚光面与无光面两大类。它的装饰的效果也不错,有柚木色、深灰色等等可供选择。由于它的表面的肌理很清晰,所以色泽漂亮且装饰性极强。本站,中国知名大型装修平台,装修领导品牌。

  • 世界上有哪些花(世界上有哪些花 名字)

    瓜叶菊、香豌豆、夏兰、石竹、石蒜、荷花、翠菊、睡莲、福禄考、晚香玉、万寿菊、千日红、建兰、铃兰、报岁兰、香堇、大岩桐、水仙、小草兰、瓜叶菊、蒲包花、免子花、入腊红、三色堇、百日草、鸡冠花、一串红。孔雀草、大波斯菊、金盏菊、非洲凤仙花、菊花、非洲菊、观赏凤梨类、射干、非洲紫罗兰、天堂鸟、炮竹红、菊花、康乃馨、红掌、满天星、星辰花、三角梅、虞美人。

  • 长歌行李长歌母亲是谁杀的(长歌行李长歌的简介)

    下面更多详细答案一起来看看吧!长歌行李长歌母亲是谁杀的《长歌行》李长歌母亲是自杀的。李长歌,太子李建成之女,生母则是回纥王族。父母手足均死于玄武门之变,满怀愤恨的长歌凭高超武艺逃出皇宫,并在追捕过程中制造“坠崖假死”而逃生,其后女扮男装隐瞒身份流落民间,一心只想为父母复仇,在家和国的利害冲突中,最后放弃复仇,和阿诗勒隼一起成为了民族和解的使者。

  • 什么时候喝蛋白粉增肌效果最好(什么时候喝蛋白粉增肌效果最好)

    从长远来看,这种方法被证明可以促使肌肉明显增长。如果摄入量超过一定的阈值,蛋白质的合成就会受限。如果是以乳清饮料的形式摄入乳清蛋白,运动者可以在运动结束后立即饮用。按每公斤体重1克的标准,在健身前后立即摄入以及在运动后1小时内摄入可快速吸收的碳水化合物,可以明显抑制肌肉分解,并大大促进肌肉快速和明显的增长。在这种情况下,大量分泌的胰岛素促进了氨基酸向工作中的肌肉运输,为蛋白质合成奠定基础。

  • 窦骁周冬雨山楂树之恋结局(周冬雨18岁第一次出演)

    周冬雨18岁第一次出演要说最近最火的电影,非《少年的你》莫属,上映14天,已经收获了12.45亿的票房成绩,成为现阶段最强的票房黑马而作为该片主演的周冬雨和易烊千玺,也凭借在该片中的精彩演出,演技得到大众的进一步认可作为“。