精选【CUDA编程1】年轻人的第一个CUDA程序

木盏

发布时间 2024.03.02阅读数 882 评论数 0

本系列讲述的方法均是Linux实现方法。
说CUDA是人工智能算法行业的重要基石一点也不为过。老黄在图灵架构发布的时候说，图灵架构是英伟达历史上自2006年以来最伟大的飞跃。而2006年，正是CUDA发布的时间。
利用CUDA，开发者可以拿N家的GPU进行各种自定义的任务，挖矿、炼丹等等。今天咱们通过第一个CUDA程序，了解一下CUDA程序的构造。看CUDA界的Hello World程序：

#include<stdio.h>
__global__ void hello_world(void)
{
  printf("GPU: Hello world!\n");
}
int main(int argc,char **argv)
{
  printf("CPU: Hello world!\n");
  hello_world<<<1,10>>>();
  cudaDeviceReset();//if no this line ,it can not output hello world from gpu
  return 0;
}

代码来自谭老师的cuda教学repo。将上述代码保存为helloworld.cu，运行方法：

nvcc -o helloworld helloworld.cu
./helloworld

上述代码讲述了如何利用GPU把hello world打印10遍。用__global__修饰的函数为核函数，可直接被GPU上的thread调用运行。本程序的入口是main函数，由CPU进入程序，然后用CPU再调用GPU。
<<<1,10>>>表示分配的block数量和thread数量，即用10个线程并行去跑helloworld()函数。

这里的block和thread表示GPU的阵列粒度，一个block是一组thread集合，而一组block是一个grid。CUDA中的grid/block/thread既是逻辑概念也是硬件概念。而thread就是CUDA运行核函数的最小单位。

可以用一张图来展示：

用10个GPU线程启用print，跟用for循环print10遍的结果看起来一样，实则运算逻辑是并行和串行的区别。思考：为什么GPU被用来做挖矿？ 答：因为简单重复的哈希运算可以并行做。挖矿算法就是用穷举法来试答案，CPU一次只能试1次答案，而GPU理论上一次可以使线程数个答案。这立马就高下立判了。最后，如果想在GPU上用printf，则必须加一个cudaDeviceReset()。

总结

GPU有大量的计算阵列，每个阵列单元可以独立运行函数。这也是CUDA能够比CPU计算呈指数倍快速的原因。CUDA最常见的用法就是矩阵运算，你想想如果你用C语言写两个矩阵的乘法，是不是需要写2个for循环来嵌套。直接就是O ( n 2 ) O(n^2)O(n
2
)的复杂度了。如果用CUDA去做，计算就会指数级降低。
所以，但凡涉及到多个for循环嵌套的大规模计算，都可以用CUDA来减少for循环。

CUDA C++C语言 GPU

转载原出处：https://muzhan.blog.csdn.net/article/details/120157690?spm=1001.2014.3001.5502

打赏 0

上一篇：【CUDA编程2】了解CUDA中的资源划分

下一篇：【CUDA编程3】简单的矩阵乘法

精选【CUDA编程1】年轻人的第一个CUDA程序

木盏

总结

为你推荐

【C++ 异步任务】`std::future`

CloudCompare二次开发之如何通过PCL进行点云采样？

C++数据结构与算法——回溯算法棋盘问题

网络测试工具——iperf3详细使用说明

趁热打铁，再构建百万节点关系中药方剂知识图谱

傅里叶级数、傅里叶变换 (FT)

关于作者

木盏

37

0

500

2

YOLO系列之yolo v1

精选【CUDA编程4】获取device详细信息

精选【CUDA编程1】年轻人的第一个CUDA程序

相关推荐

知识图谱基本工具Neo4j使用笔记五：APOC插件安装及简单应用

STM32复习笔记（二）时钟系统

Rust入门：C++和Rust动态库（dll）的相互调用

精选鸿蒙设备学习|常见编译错误

精选用selenium在python下实现批量网页截图

【Pyqt6 学习笔记】实现串口调试助手，并将接收到数据模拟键盘输出

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

精选【CUDA编程1】年轻人的第一个CUDA程序

木盏

总结

为你推荐

【C++ 异步任务 】`std::future`

CloudCompare二次开发之如何通过PCL进行点云采样？

C++数据结构与算法——回溯算法棋盘问题

网络测试工具——iperf3详细使用说明

趁热打铁，再构建百万节点关系中药方剂知识图谱

傅里叶级数、傅里叶变换 (FT)

评论（0）

关于作者

木盏

37

0

500

2

YOLO系列之yolo v1

精选【CUDA编程4】获取device详细信息

精选【CUDA编程1】年轻人的第一个CUDA程序

相关推荐

知识图谱基本工具Neo4j使用笔记 五 ：APOC插件安装及简单应用

STM32复习笔记（二） 时钟系统

Rust入门：C++和Rust动态库（dll）的相互调用

精选鸿蒙设备学习|常见编译错误

精选用selenium在python下实现批量网页 截图

【Pyqt6 学习笔记】实现串口调试助手，并将接收到数据模拟键盘输出

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

【C++ 异步任务】`std::future`

知识图谱基本工具Neo4j使用笔记五：APOC插件安装及简单应用

STM32复习笔记（二）时钟系统

精选用selenium在python下实现批量网页截图

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板