Tensorflow多GPU训练方法

宗孝鹏

发布时间 2021.03.24阅读数 4082 评论数 0

在《TensorFlow之目标检测API接口调试（超详细）》文章中，介绍了tensorflow API接口调用方法，详细描述了训练的过程，训练的时候用了单GPU训练，tensorflow是支持多GPU训练的，因此，介绍一下多GPU训练的方法。

很简单，只需要修改两个地方：

第一个参数是train.py文件，找到以下参数

flags.DEFINE_integer('num_clones', 1, 'Number of clones to deploy per worker.')
默认为1，如果自己有多个GPU，可以将参数修改为GPU数量，比如说2、4等；当然也可以在运行train.py的时候以参数的形式传入。

第二个参数是训练配置文件，如rfcn_resnet101_coco.config，根据自己使用的具体网络不同，在train_config中，找到batch_size参数，默认值为1，可修改为大点的参数，理论上

大点比较好，并且要求是GPU数量的整数倍，比如设置为8、16、32等，这个参数根据显存来决定，显存越大，可设置的越大。

在batch_size一定的情况下，GPU数量越多，训练速度越快

修改完上述两个参数后，就可以调用多个GPU来训练了。

注意batch_size的设置要合理，如果设置过大，会报如下所示的错误

ResourceExhaustedError (see above for traceback): OOM when allocating tensor with shape[8,2048,36,64] and type float on /job:localhost/replica:0/task:0/device:GPU:1 by allocator GPU_1_bfc

如果说想要指定GPU号，则在train.py中添加以下代码

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0，3'

表示调用第1块和第4块显卡训练

tensorflow

转载原出处：https://zongxp.blog.csdn.net/article/details/84941121

打赏 0

上一篇：Tensorflow之eval.py使用方法

下一篇：TensorFlow学习之TensorBoard使用方法

Tensorflow多GPU训练方法

宗孝鹏

为你推荐

强化学习基础 Ⅹ: 一文读懂两种 PPO 原理与实现

tensorboard的安装与使用

02_Tensorflow基本操作

2021李宏毅机器学习（5）：Domain Adaptation

深度学习六：Keras sequential 模型训练时出现 RuntimeError：

精选软件定义网络：重新定义云计算网络架构

关于作者

宗孝鹏

15

0

0

1

TX2之tensorflow环境部署（最简单）

TensorFlow学习之TensorBoard使用方法

ROS导航包参数设置

相关推荐

Pytorch深度学习（一）

浅析扩散模型与图像生成【应用篇】(八)——BBDM

「RL篇贰」DQN 原理与实战

精选Jetson AGX Orin安装archiconda、Pytorch

精选深度学习三：深入浅出 Word2vec--图文解读原理一

（以视觉为中心的BEV感知综述）论文笔记Vision-Centric BEV Perception: A Survey

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

Tensorflow多GPU训练方法

宗孝鹏

为你推荐

强化学习基础 Ⅹ: 一文读懂两种 PPO 原理与实现

tensorboard的安装与使用

02_Tensorflow基本操作

2021李宏毅机器学习（5）：Domain Adaptation

深度学习 六 ：Keras sequential 模型训练时出现 RuntimeError：

精选软件定义网络：重新定义云计算网络架构

评论（0）

关于作者

宗孝鹏

15

0

0

1

TX2之tensorflow环境部署（最简单）

TensorFlow学习之TensorBoard使用方法

ROS导航包参数设置

相关推荐

Pytorch深度学习（一）

浅析扩散模型与图像生成【应用篇】(八)——BBDM

「RL篇 贰」DQN 原理与实战

精选Jetson AGX Orin安装archiconda、Pytorch

精选深度学习 三 ：深入浅出 Word2vec--图文解读原理 一

（以视觉为中心的BEV感知综述）论文笔记Vision-Centric BEV Perception: A Survey

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

深度学习六：Keras sequential 模型训练时出现 RuntimeError：

「RL篇贰」DQN 原理与实战

精选深度学习三：深入浅出 Word2vec--图文解读原理一

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板