《如何基于视觉深度强化学习实现机械臂抓取》课程交流答疑
路径应该是没问题,不知道为什么加载出来的额数据集是0 这是我的数据集
适用于机器学习、强化学习的docker上线了!!! https://github.com/borninfreedom/dockers4ml 欢迎star fork pr follow! 购买课程的童鞋支持docker功能定制! V:15621465986
https://www.jianguoyun.com/p/DdthY8UQnNm0CRjO76wE
machine learning - What is the way to understand Proximal Policy Optimization Algorithm in RL? - Stack Overflow
我之前一直这么用f string err = 'nihao' print(f'err={err},type(err)={type(err)}') #Output: err=nihao,type(err)=<class 'str'> 缘来应该这么用 err = 'nihao' print(f'{err=},{type(err)=}') # Output: err=nihao,type(e
vwxyzjn/cleanrl: High-quality single file implementation of Deep Reinforcement Learning algorithms with research-friendly features (PPO, DQN, C51, Ape-X DQN, DDPG, TD3, SAC) (github.com)
第三章 多元正态分布 (cnu.edu.cn)
When to use (He or Glorot) normal initialization over uniform init? And what are its effects with Batch Normalization? neural network - When to use (He or Glorot) normal initialization over uniform
[2201.02135] Deep Reinforcement Learning (arxiv.org) Leiden大学Aske Plaat教授《深度强化学习》2022新书。
今天发现一个不错的pandas 的GUI库,adamerose/PandasGUI: A GUI for Pandas DataFrames (github.com) 能看YouTube的可以看一下他提供的演示视频,很强!
有关注的可以来拼一下
今天看了个quora说强化学习与监督学习的区别,觉着写的很好,(13) Prasoon Goyal's answer to What is the difference between supervised learning and reinforcement learning? - Quora 大体意思就是强化学习生成的动作会对获取到的数据有影响,但是监督学习不会,所以对于一些场景,很多的状态监
(14条消息) 冯·诺伊曼奖得主Jorge Nocedal:增强学习中零阶优化方法及其应用(附演讲视频和PPT)_BAAIBeijing的博客-CSDN博客
方便的查看urdf、sdf等文件一直困扰着我,抑或是使用ros,编写一些launch文件来查看,抑或是使用pybullet,编写一些代码来查看,总觉着不是很方便,所以趁着业余时间开发了这个app,可以像查看图片一样方便的查看urdf、sdf等文件。 borninfreedom/vismod: 可直接用来查看urdf、sdf等模型,并且在查看的同时,如果有关节电机的模型,还会添加上关节电机的控制滑条
borninfreedom/deep_reinforcement_learning_learning_route: 深度强化学习学习路线 (github.com) 一直在更新,欢迎pr
今天发现了一个仓库,仓库里面有个图片不错,mpire/benchmarks_averaged.png at master · Slimmer-AI/mpire (github.com) 都没有理由不用ray了,不仅并行做的好,连强化学习都解决了
在编写环境的时候,最新版的代码中,包含了较多的文件和文件夹的操作,比如下面的代码片段 self.robot_id = p.loadSDF(os.path.join(sdf_loc, "kuka_with_wsg2.kuka_with_gripper"))[0] id = p.loadSDF(os.path.join('models/small_object_models', obj, '1/mod
ElectronicElephant/pybullet_ur5_robotiq: Gym-Styled UR5 arm with Robotiq-85 / 140 gripper in Bullet simulator (github.com)
有一个小伙伴(拿到了吉尼斯世界纪录)用issac gym做的仿真,可以4000多个环境并行,真羡慕啊,一会就训练完成了,直接在gpu里面仿真。关于issac gym的论文,可以看看Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning这篇。
如图所示,显示无法下载,该如何解决?
pbt主要用来自动优化超参数,属于automl方向吧应该是。类似的还有optuna,对于小型的网络的超参数优化效果也不错。准备加上pbt来自动优化神经网络的超参数,但是pbt的实现没发现有太好的,stable baselines目前还不支持,rllib支持,Guide to Population Based Training (PBT) — Ray v1.9.0,但是rllib的使用较为繁琐。纠结
购买课后问我要
现在抓取的代码也取得了不错的效果,文件有点多,最近抽个时间整理一下发布到GitHub。
经常有小伙伴在pybullet的代码中遇到了一个错误,我这里就不具体指出是哪个错误了,错误的原因就是pybullet新版中改变了一个API的返回值。 所以我们统一使用 3.1.0 版本的pybullet,安装的时候 pip install pybullet==3.1.0 这个版本对应着这份环境代码是没问题的。
加入者
泡泡
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信