本文主要区分机器学习中的三种数据集,尤其是验证集和测试集,并介绍常用的交叉验证训练方法。 Training Set 训练集,即用于训练模型内参数(fit the model)的数据集。 Testing Set 即测试集,在使用训练集调整参数之后,使用测试集来评价模型泛化能力。 Validation Set 实际上使用测试集评价模型泛化能力之后并不意味着机器学习任务就此完成,最后还需要使
Sigmoid函数 我们想定义一个函数,即能够接受所有特征输入(自变量)然后预测出类别(因变量)。在二分类的情况下,可以定义输出为0和1。比如要预测一个动物是不是鸟类,是则为1,不是则为0。具有这种性质的函数,比较简单的就是单位阶跃函数(Heaviside step function)。但是该函数在x=0处从0瞬间跳变到1,这样就很难处理。换句话讲,阶跃函数在x=0处不可微,这就不利于后面使用梯
原理简介PPO是一种on-policy算法,具有较好的性能,其前身是TRPO算法,也是policy gradient算法的一种,它是现在 OpenAI 默认的强化学习算法,具体原理可参考PPO算法讲解。PPO算法主要有两个变种,一个是结合KL penalty的,一个是用了clip方法,本文实现的是后者即PPO-clip。 伪代码要实现必先了解伪代码,伪代码如下: 这是谷歌找到的一张比较适合的图
食用本篇之前,需要有DQN算法的基础,参考DQN算法实战。 原理简介Double-DQN是2016年提出的算法,灵感源自2010年的Double-Qlearning,可参考论文Deep Reinforcement Learning with Double Q-learning。跟Nature DQN一样,Double-DQN也用了两个网络,一个当前网络(对应用Q 表示),一个目标网络(对应一般用
在机器学习中,经常需要对为随机优化计算loss function的梯度,有时这些loss function会写成期望的形式。比如在变分推断中,需要计算ELBO loss(包含期望的项)的导数(derivative)。另外就是强化学习的Policy Gradient算法中的目标函数(也就是loss function)就是算期望的reward。但是一般是不能直接计算期望的梯度的,而REINFORCE和
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信