深度Q学习 深度Q学习将深度学习和强化学习相结合,是第一个深度强化学习算法。深度Q学习的核心就是用一个人工神经网络q ( s , a ; w ) , s ∈ S , a ∈ A 来代替动作价值函数。由于神经网络具有强大的表达能力,能够自动寻找特征,所以采用神经网络有潜力比传统人工特征强大得多。最近基于深度Q网络的深度强化学习算法有了重大的进展,在目前学术界有非常大的影响力。 ·经验回放(ex
本篇文章是之前期望极大算法(EM算法)文章的后续,有需要可以先看看那篇文章关于EM算法的推导。 高斯混合模型 高斯混合模型是研究算法的人避不开的一个东西,其在非深度学习的远古时代经常被用到,比如图像处理任务的前背景提取,点云处理任务的点云聚类等等等等。 具体的,高斯混合模型是指具有如下形式的概率分布模型: 称为第k 个分模型。 Q 函数的一般表达 在算法处理的过程中,将问题建模成高斯混合模型
强化学习(五) - 时序差分学习(Temporal-Difference Learning)及其实例 5.1 TD预测 例5.1 回家时间的估计 5.2 TD预测方法的优势 例5.2 随机移动 5.3 TD(0)最优性 例5.3:批量更新下的随机行走 例5.4: You are the Predictor 5.4 Sarsa:策略 TD控制 例 5.5
由上面一篇文章我们已经知道了,如果我们从真实数据分布里面取n个样本,根据给定样本我们可以列出其出现概率的表达式,那么生成这N个样本数据的似然(likelihood)就是 那么下面我们来看看GAN的推导。 在极大似然估计中,我们假定要求的事物有一个固定的模型,写作,但这个模型十分复杂,我们无法完全彻底的去刻画它,只能列一个带有参数的式子,然后用模型抽样出来的样本去估计出这个参数到底最有可能是什么。
上一篇文章我们简单介绍了信息熵的概念,知道了信息熵可以表达数据的信息量大小,是信息处理一个非常重要的概念。 注意,我们前面在说明的时候log 是以2为底的,但是一般情况下在神经网络中,默认以e 为底,这样算出来的香农信息量虽然不是最小的可用于完整表示事件的比特数,但对于信息熵的含义来说是区别不大的。其实只要这个底数是大于1的,都能用来表达信息熵的大小。 本篇我们来看看机器学习中比较重要的一个
线性近似 最常使用的函数近似就是线性近似和人工神经网络。本节介绍线性近似。线性近似是用许多特征向量的线性组合来近似价值函数。特征向量则依赖于输入(即状态或状态动作对)。以动作价值近似为例,我们可以为每个状态动作对定义多个不同的特征x ( s , a ) = ( x j ( s , a ) : j ∈ J ),进而定义近似函数为这些特征的线性组合,即 对于状态函数也有类似的近似方法: 精确查找表
强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例 4. 蒙特卡洛方法 4.1 蒙特卡洛预测 例4.1:Blackjack(21点) 4.2 动作价值的蒙特卡洛估计 4.3 Monte Carlo 控制 例4.2: 21点的解法 4.4 蒙特卡洛控制的无探索启动 4.5 通过重要性采样进行Off-policy预测 4.6 增量实现 4.
强化学习(三) - Gym库介绍和使用,Markov决策程序实例,动态规划决策实例 1. 引言 在这个部分补充之前马尔科夫决策和动态规划部分的代码。在以后的内容我会把相关代码都附到相关内容的后面。本部分代码和将来的代码会参考《深度强化学习原理与python实现》与Udacity的课程《Reinforcement Learning》。 2. Gym库 Gym库(http://gym.openai.c
参考:https://github.com/juandes/pikachu-detection/blob/master/detection_video.py 在之前的文章中,实现了利用tensorflow的目标检测API训练模型,并用图片来验证模型的有效性。本文的目的是为了将模型应用在视频检测中,实现视频流的实时检测。 ---------------------------------------
参考:https://blog.csdn.net/u010099080/article/details/77426577 在使用tensorflow训练神经网络之后,可以输出训练日志,然后用tensorboard打开进行可视化,本文目的是整理tensorboard的使用方法以及里边曲线的含义。 1 运行过程 添加记录节点:tf.summary.scalar/image/histogram()等 汇
3.动态规划 3.1 介绍 术语动态规划(DP:Dynamic Programming) 指的是一个算法集合,可以用来计算最优策略,给定一个完美的环境模型,作为马尔可夫决策过程(MDP)。经典的DP算法在强化学习中的应用有限,因为它们的假设是一个完美的模型,而且计算 量大,但它们仍然具有重要的理论意义。DP为理解其余部分中介绍的方法提供了必要的基础。实际上,所有这些方法都可以被看作是实现与DP几乎
在《TensorFlow之目标检测API接口调试(超详细)》文章中,介绍了tensorflow API接口调用方法,详细描述了训练的过程,训练的时候用了单GPU训练,tensorflow是支持多GPU训练的,因此,介绍一下多GPU训练的方法。 很简单,只需要修改两个地方: 第一个参数是train.py文件,找到以下参数 flags.DEFINE_integer('num_clones',
用tensorflow训练模型时,很自然的想到要同时验证模型的效果,得到mAP、loss等参数,从而判断什么时候可以终止训练,防止欠拟合或者过拟合。幸运的是,tensorflow官方 已经给出了验证的脚本eval.py,网上找了很多资料,都没有人能把使用方法讲清楚,因此在研究的基础上做一个总结。本文是基于目标检测API接口object_detection做进一步的 分析,如果对这些接口不熟悉的,可
二维点云ICP原理推导 描述 ICP是迭代就近点算法,大部分的实现代码都是基于PCL点云库的,也就是三维点云的匹配 实际上,二维点云数据也算是常见的数据类型,比如移动机器人经常使用的单线雷达。本文就是二维点云ICP的原理推导 算法原理 二维点云数据说明 现在假设我们有两帧点云A与B,我们把 A 称为标准点云,把 B 称为源点云。我们的需求是把点云 B 经过矩阵变换到点云 A,需要注意的是点云
强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对 刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、
函数近似方法 有模型数值迭代算法、回合更新算法和时序差分更新算法,在每次更新价值函数时都只更新某个状态(或状态动作对)下的价值估计。但是,在有些任务中,状态和动作的数目非常大,甚至可能是无穷大,这时,不可能对所有的状态(或状态动作对)逐一进行更新。函数近似方法用参数化的模型来近似整个状态价值函数(或动作价值函数),并在每次学习时更新整个函数。这样,那些没有被访问过的状态(或状态动作对)的价值估计也
最近nvidia官网发布了专门针对tx2的tensorflow-gpu安装包,这样将TX2上部署tensorflow的难度大大降低,只需几个步骤即可。 1 刷机jetpack3.3 首先TX2必须是3.3版本的jetpack,因为截止目前nvidia发布的tensorflow只支持3.3版本的jetpack,如图所示,日后如果有更新了可以刷其它版本的,所以第一步就是给TX2刷机。具体的刷机方法
参考:https://github.com/jkjung-avt/tf_trt_models/tree/tf-1.8 在之前的文章中,详细介绍了tensorflow目标检测接口的使用方法,包括训练与推理流程,该工作主要是在服务器端完成的,而我们实际应用的时候,推理不一定发生在服务器上,而可能是TX2等终端设备,因此,在TX2上进行模型的推理加速,对于实际应用很有必要。 幸运的是,nvidia已经针
参考:https://arleyzhang.github.io/articles/7f4b25ce/ 1 什么是TensorRT 一般的深度学习项目,训练时为了加快速度,会使用多GPU分布式训练。但在部署推理时,为了降低成本,往往使用单个GPU机器甚至嵌入式平台(比如 NVIDIA Jetson)进行部署,部署端也要有与训练时相同的深度学习环境,如caf
上一篇文章我们强力推导了GAN的数学公式,它就是: 在我们训练D 网络的时候,我们要让V 最大化,当我们训练G 网络的时候我们要让V最小化,就是这么简单。因此哪怕数学推导那篇五六千字的博客不想看,实做也可以做。 实做上比较大的一个问题是我们实际上不能获取到全部真实图像样本和全部拟合图像样本。因此上面这道公式在实做上是搞
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信