研究强化学习的有两拨人,一拨是计算机出身,认为强化学习是机器学习的分支,考虑到现阶段的所谓主流机器学习大量使用概率统计知识,机器学习约等同统计机器学习,而强化学习本是炒冷饭,是被机器学习的火热带起来的,计算机出身的人编写的强化学习资料中也充斥着期望、方差、条件期望等统计学术语,现阶段机器学习、深度学习等研究的火热也是这拨人发动起来的;一拨人是控制出身,认为强化学习约等同于最优控制,具体来说是最优控制中的动态规划,再具体来说是提供了一种求解动态规划中Bellman方程的方法,控制出身的人编写的强化学习资料中充斥着系统方程、Lyapunov稳定性等术语,并且控制出身的人研究强化学习或者机器学习的目的不纯,更多地是想搭前一拨人带起来的流行趋势便车,在研究里面随便套一下已有的机器学习方法,显得高大上一点,而不是考虑机器学习究竟是否适用于研究的问题(或者更进一步,究竟研究的问题是不是非要用机器学习不可,优势在哪里,其他方法是不是就不行了)。总之,两拨人的研究互相不友好,导致的结果是彼此看对方的资料往往看得一头雾水,不得要领,这一点在本人尝试看计算机出身的人编写的强化学习资料时感受颇深,下面的笔记就是对这一过程的记录。
1.关于概率

参考文献

[1]陈家鼎, 郑忠国. 概率与统计[M]. 北京大学出版社, 2007.

[2]Sutton, Richard S., Andrew G. Barto. Reinforcement learning: An introduction (2nd edition). MIT press, 2018.