李宏毅强化学习个人笔记 - 概览

课程链接：

其他人的笔记：

强化学习-李宏毅-学习笔记 <总> - 恒大大的文章 - 知c乎
https://zhuanlan.zhihu.com/p/344975862

之前（去年）看过的内容，当时是把笔记写在了草稿纸上。因为怕忘+怕被丢到垃圾桶里，所以就把笔记弄成电子版的，顺便重看一遍，当成一个温故而知新的过程。

传送门：

基本概念

深入理解强化学习（一）- 概念和术语 - 莫冉的文章 - 知乎
https://zhuanlan.zhihu.com/p/478594917

环境（environment）：智能体生存以及交互的世界，譬如熟知的 gym 环境
智能体（agent）：可以是人，可以是网络，甚至古早一点可以是查表之类的映射
状态（state）、观测值（observation）、动作（action）
智能体的目标：最大化累积奖励（cumulative reward）或最大化期望奖励（expected reward）

如上图，智能体从环境中观测到水洒了，就去拖干净，这个时候得到了一个正向的 reward；假设智能体把水洒到地上了，就得到一个负向的 reward。

与监督学习的比较

监督学习 直接拟合标签（learning from teacher），而强化学习更加注重多阶段动作后的 累积奖励（learning from experience），两者可以结合使用（如初版 AlphaGo 就是监督学习+强化学习）。监督学习需要有标签的训练样本，而强化学习可以直接从环境的反馈学，甚至可以像 AlphaGo 那样左右互搏。

譬如对话机器人，可以通过某些规则去评价对话质量的好坏。

环境通常会存在一些随机性，譬如打飞机里面对面的飞机可能在每局游戏中的跑法都不同。

强化学习的难点

延迟奖励：譬如打飞机里面，只有发射子弹打到飞机会得分，而移动飞机去瞄准对面飞机没得分；譬如围棋里面的弃子；
智能体的动作影响其之后收到的数据：譬如探索；譬如打飞机里面把一个飞机打掉了那么就只能去打其他飞机

强化学习算法概览

基于策略（Policy-based）：学一个 actor
基于值（Value-based）：学一个 critic
基于两者：actor-critic

举例：

AlphaGo：Policy-based + Value-based + Model-based
ICML 2016 上 David Silver 等弄出来的 A3C（Asynchronous Advantage Actor-Critic）：“Asynchronous Methods for Deep Reinforcement Learning”

还有逆强化学习（Inverse Reinforcement Learning, IRL）

一些更多的学习资料

书籍：Reinforcement Learning: An Introduction
- https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
David Silver 的讲座
- http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
- http://videolectures.net/rldm2015_silver_reinforcement_learning/
John Schulman 的讲座
- https://youtu.be/aUrX-rP_ss4