李宏毅强化学习个人笔记 - 概览
课程链接:
【【李宏毅】2020 最新课程 (完整版) 强化学习 - 71.作業十五 ML Lecture 23-1 - Deep Re】
其他人的笔记:
强化学习-李宏毅-学习笔记 <总> - 恒大大的文章 - 知c乎
https://zhuanlan.zhihu.com/p/344975862
之前(去年)看过的内容,当时是把笔记写在了草稿纸上。因为怕忘+怕被丢到垃圾桶里,所以就把笔记弄成电子版的,顺便重看一遍,当成一个温故而知新的过程。
传送门:
- 基于策略的方法
- 基于值的方法
- 基于策略的方法 - PPO
- 基于值的方法 - Q-learning 简介
- 基于值的方法 - Q-learning 在训练时的一些技巧
- 基于值的方法 - 对于连续动作的 Q-learning
- Actor-Critic
- 其他姿势
基本概念
深入理解强化学习(一)- 概念和术语 - 莫冉的文章 - 知乎
https://zhuanlan.zhihu.com/p/478594917
- 环境(environment):智能体生存以及交互的世界,譬如熟知的 gym 环境
- 智能体(agent):可以是人,可以是网络,甚至古早一点可以是查表之类的映射
- 状态(state)、观测值(observation)、动作(action)
- 智能体的目标:最大化累积奖励(cumulative reward)或最大化期望奖励(expected reward)
如上图,智能体从环境中观测到水洒了,就去拖干净,这个时候得到了一个正向的 reward;假设智能体把水洒到地上了,就得到一个负向的 reward。
与监督学习的比较
监督学习 直接拟合标签(learning from teacher),而强化学习更加注重多阶段动作后的 累积奖励(learning from experience),两者可以结合使用(如初版 AlphaGo 就是监督学习+强化学习)。监督学习需要有标签的训练样本,而强化学习可以直接从环境的反馈学,甚至可以像 AlphaGo 那样左右互搏。
譬如对话机器人,可以通过某些规则去评价对话质量的好坏。
环境通常会存在一些随机性,譬如打飞机里面对面的飞机可能在每局游戏中的跑法都不同。
强化学习的难点
- 延迟奖励:譬如打飞机里面,只有发射子弹打到飞机会得分,而移动飞机去瞄准对面飞机没得分;譬如围棋里面的弃子;
- 智能体的动作影响其之后收到的数据:譬如探索;譬如打飞机里面把一个飞机打掉了那么就只能去打其他飞机
强化学习算法概览
- 基于策略(Policy-based):学一个 actor
- 基于值(Value-based):学一个 critic
- 基于两者:actor-critic
举例:
- AlphaGo:Policy-based + Value-based + Model-based
- ICML 2016 上 David Silver 等弄出来的 A3C(Asynchronous Advantage Actor-Critic):“Asynchronous Methods for Deep Reinforcement Learning”
还有逆强化学习(Inverse Reinforcement Learning, IRL)
一些更多的学习资料
- 书籍:Reinforcement Learning: An Introduction
- David Silver 的讲座
- John Schulman 的讲座
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Comment