课程链接:

【【李宏毅】2020 最新课程 (完整版) 强化学习 - 71.作業十五 ML Lecture 23-1 - Deep Re】

其他人的笔记:

强化学习-李宏毅-学习笔记 <总> - 恒大大的文章 - 知c乎
https://zhuanlan.zhihu.com/p/344975862

之前(去年)看过的内容,当时是把笔记写在了草稿纸上。因为怕忘+怕被丢到垃圾桶里,所以就把笔记弄成电子版的,顺便重看一遍,当成一个温故而知新的过程。


传送门:


基本概念

深入理解强化学习(一)- 概念和术语 - 莫冉的文章 - 知乎
https://zhuanlan.zhihu.com/p/478594917

  • 环境(environment):智能体生存以及交互的世界,譬如熟知的 gym 环境
  • 智能体(agent):可以是人,可以是网络,甚至古早一点可以是查表之类的映射
  • 状态(state)、观测值(observation)、动作(action)
  • 智能体的目标:最大化累积奖励(cumulative reward)或最大化期望奖励(expected reward)

如上图,智能体从环境中观测到水洒了,就去拖干净,这个时候得到了一个正向的 reward;假设智能体把水洒到地上了,就得到一个负向的 reward。

与监督学习的比较

监督学习 直接拟合标签(learning from teacher),而强化学习更加注重多阶段动作后的 累积奖励(learning from experience),两者可以结合使用(如初版 AlphaGo 就是监督学习+强化学习)。监督学习需要有标签的训练样本,而强化学习可以直接从环境的反馈学,甚至可以像 AlphaGo 那样左右互搏。

譬如对话机器人,可以通过某些规则去评价对话质量的好坏。

环境通常会存在一些随机性,譬如打飞机里面对面的飞机可能在每局游戏中的跑法都不同。

强化学习的难点

  • 延迟奖励:譬如打飞机里面,只有发射子弹打到飞机会得分,而移动飞机去瞄准对面飞机没得分;譬如围棋里面的弃子;
  • 智能体的动作影响其之后收到的数据:譬如探索;譬如打飞机里面把一个飞机打掉了那么就只能去打其他飞机

强化学习算法概览

  • 基于策略(Policy-based):学一个 actor
  • 基于值(Value-based):学一个 critic
  • 基于两者:actor-critic

举例:

  • AlphaGo:Policy-based + Value-based + Model-based
  • ICML 2016 上 David Silver 等弄出来的 A3C(Asynchronous Advantage Actor-Critic):“Asynchronous Methods for Deep Reinforcement Learning”

还有逆强化学习(Inverse Reinforcement Learning, IRL)

一些更多的学习资料