李宏毅强化学习个人笔记 - 基于值的方法（学习critic）

这里我们不学习 actor，也就是不学习怎么做事，而是学习一个 critic。

critic 的性质

关于状态 $V^\pi(s)$ 当 actor 使用 $\pi$ 的时候，在观测到状态 $s$ 后获得的期望累积奖励。

如上图：

对于不同的 actor $\pi$，给出一样的状态，可能给出的 critic $V^\pi(s)$ 也会不同。

方法一：蒙特卡洛方法（Monte-Carlo approach, MC）

critic 看到 actor $\pi$ 在玩游戏。

方法二：时序差分方法（Temporal Difference approach, TD）

critic 看到 actor $\pi$ 在玩游戏。

好处：可以不玩完游戏就能开始更新网络参数（可能在某些情况下玩完一把游戏耗时太久）

关于状态和动作 $Q^\pi(s, a)$ 当 actor 使用 $\pi$ 的时候，在观测到状态 $s$ 以及采取动作 $a$ 后获得的期望累积奖励。

指定状态，不同动作采取的奖励可能不同。

$$Q^\pi(s, a)$ 一图流$

上图右边画出了动作 $a$ 可以被穷举的情况。

“更好”的定义：对于所有可能的状态 $s$，$V^{\pi’}(s) \ge V^{\pi}(s)$（用 $\pi’$ 玩游戏得到的奖励都不小于用 $\pi$ 玩游戏得到的奖励）

寻找方法：

$\pi'(s) = \arg\max_{a}{Q^{\pi}(s, a)}$

给定状态 $s$，穷举所有可能的动作 $a$，看看哪个 Q-value $Q^{\pi}(s, a)$ 最大。Q 之前看过 $\pi$ 做过的事情，所以知道在状态 $s$ 时采取动作 $a$ 的奖励。

Google rainbow 这篇 paper。

包含 Double DQN 和 Dueling DQN。