策略梯度小计

RL 好难啊，RL 好难啊。

这里记录（~~抄一些~~） cs336 和 spinning up 的推导和训练流程，主要遵循 cs336 的一些精简定义。以及做作业的一些坑。

定义

Categorical policy： $a_{t} \sim π_{θ} (\cdot | s_{t})$ , 状态和环境 $o, s$ 在这里等价。
$π_{θ} (a_{t} | s_{t}) = softmax (\dots)$
Trajectories: $τ = (s_{0}, a_{0}, \dots, s_{T}, a_{T}), s_{0} \sim ρ_{0} (s_{0})$ , 在语言模型中，简单认为拼接 $s_{t + 1} = s_{t} | | a_{t}$
reward: $r_{T} = R (s_{T}, a_{T})$ ，在语言模型中，我们认为预测了正确的文本算 $R = 1$ 奖励，否则为 $0$
一个轨迹的奖励为 $R (τ) = \sum_{t = 0}^{T} r_{t}$ , 我们暂时只考虑又穷轨迹，且不引入折扣因子。
objective of agent: maximize $J (θ) = E_{τ \sim π_{θ}} [R (τ)]$
problem: $θ^{*} = {argmax}_{θ} J (θ)$

简单的梯度上升为： $θ_{k + 1} = θ_{k} + α \nabla_{θ} J (θ_{k})$

一个重要的结论为 $\nabla_{θ} J (θ_{k}) = E [\nabla_{θ} \log P (τ | θ) R (τ)] = E [\sum_{t} \nabla_{θ} \log π_{θ} (a_{t} | s_{t}) R (τ)]$

因此从一个批次样本 $D = {τ^{i}}_{i = 1}^{N}$ 可以获得无偏估计:

\nabla_\theta J(\theta_k) = \frac{1}{N} \sum_{i=1}^N\sum_{t=0}^T \nabla_\theta \log \pi_\theta (a_t^i | s_t^i) R(\tau^i)$$ 这是最基础的训练方程，训练过程中需要关注的为： 1. 求解策略 $a_t$ 2. 求归一化概率对数值 $\log \pi_\theta (a_t | s_t)$ REINFORCE 梯度的一个问题为方差大，主要来源为 $R(\tau)$ ，我的理解为：对于每一个策略都对整体轨迹的奖励乘积，而轨迹有不同噪声，在奖励积累时方差也在线性积累（$R(\tau)$ 积累方差，整个求和过程再积累方差），方差就爆炸了。 ## 改进 ### baseline 一个改进方法为为奖励设置基线，引入只和 $s_t$ 有关的函数 $b(s_t)$： $$B=\nabla_\theta J(\theta_k) = \frac{1}{N} \sum_{i=1}^N\sum_{t=0}^T \nabla_\theta \log \pi_\theta (a_t^i | s_t^i) (R(\tau^i)-b(s_t))

这里的 $b (s_{t})$ 可以是一个训练的模型（PPO），例如 $V^{π} (s) = E [R (τ) | s_{t} = s]$ ，即 $s_{t} = s$ 开始策略预测的期望回报，也可以是不用训练的值，例如后续的 GRPO。

一个重要结论为：

E [\sum_{t} \nabla_{θ} \log π_{θ} (a_{t} | s_{t})] = \sum_{t} E [\nabla \log P (x)] = 0

考虑将期望展开，将对数导数展开得到常数导数恒定为 $0$ ，因此添加 $b (s_{t})$ 仍为无偏估计。

应该注意的是，我们在此重新定义了一个梯度，这不是损失，不应将其作为评估指标。

我们可以将先前的一次采样结果缓存，重复利用，得到离轨策略梯度：

\frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 0}^{T} \frac{π_{θ} (a_{t} | s_{t})}{π_{θ o l d} (a_{t} | s_{t})} \nabla_{θ} \log π_{θ} (a_{t}^{i} | s_{t}^{i}) R (τ^{i})

这仍然是一个无偏估计。

off-policy 在采样困难的场景有较大的用处，因为可以多次复用初始采样，但由于还要维护历史值，其计算量比在线验证更大。

注意：这里是对概率的比值，而实际编写时通常直接得到的为对数概率，需要做一个转化。

GRPO 在 baseline 上不训练一个模型，而是采用直接计算的方法，对于一个问题 $q$ ，采样 $G$ 个输出 $o^{1, 2 \dots, G}$ ，并计算对应奖励 $r^{1, 2, \dots, G}$ ，其 $advantage$ 为：

A^{i} = \frac{r^{i} - mean (r^{1}, r^{2}, \dots, r^{G})}{std (r^{1} + r^{2} + \dots r^{G})}

一个输出 $o^{i}$ 内部的每个 token，都用同一个 $A^{i}$ 作为基线。

clip 的用处在于限制 off-policy 乘积因子的改变幅度：

token - objective = min (\frac{π_{θ} (a_{t} | s_{t})}{π_{θ o l d} (a_{t} | s_{t})} A^{i}, g (ϵ, A^{i}))

g (ϵ, A^{i}) = {\begin{cases} (1 + ϵ) A^{i} \\ (1 - ϵ) A^{i} \end{cases}

通常 $ϵ$ 取 $0.2$ 。

当该输出奖励高， $A^{i} > 0$ ，clip 会限制梯度的增长，当 $A^{i} < 0$ ，clip 也会限制模型的下降。