SDPO

不得不说这篇文章的文笔挺好的。

和上一篇 OPSD在线自蒸馏的原理是类似的，但使用了环境反馈。

数学公式就不展示了，一方面看的比较头大~~（懒）~~ ，另一方面和上一篇几乎是类似的。

两篇文章都共同指向一个问题：传统的 RLVR 训练是轨迹级的稀疏奖励，蒸馏算法通过引入更密集的 token 级奖励，能更有效的指导模型。

这理论上是 RLVR 的一个完整表述，类似 GRPO 的训练方法其将 advantage 平等放入每一个 token 下，这明显是有缺陷的，许多文章也会提到这一点，这也导致了诸如：

的各种问题。

环境反馈

一大亮点是采用了环境反馈来指导教师模型。

就比如做代码题，人类做竞赛题会有以下行为：

这些都会提供丰富的反馈信息，相比于在静态数据中手动提供额外信息，环境反馈的信息密度显然更密集，更有针对性。

大致的算法和 prompt 设计如下：

作者同样验证了非密集型任务也能通过上述流程提升性能（只不过把环境反馈去除了），例如工具调用等任务。

可以发现上述的流程比 GRPO 还要重一点。

几篇文章同时提出了蒸馏算法能更好的指导模型输出清晰简短的 token：

RLVR 训练下模型的单次 token 量很大。浅层来想，RLVR 需要模型自己探索正确的推理路径，如果一个推理路径形如 “先这样，不对，再这样，还不对再这样...” ，直接的验证奖励只会告诉模型这个轨迹是正确的，需要学习；而教师蒸馏相当于重新采样，是一个自我改进的过程，其会学习到一个更加精简的推理路径指导。
由于有这种自学习的过程，SDPO 的收敛效率极快，在消融实验重，比 GRPO 的收敛快 $3$ 倍以上。