Social-R1

一篇过程奖励强化学习，最终遗憾 ICLR 2026 拒稿，也有一些反思。

解读

我感觉可以从这篇文章说起：

其通过实验验证了基于结果的强化学习无法使得小模型 (7B) 泛化出心智推理能力（其实 7B 也不小了）。

并且多个文章表明心智推理能力是遵循 Scaling Law 的，小模型训练推理总感觉有点魔法。

感觉也能受到 DeL-ToM 的一些解读的一些启发，这一篇只将一个评分器用于 inference ，那是否可以运用到 LR 中，做一个过程奖励？

总的来说，现有模型做不好复杂推理，其中一个原因是一个被称为 “推理寄生/逻辑翻转” 的概念，即大模型可能通过数据匹配 hacking 了一个答案出来，接着为了迎合 CoT 奖励对着答案写了一堆思考，在一些现有 SOTA 中也能看到这个现象，感觉模型上来先假定哪个答案是对的，然后开始一本正经思考。

那么过程奖励就是必要的，Social-R1 使用了三个奖励组合：

R = R_{f m t} (w_{o} R_{o u t} + τ (w_{s} R_{s t r u c t} + w_{c} R_{c o n t e n t}) \cdot R_{l e n}

这里 $R_{f m t}$ 采用了 deepseek 的格式验证（<think> <answer>）， $R_{o u t}$ 是结果奖励， $R_{l e n}$ 是 token 长度限制奖励，采用了一种平滑的处理方式，使得 rollout 长度不在限制内不会突然爆 0 reward。

$R_{s t r u c t}$ 是 CoT 结构判别，其将一个思考过程 SIP 分解为 $4$ 个阶段：

主要判别 CoT 是否按这个格式输出东西，那么这种诡异分类是如何判别的呢，直接用的 gpt-4o。。。

$R_{c o n t e n t}$ 是对每个过程的内容判断，防止瞎说，文章用了较大的笔墨来说这个评判机是怎么构建的：

主要贡献就是这么多，最终结论是 7B 模型比 70B 的准确率还要高。

来自 area chair：

the "anomalies" in Table 1 where explicit reasoning (CoT) actually degrades performance for several base models raise concerns about the benchmark's reliability.
The reliance on o3 and GPT-5 to generate gold trajectories and assign quality scores may result in overfitting of the stylistic preferences and internal biases rather than generalized social intelligence
The ToMBench-Hard distribution is skewed toward multi-choice format and specific categories like "Intention", which weakens the evaluation.

你猜怎么着，数据集不公开，代码不公开，有人提出了这个点，但似乎 rebuttal 效果不咋滴（）。

这篇文最大的问题是使用了一个闭源的黑箱教师模型，这和其要证明的理论是矛盾的：既然先有模型，甚至 SOTA 在这一领域做的都很烂，那你凭什么说你用教师模型生成的推理答案是正确的，此时用一个黑箱模型做评判是有损严谨的；另一方面，我在用一个 0样本的大模型对比精细训练过的模型，本身不太公平。

但话说回来，对于一个全世界都做不好的领域，很难完成一个很好很严谨的训练流程，不然就得像 DeL-ToM 的一些解读一样用符号语言表示，达到一个0噪声的效果。

比较有意思的是，设计一个奖励就能直接发 ICLR 也是挺厉害的，评分 8422 还不错（）。

不过话说回来，这也是一种尝试，有使用价值，说不定后面我这就要用到这个。