DeL-ToM 的一些解读

原文

正在研究 DeL-ToM，我们来解读一下说了什么，不得不说看起来确实很神奇。

符号逻辑

不知道磕符号逻辑是否值得，当下符号验证效果挺烂的。（

认知模型

几个基础定义：

$P$ : 所有事件的集合，这个事件可以比较宽泛，例如一个基本事实，一个推理结论。
$A$ ：人物，说是智能体，理解成参与的几个人就可以。
$φ$ ：命题，主要说说 $B_{a} φ$ ，即角色 $a$ 觉得 $φ$ 是真的。

$M = (W, R, V)$ ：

$W$ ：视角集合，例如上帝视角，小A的认知，小B的认知。
$R$ ：可以认为是一个角色认为的视角可达图，例如在上帝眼中，几个视角都是相通的，但小 A 就不能从自己的视角跳到小 B 的视角。
关于 $R$ 我觉得比较好的理解是有向图，每个人维护了一个有向图，后面就按照有向图来说明了。
$V$ ：显然不同视角下一些命题可能为假，所以每个命题维护了一个 true/false 表示哪些视角下是真的。

$w R_{a} v$ ：在角色 $a$ 的视角有向图下， $w$ 可达 $v$ 。

一个完整的体系可以被综合为 $M = (W, R, V)$ ，那么对于其内部的某一个视角 $w$ 来说：（后面省略了 $W$ 的说明）：

$w ⊨ p$ ：命题 $p$ 在视角 $W$ 下是真，运用 $V$ 表示。
$w ⊨ B_{a} φ$ ：这个比较复杂，理一下关系，在 $w$ 视角下 $a$ 认为 $φ$ 是真，那么应该在 $a$ 的所有可达视角下 $φ$ 都为真（比如下面这个图， $W_{3}$ 不满足，所以寄寄）。
理论上 $R$ 图应该设计成等价关系，视角的变换是对称的。

事件模型

事件模型 $ϵ = (E, Q, p r e, p o s t)$ ：

$E$ 是事件集合，例如物品被转移了。
$Q$ 比较有意思，用于描述信息不对称：
还是以有向图为例，每个角色维护了一个事件的有向图，当一个事件有出边 $(u, v)$ 时表示在这个角色眼中，没有发生事件 $u$ ，可能发生事件 $v$ ，注意这个"可能"，允许多出边。

文中没有对 $Q$ 的图结构做任何约束，但理论上一个等价关系是需要保证的，即必须有自环（该事件可能真的发生了），自反性（若 $a > b$ 则 $b > a$ 意味 $a, b$ 不能互相区分），传递性。

$p r e, p o s t$ 每个事件都有，发生这个事件的前提和回调。

积更新

没看懂（）

问了 AI 简单的理解为：一个世界模型在经历一个事件后会生成新的世界模型，其中：

$W^{'}$ ：新的视角将结合所有的老视角和该事件，可以认为是一个笛卡尔积。
有向图连接：若老世界下两个视角有连边，事件集合下两个事件有连边，则这两个新视角连边，即 $(u, e_{1}) > (v, e_{2})$ 的条件为 $u > v, e_{1} > e_{2}$ 。
$V$ ：一个事件的状态遵循继承关系，即当没有显示改变其状态时，保持不变。

PBM

基于这个符号系统，事实上我们可以用写死的算法直接模拟上述流程，这样提供了一个 0噪声数据集！
我觉得这是厉害，现有的大多数 ToM 训练用另一个大模型做打分器，但这样就是矛盾的：既然现在大模型也做不了 ToM 的东西，那它生成的结果你凭什么相信，这样的黑盒就必然会引入噪声。相比，用算法直接模拟的结果可以百分百正确，效果必然好。但是其问题不能忽视：定义那一坨符号也是够费事的。

我们的目标是对多轮轨迹打分，可以随便拉一个模型也生成逻辑，通过一个固定的视角链，这也能用算法提取，举一个例子，附录中提到的：
Owen thinks Liam thinks Chloe thinks the celery is in [ green_bucket ]

这个格式必须写死。这样就获得了正负样本，直接训练一个二分类器就可以。

预测时的打分策略

基于上述符号表达，一个 ToM 问题可以分解为多个积更新步骤，最后得出结果。

对于 Beam Search 来说，会让模型每次生成 $b$ 个一轮轨迹，选择 $k$ 个保留，剩下的丢弃，最后会剩下 $k$ 个完整轨迹，这时随便选一个就可以。

对于 BoN 来说，其类似 grpo ，直接生成 $N$ 个完整轨迹，选择一个最好的。

文章后面证明：小模型更适合 BoN ，具体为什么还没看（），大致思路是小模型在 Beam Search 中往往第一步生成就全错。

!TODO：补充附录中证明。

从工程角度来讲，BoN 无法做到非阻塞输出，其本质是阻塞输出的。但我们可以动点歪心思，把 $N$ 轮生成全囊到用户界面的 CoT 里面（给用户看的），内部自己打分，最后选一个输出出来就可以（乐）。

一些思考

其实 DeL-ToM 是一个显示的提示词调优，没有做任何参数修改，最终的结果是一个 PBM 打分器。

但其能将模型性能提升的很好，评价为概率模型魅力时刻，我多生成一堆，就有概率刷出正确的。

另外：符号推理不是人写的QED，看都看不懂。

可能后续还要再看一下，太 tm 抽象了。