DeL-ToM 的一些解读

原文

正在研究 DeL-ToM,我们来解读一下说了什么,不得不说看起来确实很神奇。

符号逻辑

不知道磕符号逻辑是否值得,当下符号验证效果挺烂的。(

认知模型

几个基础定义:

M=(W,R,V)

wRav:在角色 a 的视角有向图下,w 可达 v

一个完整的体系可以被综合为 M=(W,R,V),那么对于其内部的某一个视角 w 来说:(后面省略了 W 的说明):

事件模型

事件模型 ϵ=(E,Q,pre,post)

文中没有对 Q 的图结构做任何约束,但理论上一个等价关系是需要保证的,即必须有自环(该事件可能真的发生了),自反性(若 a>bb>a 意味 a,b 不能互相区分),传递性。

积更新

没看懂()

问了 AI 简单的理解为:一个世界模型在经历一个事件后会生成新的世界模型,其中:

PBM

基于这个符号系统,事实上我们可以用写死的算法直接模拟上述流程,这样提供了一个 0噪声 数据集!
我觉得这是厉害,现有的大多数 ToM 训练用另一个大模型做打分器,但这样就是矛盾的:既然现在大模型也做不了 ToM 的东西,那它生成的结果你凭什么相信,这样的黑盒就必然会引入噪声。相比,用算法直接模拟的结果可以百分百正确,效果必然好。但是其问题不能忽视:定义那一坨符号也是够费事的。

我们的目标是对多轮轨迹打分,可以随便拉一个模型也生成逻辑,通过一个固定的视角链,这也能用算法提取,举一个例子,附录中提到的:
Owen thinks Liam thinks Chloe thinks the celery is in [ green_bucket ]

这个格式必须写死。这样就获得了正负样本,直接训练一个二分类器就可以。

预测时的打分策略

基于上述符号表达,一个 ToM 问题可以分解为多个积更新步骤,最后得出结果。

对于 Beam Search 来说,会让模型每次生成 b 个一轮轨迹,选择 k 个保留,剩下的丢弃,最后会剩下 k 个完整轨迹,这时随便选一个就可以。

对于 BoN 来说,其类似 grpo ,直接生成 N 个完整轨迹,选择一个最好的。

文章后面证明:小模型更适合 BoN ,具体为什么还没看(),大致思路是小模型在 Beam Search 中往往第一步生成就全错。

!TODO:补充附录中证明。

从工程角度来讲,BoN 无法做到非阻塞输出,其本质是阻塞输出的。但我们可以动点歪心思,把 N 轮生成全囊到用户界面的 CoT 里面(给用户看的),内部自己打分,最后选一个输出出来就可以(乐)。

一些思考

其实 DeL-ToM 是一个显示的提示词调优,没有做任何参数修改,最终的结果是一个 PBM 打分器。

但其能将模型性能提升的很好,评价为概率模型魅力时刻,我多生成一堆,就有概率刷出正确的。

另外:符号推理不是人写的QED,看都看不懂。

可能后续还要再看一下,太 tm 抽象了。