[LG]《Reward Models Are Secretly Value Fu

[LG]《Reward Models Are Secretly Value Functions: Temporally Coherent Reward Modeling》A Nikulkov [AI at Meta] (2026)

在RLHF中奖励模型只看最后一个token，丢弃中间信息，导致逐token输出像噪声。过去方法受困于只用终点监督，本质原因是未把“生成过程”视作可预测的序列价值。

本文的核心洞见是：把每个中间token的分数重新看作“对最终奖励的条件期望”。由此，引入前视一致与相邻平滑两种约束，使每一步都对终局做出一致预测。