[LG]《How Transformers Learn to Plan via

[LG]《How Transformers Learn to Plan via Multi-Token Prediction》J Huang, Z Zhou, R Xia, B Mirzasoleiman… [University of California, Los Angeles & Shanghai Jiao Tong University] (2026)

在规划推理领域，语言模型如何在生成当前词时"预见"未来步骤，是一个悬而未决的难题。过去的标准训练方式——逐词预测下一个词——让模型天然地盯着脚下，而非抬头看路，导致它在需要全局谋划的任务上屡屡失手。

本文的核心洞见是：把"预测多个未来词"重新看作一种梯度解耦装置。由此，浅层预测头将训练信号直接注入第一层注意力，绕开未初始化的深层，使模型得以先锁定终点、再反向追溯路径——这一"倒推推理"机制使规划难题得以解开。

这项工作真正留下的遗产是：首次从优化动力学角度严格证明，训练目标本身可以塑造模型涌现出何种推理回路。它为后来者打开的新门是——通过设计损失函数而非架构，定向诱导可解释的算法行为。但尚未跨过的门槛是：理论仍限于两层简化模型与固定拓扑的星形图，如何推广至更深网络、连续任务与有限时间收敛分析，仍是开放问题。

arxiv.org/abs/2604.11912

机器学习人工智能论文 AI创造营

昊梵体育网

[LG]《How Transformers Learn to Plan via

热门分类