
这项由加利福尼亚大学洛杉矶分校与亚马逊公司联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),会议地点为韩国首尔,收录于PMLR 306论文集。论文编号为arXiv:2605.02178,有兴趣深入了解的读者可通过该编号查询完整论文。
研究概要:一个越想越乱的AI,和一群决心帮它"冷静下来"的研究者
假设你在网上购物,雇了一个助手帮你找一件特定的红色棉质女款衬衫,价格低于40美元。你满心期待地等着它给你一个答案,结果发现它开始滔滔不绝地自言自语——反复核对面料是不是纯棉、颜色是不是正红、尺码有没有XL……说了足足500个字之后,话还没说完,时间已经到了,助手根本没来得及告诉你要点哪个按钮。这还不算完,下一轮它又从头重复同样的废话,在同一个错误路上打转。
这个荒诞的场景,其实正是当今最先进的AI助手在完成复杂任务时频繁上演的真实困境。研究团队将这种行为称为"犹豫"——AI不是在认真解决问题,而是在无休止地自我纠结,既无法减少不确定性,也无法推进任务进展。
为了解决这个问题,研究团队提出了一套名为T?PO(Token- and Turn-level Policy Optimization,即词元与轮次双层策略优化)的方法。简单来说,这套方法在AI每次生成内容时,从两个层面同时把关:一是盯住每个字词的生成质量,当AI开始"废话连篇"时及时叫停;二是在多轮对话的层面,当AI陷入无效的重复循环时,果断重新来过。
实验结果相当亮眼。在模拟网上购物的WebShop测试中,T?PO让任务成功率从73.83%一路提升到81.64%,同时大幅减少了训练过程中常见的崩溃现象。在模拟家务场景的ALFWorld测试中,T?PO比此前最佳方案提升了约8到12个百分点。这些数字背后,是AI助手从一个"焦虑型废话王"蜕变为"沉着型行动派"的过程。
---
一、 AI为什么会"想太多":从反复横跳到彻底宕机
要理解这项研究解决的问题,先要知道今天的AI助手是怎么工作的。
现代AI助手完成一个任务,通常不是一问一答那么简单,而是要经历多个来回:搜索一下、看看结果、点进去、再看看、再决定下一步……就像你在网上购物时,从搜索到付款要经过好几个页面。这种"多轮交互"的工作方式,给AI带来了很大的挑战。
其中一个核心挑战叫做"信用分配"——当任务最终失败或成功时,AI需要知道是哪一步做对了、哪一步做错了。可问题在于,最终的奖励往往只在任务结束时才会给出,就像一个学生考完试才知道成绩,却无法得知每道题答得怎么样。这种稀疏的反馈信号,让AI很难从错误中学习。
另一个挑战来自效率与稳定的矛盾。为了让AI学得更快,研究人员通常会让它同时跑很多个"练习任务",然后批量更新参数。但这意味着AI学到的新知识,和它正在执行的旧任务之间,始终存在一个时间差——用过时的自己去做任务,然后用做完的结果来更新现在的自己,这个循环本身就容易失控。
研究团队通过分析大量训练轨迹,找到了训练崩溃的根本原因:AI陷入了"犹豫"。在字词生成的层面,AI会产生大量信息含量极低的内容,就像一个演讲者明明已经说完了要点,却还在用各种废话填充时间,而这些废话会把真正有用的判断淹没在噪音里。在任务轮次的层面,AI有时在最初几步就走错了方向,却没有任何机制让它意识到这一点,于是它一轮又一轮地重复同样毫无意义的操作,把有限的资源全部浪费在死胡同里。
这两种"犹豫"叠加起来,让AI的训练过程变得极不稳定——梯度爆炸(可以理解为AI更新参数时用力过猛,直接把自己改崩)和KL散度飙升(可以理解为新旧版本的AI差异变得太大,导致学习失控)频繁出现,最终让原本应该越来越聪明的AI反而越来越差,甚至彻底失能。
---
二、 给AI安装一个"内心温度计":自校准不确定性信号
研究团队的第一步,是给AI装上一个能实时感知自身状态的"传感器"。
在AI生成每一个字词时,它实际上是在对整个词汇表做概率分配——每个词被选中的可能性有多大。这种概率分布的形态,直接反映了AI当前的"信心状态"。当AI非常确定下一个词应该是什么时,概率分布会非常集中,像一座高耸的尖峰;当AI不确定时,概率会分散开来,像一片平缓的丘陵。
传统上有两种方法来衡量这种不确定性:一种叫做"香农熵",可以理解为概率分布有多"分散";另一种叫做"置信度",直接看AI对最可能那个词有多大把握。但两者都有盲区。
熵的问题在于,它对极端情况不够敏感。由于AI的词汇表可以多达15万个词(比如Qwen3模型就有约15.2万个词),即便AI的分布已经非常集中了,熵的数值看起来依然差不多。打个比方,假设有100个人投票,99个人投给同一个候选人和50个人投给同一个候选人,从"票数是否集中"这个角度看,差异是显著的,但如果候选人是15万个,这种差异就会被稀释得几乎看不见。
置信度的问题则在于它只关注"冠军",完全忽视"亚军"和"季军"。两种截然不同的概率分布,只要最高那个词的概率相同,置信度就会完全相同——尽管这两种分布背后AI的状态可能大相径庭。
为了解决这两个问题,研究团队提出了一种"自校准不确定性信号",记为Mt。它把熵和置信度分别归一化(统一到同一个尺度),然后用一个可以调节的比例因子把二者融合。研究发现,当这个比例偏向0.4时(即熵占40%,置信度占60%),效果最好。
这个融合信号的优势可以从直观图形上看出来:纯熵的等高线图在接近均匀分布的区域几乎无法区分细微差异,纯置信度对尾部概率分布完全不敏感,而融合后的Mt产生了非线性的等高线,能够同时区分出顶端概率高低与尾部分布形态,覆盖了两者各自的盲区。
这个信号的另一个重要特性是它会随着生成过程动态变化。研究团队观察到,在AI生成一段回答的过程中,Mt的轨迹通常是先升后降——它先进入一个高度不确定的区域(正在思考),然后逐渐稳定下来(已经确定方向)。而那些不确定性最高的词,往往恰恰是最关键的任务相关词,比如产品名称、属性描述符等。这个观察为后续两个干预机制提供了理论基础。
---
三、 给AI的内心独白设一个"说够了就停"的开关:词元级思维干预
有了Mt这个信号,研究团队做的第一件事,是解决AI"想太多"的毛病。
当AI在生成内部推理过程(即包裹在"思考标签"里的那部分内容)时,它有时会一直说下去,远远超出真正有用的部分。就像一个人解题时,把有效的思路写完了,却还在继续写"我再想想……也许还有另一种可能……不对,让我再考虑一下……",这些后续的自言自语不仅浪费纸,还会让最终答案被掩盖。
词元级思维干预(TTI)的逻辑是这样的:研究团队用一个滑动窗口,持续监测Mt相邻两步之间的变化量,记为△t。如果这个变化量在连续N步内的平均值都低于一个阈值ε,就说明AI的"思考"已经在原地打转,没有带来新的信息增益了。此刻,系统会直接向AI的输出机制注入一个强制指令:把接下来那个词的概率全部集中到"结束思考"这个特殊标记上,概率为1,让AI立刻停止内心独白,进入行动阶段。
一个自然的问题是:为什么不在Mt达到峰值时就停?峰值代表不确定性最高,直觉上似乎在那之后生成的内容都是多余的。但研究团队的分析显示,不确定性最高的词往往分属两类:一类是推理转折词(类似"啊,我明白了!"这种节点),另一类是任务关键词(比如具体的产品名称)。如果在峰值时就截断,很可能会切掉关键的产品信息。
而采用滑动窗口均值的方式,则能有效过滤掉孤立的高不确定性词,只在"持续稳定低变化"时才触发停止——这样就保住了那些分散在句子各处的关键词,同时剔除了真正的废话尾巴。
这个机制还设有两道保险:其一,每次生成中只允许触发一次,避免反复打断;其二,设置一个最大生成长度,即使滑动窗口条件从未触发,到了上限也会强制结束,确保不会无限生成。
实验数据显示,去掉这个机制后,任务成功率从81.64%降至73.27%,说明适时"打断"AI的自说自话,对任务完成质量有实质性的提升。
---
四、 当AI在死路上原地转圈:轮次级动态重采样
光管住AI每次说话时的冗余内容还不够。更大的麻烦发生在对话轮次的层面。
以前面那个购物场景为例:AI在第一轮搜索后,点进了一个明显不符合要求的产品,然后退回搜索页,再用完全相同的关键词搜索一遍,又点进同一个产品……在案例分析中,研究团队发现AI的轮次3和轮次4几乎一模一样,做的是完全重复的无效操作,完全没有利用上一轮的信息来调整策略。这种"原地踏步"的行为,就是轮次级的犹豫。
要在缺乏逐轮奖励信号的情况下判断一轮对话是否有价值,是个难题。研究团队想到了一个巧妙的办法:把每一轮对话的Mt信号聚合起来,计算整轮的"不确定性指纹"Φk(具体计算方式是所有词元Mt值的几何平均,即所有Mt连乘后开T次方根)。然后,比较相邻两轮的Φk是否有显著变化,差值记为Γk。
这个逻辑背后的直觉是:如果AI真的在有效探索,每一轮面对的环境状态不同、处理的信息不同,它的内部不确定性结构应该也会相应变化,Γk应该比较大。但如果AI只是在重复,它每轮的"不确定性指纹"会高度相似,Γk会很小。
当Γk低于阈值η时,系统判定这一轮是"无效探索",直接丢弃这轮生成的内容,在相同状态下重新生成一次。这个重生成过程会一直持续,直到产生一个Γk足够大的结果,或者达到重采样预算上限为止。
移除这个机制后,实验中任务得分从93.84降至72.40,成功率从81.64%降至63.67%,是所有组件中影响最大的一个——这说明轮次级的重复循环是造成训练低效最核心的问题所在。
---
五、 其他辅助设计:让AI从一开始就走对路
除了两个核心干预机制,T?PO还包含几个配套设计,共同构成完整的训练框架。
在训练启动阶段,研究团队采用了一种叫做"拒绝采样微调"(RFT)的冷启动策略。具体做法是先让AI在目标环境里自由跑一批任务,只保留那些最终得分超过阈值的高质量轨迹,然后用这些轨迹做一轮监督学习,让AI从一开始就有一个"基本靠谱"的行为基础。实验证明,没有这个冷启动,任务分数会从93.84降至79.28,成功率从81.64%降至61.32%。这是因为早期训练阶段AI容易生成格式混乱的输出,这些噪音会污染后续的学习过程。不过研究团队也发现,RFT的轮数不能太多——超过五轮后,AI开始把推理能力"遗忘"掉,反而不利于后续的强化学习。
在处理长轨迹时,直接把整个任务历史塞进AI的上下文窗口会导致序列极长、计算量爆炸。研究团队因此引入了"记忆上下文窗口"机制,让AI只保留最近P轮的历史记录,而不是整个任务的完整历史。这在降低计算负担的同时,也避免了过早轮次的噪音信息干扰当前判断。
在奖励分配上,研究团队采用了时间折扣机制:越早的行动,其奖励折扣越多,越近的行动则权重越高。这样既能传递最终结果的成败信号,又能让AI有机会从每一步的后续影响中学习。
在策略更新算法上,T?PO采用了"组内组"优势估计(GiGPO)的思路:先在整个轨迹组的层面计算相对优势,再在同一环境状态下不同行动之间计算细粒度优势,最后把二者加权融合,同时用KL散度惩罚项约束新旧策略之间的差异不能太大,防止AI一次更新过猛把自己改坏。
---
六、 实战考验:在购物、家务和问答三个战场上的表现
研究团队在三个性质各异的环境中对T?PO进行了系统评测,用的是Qwen3-4B和Qwen3-8B两个规模的基础模型。
WebShop是一个模拟真实电商平台的购物环境,包含超过110万件商品和1.2万条用户指令。AI需要搜索、浏览、比较,最终完成购买。这个环境的特点是行动空间庞大、任务约束复杂(颜色、尺码、价格、材质都要同时满足),对细粒度决策的要求很高。在Qwen3-4B基础上,T?PO达到了93.84的任务分数和81.64%的成功率,相比此前最佳的GiGPO+DAPO组合(任务分数86.54,成功率74.02%)有显著提升。更重要的是,T?PO的方差极小(±0.22和±0.39),而对照组的方差动辄±9到±10,说明T?PO训练过程稳定得多。在Qwen3-8B基础上,这一趋势同样成立,成功率达到82.42%。
ALFWorld是一个文本家务场景,AI需要理解自然语言目标(比如"把苹果放进冰箱"),在虚拟房间里一步步找到物体、执行操作,直到目标完成。这个环境包含3827个任务实例,分布在拾取放置、灯下检查、清洁放置、加热放置、冷却放置、拾取两个放置六大类别中。T?PO的总成功率达到90.23%,在"加热放置"这一类别中更是高达98.33%,全面领先于其他方法。相比之下,即便是号称当时最强的闭源模型Claude Sonnet 4,在这个任务上的成功率也只有63.71%,而基于小模型训练的T?PO达到了90.23%,差距显著。
Search QA是一个多轮搜索问答任务,包括单跳问题(需要一步找到答案的问题,如自然问题NQ、TriviaQA)和多跳问题(需要串联多个事实推理的问题,如HotpotQA、MuSiQue)。在单跳任务上,T?PO在NQ上得分46.13,在TriviaQA上得分64.08,稳居前列。多跳问题更能体现T?PO的优势:在MuSiQue这个公认最难的多跳问答数据集上,T?PO得分16.64,而此前最好的GiGPO只有13.40,提升幅度超过24%。在七个数据集的平均分上,T?PO达到54.93,比GiGPO的52.97高出近2个点。
从成功轨迹的token消耗分布来看,T?PO生成的成功轨迹大多集中在较短的token区间,而对照组的成功轨迹则更多分布在高token区间——这意味着T?PO用更少的"思考量"完成了更多的成功任务。在轮次数量上,T?PO在WebShop上减少了约25%的交互轮次,在ALFWorld上也减少了约16%,这直接转化为计算资源的节省。
---
七、 和其他"让AI少说废话"方法的横向比较
研究团队还专门和四种现有的"思维控制"策略做了对比,这是理解T?PO价值的重要维度。
第一种是"冗长奖励"方法,它通过在奖励中加入对回答长度的惩罚来鼓励AI说短话——答对了但说得长,少给奖励;答错了还说得长,额外扣分。这个方法的逻辑直接,但问题在于它对所有内容一视同仁,无论是真正有用的推理还是无意义的废话,都会因为长度而受罚,最终任务成功率只有65.87%。
第二种是"短链路思维冷启动",用更简洁的GPT-4o示范数据来初始化AI,让它从一开始就学会言简意赅。这个方法对早期训练稳定性确实有帮助,但它不能在强化学习阶段动态调整推理过程,随着训练推进,AI会逐渐漂移回冗长模式,成功率达到71.29%。
第三种是"硬性思维预算",直接给推理过程设一个最大token数上限。这个方法的问题是静态的——不管当前任务有多难、当前推理有多重要,一律在固定位置截断,容易在难题上过早终止有价值的推理,在简单题上又无法阻止无效填充,成功率79.21%。
第四种是"无效轮过滤",把包含无效或空白行动的轨迹从训练数据中移除,防止退化行为污染学习。这个方法确实有效果,成功率76.20%,但它只能事后过滤,无法主动干预生成过程中的冗余,更无法处理那些格式合法但内容重复的轮次。
T?PO的TTI+TDS组合以93.84分/81.64%的成绩大幅领先,核心优势在于它是在生成过程中实时介入,而不是依赖事后的奖励塑形或数据过滤,因此能更精准地识别和切除真正的无效探索,同时保留有价值的推理内容。
---
八、 训练稳定性:从反复崩溃到持续向好
训练稳定性是这项研究的核心关切之一,值得单独拿出来说清楚。
研究团队在不同随机种子下运行了多组实验,用以检验方法的鲁棒性。结果显示,现有方法(包括Vanilla GRPO和GiGPO)在某些随机种子下表现尚可,但在另一些种子下会出现成功率先升后急剧下降的"训练崩溃"——这种崩溃的表征是成功率曲线突然塌陷,同时梯度范数和KL散度急剧飙升。
T?PO在三个不同随机种子下均呈现出单调递增、持续向好的成功率曲线,没有出现崩溃现象。梯度范数和KL散度也保持在合理范围内,说明策略更新始终处于可控状态。
从机制上解释,这种稳定性来自于T?PO对探索效率的主动管理:通过减少无效token和无效轮次,T?PO降低了信用分配信号的噪声水平,让策略更新的梯度方向更加清晰可靠,避免了因噪声过大而导致的参数更新失控。
---
说到底,T?PO解决的是一个关于"度"的问题。AI需要足够深入地思考才能做出好决策,但想得太多反而会带来反效果。这项研究的贡献在于,它不是简单地用一把尺子限制AI说话的长度,而是真正看清楚AI在每个时刻的"内心状态",在它真正停止有效思考的那一刻才介入,并在整个多轮任务中持续监控是否陷入了无效循环。
更有意思的是,这种稳定性是从"内部"获得的,不需要额外的奖励模型,不需要人工标注的过程数据,只依靠AI自己生成内容时产生的概率分布信号。换句话说,AI学会了用自己的"内心温度"来判断自己是否还在有效工作。这对于未来构建更可靠、更省资源的AI智能体,提供了一条颇具参考价值的路径。
如果你对多轮强化学习、AI智能体训练或大模型推理优化感兴趣,这篇论文无疑值得深读。可以通过arXiv编号2605.02178获取完整论文,研究代码也已在GitHub上公开,仓库名为WillDreamer/T2PO。
---
Q&A
Q1:T?PO中的"词元级思维干预"是怎么判断AI什么时候该停止推理的?
A:T?PO会在AI生成每个词时计算一个"自校准不确定性信号"Mt,这个信号融合了概率分布的分散程度(熵)和对最高概率词的置信度。系统用滑动窗口持续追踪相邻两步Mt的变化量,如果连续N步内平均变化量低于阈值ε,就说明AI的推理已经原地打转、不再产生新信息,此时直接强制插入"结束思考"标记,让AI进入行动阶段。这个机制只在生成了最短前缀之后才启动,避免过早截断。
Q2:T?PO的轮次级动态重采样为什么不直接用任务奖励来判断哪轮有没有效果?
A:在多轮交互任务中,每一轮通常没有独立的奖励信号,只有整个任务结束才会得到最终奖励。因此无法像单轮任务那样直接用正确率过滤轮次。T?PO的解决办法是把每轮所有词元的不确定性信号聚合成"轮次指纹"Φk,通过比较相邻两轮指纹的变化量Γk来判断当前轮是否带来了新的信息结构变化,变化太小就重新生成,不依赖任何外部奖励标注。
Q3:T?PO和直接设置一个固定的最大推理长度有什么实质区别?
A:固定最大长度是静态的,不管任务难易和推理质量,统一在同一个位置截断,容易在难题上过早终止有价值的推理,在简单题上又无法阻止无效填充。T?PO的截断时机是动态的,由AI自身的概率分布变化来决定,只在信息增益真正枯竭时才介入,因此能保留关键推理内容同时剔除真正的废话,实验中比固定预算方法的成功率高出约2.4个百分点。