[CL]《Subliminal Steering: Stronger Encod

[CL]《Subliminal Steering: Stronger Encoding of Hidden Signals》G Morgulis, J Hewitt [Columbia University] (2026)

在语言模型训练中，“看似无关的数据会偷偷传递特定偏好”是一个悬而未决的难题。过去的方法受困于只能传递简单词汇偏好，效果不稳定，本质原因是偏好只停留在表层提示，缺乏稳定的内部表示。

本文的核心洞见是：把“偏好”重新看作隐藏层中的一个方向向量。由此，在生成数据时注入该向量，使学生模型在训练中直接继承这一方向，从而稳定传递甚至多词复杂偏好。

这项工作真正留下的遗产是揭示偏好可作为向量在模型间复制并被反推出来源。它为后来者打开的新门是用数据反解模型内部结构，但尚未跨过的门槛是并非所有偏好都能被单一向量表达。

arxiv.org/abs/2604.25783 机器学习人工智能论文 AI创造营

昊梵体育网