昊梵体育网

[CL]《Convergent Evolution: How Different

[CL]《Convergent Evolution: How Different Language Models Learn Similar Number Representations》D Fu, T Zhou, M Belkin, V Sharan… [University of Southern California & UC San Diego] (2026)

在数值表征领域,语言模型的数字嵌入普遍呈现周期为 T=2,5,10 的傅里叶尖峰,但这种频谱特征能否支撑模数分类仍不明确。过去研究将傅里叶尖峰等同于模运算能力,本质原因是忽略了频谱稀疏性与几何可分性的断层——前者仅保证类均值分散,后者还需类内散布矩阵的条件数可控。

本文的核心洞见是:把表征收敛拆解为频谱收敛与几何收敛两层。由此,通过控制变量实验揭示了决定性机制——频谱收敛仅需词频统计即可达成(连 LSTM 和原始分布都具备),而几何收敛需三要素对齐:数据中的文本-数字共现与跨数字交互信号、Transformer/线性RNN架构(LSTM失效)、以及分词器在多位运算中强制的模运算子问题。

这项工作真正留下的遗产是揭示了表征诊断的陷阱:可见的结构特征不等于功能性组织。它为后来者打开的新门是结构归因方法论——通过受控扰动将学到的表征归因于数据分布的结构属性,但尚未跨过的门槛是该框架能否推广到星期、月份等其他循环概念,以及如何系统区分表层统计伪影与真实功能学习。

arxiv.org/abs/2604.20817 机器学习 人工智能 论文 AI创造营