[LG]《(How) Learning Rates Regulate Catas

[LG]《(How) Learning Rates Regulate Catastrophic Overtraining》M Rofin, A Varre, N Flammarion [EPFL] (2026)

在LLM微调领域，"灾难性遗忘"随着预训练时长增加而加剧是一个悬而未决的难题。过去的研究将其归因于模型容量限制，本质原因是无法同时拟合预训练与微调两套数据分布。

本文的核心洞见是：把学习率看作模型在参数空间中行进路径的隐式调节器，而非单纯的收敛速度旋钮。由此，"预训练学习率衰减→模型锐度上升→微调时特征漂移加剧"这一因果链，使长期悬而未解的过训练机制得以清晰展开。

这项工作真正留下的遗产是：将灾难性过训练的根源从"训了多少token"重新定位到"预训练如何收尾"。它为后来者打开的新门是：通过控制预训练末期的学习率衰减策略（或将衰减推迟至后训练阶段）来主动管理模型锐度，从而在不牺牲预训练能力的前提下完成微调。但尚未跨过的门槛是：实验主要在1-3B参数量模型上进行，LR衰减与锐度之间的因果关系尚缺乏受控重训练实验的直接验证。

arxiv.org/abs/2604.13627

机器学习人工智能论文 AI创造营

昊梵体育网

[LG]《(How) Learning Rates Regulate Catas

热门分类