[CL]《Decoupled DiLoCo for Resilient Dist

[CL]《Decoupled DiLoCo for Resilient Distributed Pre-training》A Douillard, K Rush, Y Donchev, Z Charles… [Google DeepMind] (2026)

在大规模语言模型预训练中，传统的单程序多数据（SPMD）范式要求所有加速器严格同步。这种紧耦合导致任何单点硬件故障或掉队者都会拖垮整个集群，在百万级芯片规模下，罕见故障变成常态事件，造成大量计算浪费。

本文将预训练集群拆解为多个独立的"学习器"，各自异步执行本地优化。核心机制是中央同步器采用最小法定人数聚合、自适应等待窗口和动态令牌加权合并，绕过故障或掉队节点，将参数碎片异步传递给学习器，打破了锁步同步的枷锁。

这项工作证明了在混沌环境中（模拟百万芯片零全局停机）可实现88%的有效算力利用率，同时在文本和视觉任务上保持与数据并行相当的模型性能。它为后来者打开的新门是：在带宽受限和硬件不可靠的地理分布式集群中进行预训练成为可能。但尚未跨过的门槛是：在更大规模和更复杂的专家混合架构下，异步训练的稳定性和收敛性保证仍需验证。

arxiv.org/abs/2604.21428

机器学习人工智能论文 AI创造营

昊梵体育网

[CL]《Decoupled DiLoCo for Resilient Dist

热门分类