[LG]《Scaling Multi-Node Mixture-of-Exper

[LG]《Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns》A Bambhaniya, G Jeong, J Park, J Yu… [Meta & Georgia Institute of Technology] (2026)

在多节点MoE推理中，token需跨节点找专家，通信开销反成主瓶颈。过去方法受困于忽视“专家激活模式”，本质原因是路由动态性与硬件拓扑错位。

本文的核心洞见是：把请求重新看作“可被专家激活模式聚类的负载”。由此，按激活相似性分批并重排专家位置，使更多token在本地命中，减少跨节点通信。

这项工作真正留下的遗产是用数据驱动调度替代静态部署。它为MoE高效扩展打开新门，但尚未跨过的门槛是通信内核与极端负载不均仍限制收益。

arxiv.org/abs/2604.23150 机器学习人工智能论文 AI创造营

昊梵体育网

[LG]《Scaling Multi-Node Mixture-of-Exper

热门分类