今年政府工作报告提出要发展超大规模智算集群等新基建工程,算力集群从几百卡到几千卡,再到万卡级训练集群,规模肉眼可见地在同步扩大。 但很多人忽略的是,随着集群规模扩大,真正的瓶颈往往不再是计算本身,而是节点之间的数据通信。简单来说,GPU算得再快,如果数据传不过去,算力也难以充分发挥。 这也是为什么近年来高速网络技术开始被频繁提及。从RDMA通信、无损以太网络,到大规模网络拓扑设计,AI集群对网络提出了新的要求。 最近去围观了曙光scaleFabric的发布,现场光合组织成立AIDC高速网络工作组,其中反映出一个产业趋势:AI网络正在从单一产品能力,走向一整套技术系统的共建,包括协议、架构、运维以及应用适配。 尤其面向超大规模智算集群的发展,更需要体系化、生态化的建设,行业只有告别“技术孤岛”,以更加开放、包容的合作模式协同攻坚,才能让咱们AI产业走得更快、更远。
