昊梵体育网

国产高速网络突围,中科曙光破局算力传输瓶颈

全球AI基建竞赛正进入关键转折点,当万卡甚至十万卡集群成为算力标配,决定算力效率的不再是芯片数量,而是让数据零损耗传输的高速网络。 业内早有共识,稠密模型训练中通信耗时占10%-20%,到了MoE架构这个比例直接飙升至40%-60%——堆再多卡,如果网络堵了,一半算力都在空转。 这时候,中科曙光推出的全自研Scale Fabric 400G无损高速网络,正好切中了这场竞赛的核心赛点。

Scale Fabric的关键在于全栈自主——从底层112G SerDes IP、400G网卡芯片(自研RDMA引擎)到64T双向交换芯片(转发时延260纳秒),再到上层管理软件,100%都是国产技术。 这种全链路自研的底气,让它在性能上直接对标甚至反超英伟达NDR:端到端时延低至0.9微秒,触及网卡性能上限;单子网能支持11.4万卡集群部署,是传统IB的2.33倍;80口400G交换机比行业主流64口提升25%端口密度,组网成本一下降了30%。 更实在的是单卡QP数(通信连接数量)达到256K,比英伟达NDR高100%,对MoE这类碎片化模型的同步效率提升明显。

技术不是纸面上的参数,得经得住实战检验。Scale Fabric已经在郑州国家超算互联网核心节点稳定运行10个月,支撑三套万卡级集群、总规模3万卡的智算系统。 更让人意外的是,这套系统从进场到跑通只用了36小时——要知道传统方案调优得按月算,IB方案得认证工程师蹲点。现场运维人员说,配套的Scale OS能毫秒级感知故障,链路恢复小于1毫秒,不用再天天“救火”,能转去做策略制定了。

比技术更重要的是生态突围。英伟达的InfiniBand虽开放协议,但实际上形成了封闭生态,从网卡到交换机都被垄断,国内用户不仅成本高,还得看供应脸色。 中科曙光的策略很明确:继承IB的开放部分,打破商业绑定。一方面,Scale Fabric兼容英伟达常规产品的标准接口,能对接不同计算芯片;另一方面,联合联想开天、中兴通讯等成立光合组织高性能计算专委会AIDC高速网络工作组,推动国产标准制定,还在适配多个品牌的AI加速卡,甚至探索计算芯片与网卡的专有协同技术,让国产算力芯片不用再依附英伟达的生态。

现在的算力竞赛,早不是堆卡那么简单。中科曙光的Scale Fabric补上了国产算力的关键短板——当11.4万卡的集群能在自主网络上高效运行,当成本能降30%,当生态开始开放,中国算力才算真正“跑”起来了。 郑州超算中心的3万卡集群已经证明,国产网络不仅能用,还好用。接下来,就看这份自主可控的底气,能不能让更多用户摆脱单一厂商绑定,让国产AI产业在无阻塞的网络上全速前进。