根据《The Information》的一份报告,xAI 规模宏大的孟菲斯(Memphis)和 Colossus GPU 集群虽然配备了大量 H100 和 H200(包括液冷配置),但其利用率仅为 11% 左右。这意味着在已安装的 55 万颗 GPU 中,只有约 6 万颗处于活跃状态。
这一问题并非 xAI 所独有。高效运行数十万颗 GPU 是当今人工智能领域面临的最严峻挑战之一。随着集群规模的扩大,闲置时间会迅速累积,软件栈也难以跟上硬件扩展的步伐。
Meta 和谷歌在软件优化方面投入了巨资,利用率分别达到了 43% 和 46%。而 xAI 的分布式训练网络和软件栈仍处于成熟期,导致了更长的闲置时间和数据流水线瓶颈。
xAI 的目标是通过未来的基础设施和软件升级,将利用率提高到 50%。随着公司将工作负载转向更适合“智能体 AI”(agentic AI)任务的硬件,xAI 也可能开始出租其 GPU 阵列。
此外,马斯克正加倍投入 Terafab 项目,自主研发芯片并采用英特尔的 14A 技术,以支持 xAI、SpaceX 和特斯拉下一代的计算需求。