在人工智能分散化的世界中,英伟达既可以是朋友,也可以是敌人。
人工智能的应用正迎来转折点,其关注点从训练新模型转向服务现有模型。对于那些渴望从英伟达手中分一杯羹的人工智能初创公司来说,现在是千载难逢的机会。
与训练相比,推理的工作负载更加多样化,这为芯片初创公司开辟了新的市场空间。大规模批量推理所需的计算能力、内存和带宽组合与人工智能助手或代码代理截然不同。
因此,推理变得越来越多样化,其中某些方面可能更适合 GPU 和其他更专业的硬件。
英伟达去年12月斥资200亿美元收购Groq就是一个典型的例子。这家初创公司采用大量SRAM的芯片架构,这意味着只要数量足够,Groq的LPU就能比任何GPU更快地生成代币。然而,由于其有限的计算能力和老化的芯片技术,它们的扩展效率并不高。
Nvidia通过将推理管道中计算密集型的预填充部分转移到其 GPU 来规避这个问题,同时将带宽受限的解码操作保留在其崭新的 LPU 上。
这种组合并非英伟达独有。GTC大会结束后一周,AWS也发布了自己的解耦计算平台,该平台使用其定制的Trainium加速器进行预填充,并使用Cerebras Systems的餐盘大小的晶圆级加速器进行解码。
就连英特尔也加入了这场狂欢,宣布了一项参考设计,该设计将使用 GPU(大概是他们在去年北半球秋季预告的那款)进行预填充,并使用 AI 芯片初创公司 SambaNova 的新型 RDU进行解码。
到目前为止,大多数人工智能芯片初创公司的成功都体现在解码方面。SRAM虽然容量不大,但速度极快。因此,只要芯片数量足够多,或者至少像Cerebras那样使用足够大的芯片,它们就非常适合加速解码操作,但芯片初创公司的应用范围并不局限于此。
本周,Lumai详细介绍了其光学推理加速器,该加速器使用光而不是电子来执行大多数机器学习工作负载核心的矩阵乘法运算,而功耗仅为纯数字架构的一小部分。
Lumai 预计其下一代 Iris Tetra 系统到 2029 年将在 10kW 的功率预算内实现 exaOPS 的 AI 性能。
从技术上讲,这些芯片采用混合电光架构,但推理过程中大部分计算是由芯片的光张量核心处理的。
该公司最初将这款芯片定位为GPU的独立替代方案,用于计算密集型推理工作负载,例如批量处理。从长远来看,该公司还计划将其光加速器用作预填充处理器。
该架构仍处于起步阶段,目前能够运行像 Llama 3.1 8B 或 70B 这样的数十亿参数模型,但它已经发展到足以让这家总部位于英国的初创公司向云新用户和超大规模用户开放其芯片进行评估的程度。
话虽如此,并非所有人工智能芯片初创公司都热衷于使用不同的芯片进行预填充和解码。本周早些时候,Tenstorrent发布了基于 RISC-V 的 Galaxy Blackhole 计算平台,该公司首席执行官 Jim Keller 对这种分散式推理方法并不感冒。
“业内每家公司都在联手打造加速器的加速器。CPU 运行代码,GPU 加速 CPU,TPU 加速 GPU,LPU 加速 TPU,以此类推。这导致了复杂的解决方案,而这些方案不太可能与 AI 模型和应用的变化兼容。在 Tenstorrent,我们认为更通用、更简单的方案会更有效。”他在一份声明中说道。