[LG]《Hyperloop Transformers》A Zeitoun, L

[LG]《Hyperloop Transformers》A Zeitoun, L Torroba-Hennigen, Y Kim [MIT] (2026)

在大语言模型部署中，边缘设备和端侧场景受限于内存容量（如手机仅8-16GB RAM），使得模型参数量成为能否运行的硬约束。传统Transformer虽性能优异，但参数冗余严重；循环Transformer虽参数高效，但在困惑度上仍落后于同深度的非循环模型。

本文的核心洞见是：将循环Transformer的残差流从向量扩展为矩阵，并仅在循环边界处施加超连接（hyper-connection）。具体而言，将模型分为起始、中间、结束三个块，仅循环中间块，并在每次循环后通过输入依赖的投影矩阵读写多条并行残差流。这种"循环级超连接"使参数在循环间可微调变化，同时几乎不增加计算开销。

这项工作真正留下的遗产是：用50%参数量达到甚至超越全参数Transformer的性能，且该优势在INT4量化后依然保持。它为后来者打开的新门是将参数效率作为独立优化轴，使超大模型在有限加速器上可部署；但尚未跨过的门槛是更大规模（如万亿参数）下的验证，以及循环深度作为测试时计算缩放轴的潜力尚未充分挖掘。

arxiv.org/abs/2604.21254 机器学习人工智能论文 AI创造营

昊梵体育网

[LG]《Hyperloop Transformers》A Zeitoun, L

热门分类