从一个看模型的视角,我们认为这次市场拿TurboQuant去交易“存储利空”,反应有点过了(0326) 1)这不是这几天才突然冒出来的新东西。TurboQuant这篇论文最早在arXiv上公开是2025年4月28日,只不过GoogleResearch在2026年3月24日重新发了博客,顶多算是“旧技术被Google官方重新放大”。 2)单从论文本身看,讲的主要是是怎么把LLM推理里的KVcache和向量检索压缩到更低bit宽,降低内存占用降。乍一听确实利空存储,但是想想:把KVcache压缩、长上下文优化,国内一直做的很多,比如月之暗面KimiLinear,在1Mcontext下,KVcache使用可降最多75%;DeepSeek早在V2提出的MLA也是压缩KVcache;开源推理框架vLLM也长期支持QuantizedKVCache/FP8KVCache。压缩KVcache本来就是全球普遍在做的事,从未停止过。 3)更重要的是看总量需求。尤其是LLM==>Agent==>Harness(OpenClaw典型代表)演进路径带来的Agent爆发,才更本质:单位效率提升,但是需要更多的token并且需要更多的存储去承载,“杰文斯悖论”。