[LG]《FlashSampling: Fast and Memory-Effi

[LG]《FlashSampling: Fast and Memory-Efficient Exact Sampling》T Ruiz, Z Qin, Y Zhang, X Shen… [LMU Munich & FlashSampling & Princeton University] (2026)

在大词表自回归解码场景中，从语言模型头部采样是一个反复触发的内循环操作。传统流程将完整的logits张量写入显存再读回，这一来回本不必要——根本症结在于：人们误以为"采样"必须先算softmax，而实际上只需找到噪声扰动后的最大值下标。

本文的核心洞见是：把"从分类分布采样"重新看作"对加了Gumbel噪声的logits求argmax"。由此，将噪声扰动与argmax规约嵌入矩阵乘法的epilogue这一关键操作使问题得以解开：logits逐块在片上计算、就地扰动、仅保留每块的局部最大值，最终只做一次轻量归约，完整logits张量从不落盘，采样从后处理变成矩阵乘的尾声。

这项工作真正留下的遗产是：证明了算法正确性与IO效率可以同时保全——无近似、无近似分布，且在vLLM端到端实验中实现最高19%的每token延迟压缩。它为后来者打开的新门是将FlashAttention式"避免中间张量落盘"的范式扩展至推理时采样这一新领域。但尚未跨过的门槛是：nucleus sampling等依赖全局softmax排序的截断策略尚未深度融合，且Triton实现在大批量下的GEMM效率仍逊于cuBLAS，限制了其在计算密集场景中的适用性。

arxiv.org/abs/2603.15854

机器学习人工智能论文 AI创造营

昊梵体育网

[LG]《FlashSampling: Fast and Memory-Effi

热门分类