[AI]《Refute-or-Promote: An Adversarial Stage-Gated Multi-Agent Review Methodology for High-Precision LLM-Assisted Defect Discovery》A Agarwal (2026)
LLM辅助的漏洞发现面临精度危机:看似合理但实际错误的报告淹没了维护者,甚至导致curl永久关闭漏洞赏金计划。核心问题在于LLM为似真性而非正确性优化——作者遭遇过80多个智能体一致认可OpenSSL中一个根本不存在的Bleichenbacher填充预言机漏洞。
本文的核心洞见是:把LLM共识当作需要证伪的假设,而非可信的结论。由此,分层语境搜寻生成候选、对抗性击杀指令逐级淘汰、跨模型家族评审捕获相关盲点、强制实证验证作为最终门槛——这四重机制使误报率从失控降至可接受水平(79%候选在披露前被杀死)。
这项工作真正留下的遗产是一套可迁移的对抗性架构:在7个目标上产出4个CVE、1个ISO C++标准缺陷、多个编译器一致性问题——但最关键的教训是一致性不等于正确性。它为后来者打开的新门是跨领域可验证输出的可靠性模式(已初步迁移至SWE-bench),但尚未跨过的门槛是自主发现能力——所有漏洞仍需人类引导,贡献在于过滤而非生成。
arxiv.org/abs/2604.19049 机器学习 人工智能 论文 AI创造营
