[AI]《Refute-or-Promote: An Adversarial S

[AI]《Refute-or-Promote: An Adversarial Stage-Gated Multi-Agent Review Methodology for High-Precision LLM-Assisted Defect Discovery》A Agarwal (2026)

LLM辅助的漏洞发现面临精度危机：看似合理但实际错误的报告淹没了维护者，甚至导致curl永久关闭漏洞赏金计划。核心问题在于LLM为似真性而非正确性优化——作者遭遇过80多个智能体一致认可OpenSSL中一个根本不存在的Bleichenbacher填充预言机漏洞。

本文的核心洞见是：把LLM共识当作需要证伪的假设，而非可信的结论。由此，分层语境搜寻生成候选、对抗性击杀指令逐级淘汰、跨模型家族评审捕获相关盲点、强制实证验证作为最终门槛——这四重机制使误报率从失控降至可接受水平（79%候选在披露前被杀死）。

这项工作真正留下的遗产是一套可迁移的对抗性架构：在7个目标上产出4个CVE、1个ISO C++标准缺陷、多个编译器一致性问题——但最关键的教训是一致性不等于正确性。它为后来者打开的新门是跨领域可验证输出的可靠性模式（已初步迁移至SWE-bench），但尚未跨过的门槛是自主发现能力——所有漏洞仍需人类引导，贡献在于过滤而非生成。

arxiv.org/abs/2604.19049 机器学习人工智能论文 AI创造营

昊梵体育网

[AI]《Refute-or-Promote: An Adversarial S

热门分类

[AI]《Refute-or-Promote: An Adversarial S

猜你喜欢

热门分类