抓黑客的AI特种部队？自主黑客攻击与修复的“多智能体”技术现状

AI Summary

多个AI组队寻找软件安全漏洞并演示攻击的“多智能体”技术正在快速发展，但在复杂的Web服务环境中仍存在局限性。

想象一下：清晨，在你还没去上班之前。昨晚，全世界每天都在使用的某款即时通讯应用中弹出了发现新黑客攻击通道的警告。如果是在过去会怎样？安全工程师们接到紧急通知后匆忙赶到公司，灌下浓咖啡，花费数小时甚至数天的时间扒开数百万行代码，搭建测试环境，并筑起防御墙。

但现在情况不同了。在人类沉睡之际，多个人工智能（AI）自主组建了一支虚拟的“安全特种部队”。一个AI调出系统蓝图制定作战计划，另一个AI化身虚拟黑客直接攻击代码，还有一个AI实时分析结果。到了上班时间，这支AI特种部队已经将漏洞分析报告、完美的攻击演示视频，甚至能无痕解决问题的“修复代码”整齐地摆放在了办公桌上。

听起来像是科幻电影里的故事？不。这是目前全球AI研究人员和网络安全专家正在激烈角逐、竞相构建的“用于自动化漏洞发现与重现的多智能体LLM系统（Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction）”所带来的惊人现实。

以ChatGPT为代表的大语言模型（LLM，通过学习海量文本数据，像人类一样理解和生成语言的人工智能）如今已经超越了单纯写文章、画画的助手角色。它们正在深入计算机系统最深、最隐秘的角落，从根本上改变网络安全的格局。这支AI黑客特种部队究竟是如何运作的？目前发展到了什么阶段？我们又为什么要立刻关注这项陌生的技术？

这为什么重要？ (Why It Matters)

我们每天像吃饭一样频繁使用的智能手机应用、银行网站、网购平台等所有数字服务，都是由数十万到数百万行代码组成的。打个比方，这就如同一个一望无际的巨大图书馆里密密麻麻的书架。由于这些庞大的代码是由人类亲自编写的，必然会出现类似小错别字一样的失误，而黑客正是趁着这些微小的缝隙入侵的。我们将这种安全漏洞称为脆弱性或漏洞（Vulnerability）。在安全领域，人们会给这些广为人知的安全漏洞贴上名为“CVE（通用漏洞披露）”的类似罪犯识别号的标签，进行严密的管理。

最大的问题在于压倒性的“速度”和“数量”。每天，全世界都有无数的漏洞如瀑布般涌现，如果要由人类专家逐一确认并在真实的系统环境中亲自重现（Reproduction）以测试其危险程度，需要耗费巨大的时间和成本。因为即使找到了漏洞，要一针一线地编写出能证明其真正足以击溃系统的漏洞利用代码（Exploit，即实际攻击漏洞以证明其危险性的可执行代码），也是一场高度的脑力劳动和耐力较量。

如果AI能完全代替我们完成这个令人心力交瘁的过程，情况会怎样？人类安全专家将从熬夜反复进行的简单漏洞确认工作中彻底解放出来。取而代之的是，他们可以专注于扮演架构师的角色，制定更具创造性和宏观的防御策略。从企业的立场来看，在黑客发现并恶意利用漏洞之前，就可以先发制人，投入AI特种部队筑起坚固的防御墙。这不仅是技术的些许进步。在数字世界的矛与盾之争中，这意味着我们将获得一面最强大、且永不知疲倦的“自动化盾牌”。事实上，开发用于现代Web应用程序自动化漏洞发现的软件框架，已经成为学术界和工业界首要的核心课题 [用于自动化漏洞发现的多智能体AI系统的设计与实现...](https://www.hse.ru/en/edu/vkr/1157694160)。

通俗易懂：“多智能体”是如何运作的？ (The Explainer)

这个创新系统的核心，正是在于“多智能体（Multi-agent，由多个AI各自承担角色并协同合作的系统）”这一独特的架构。

简单来说，我们可以打个比方。想象一下，你必须接受一场非常复杂的脑部手术。即使是全世界最优秀的天才医生，也无法独自一人同时完成麻醉、拿手术刀以及监控屏幕上的血压数值。为了确保手术完美且安全地进行，俯瞰全局的主刀医生、控制患者生命体征的麻醉专家，以及在适当时机递上手术工具的手术室护士，必须完美地组成一个团队。

AI的世界也是如此。如果冲着一个被公认为极度聪明的巨型AI大吼：“给我把这个软件的安全漏洞彻底找出来，立刻生成攻击代码！”，结果会怎样呢？由于一次需要处理的信息量过于庞大，它可能会产生编造不存在事实的幻觉（Hallucination）现象，或者在汹涌的数据泥潭中迷失方向。因此，研究人员发挥智慧，引入了多智能体系统。通过协调多名只专职负责特定子任务的“专业智能体”，解决远远超出单一智能体极限的复杂问题 [FuzzingBrain V2：用于自动化漏洞发现的多智能体LLM系统...](https://arxiv.org/pdf/2605.21779)。

纵观寻找安全漏洞的实际研究案例，我们就能发现这个手术室团队合作的比喻有多么贴切。多年来一直在前线亲自狩猎漏洞的安全组织DARKNAVY，提出了一种名为“Argusee”的多智能体架构。令人惊讶的是，这个系统就像照镜子一样，完全模仿了真实人类安全团队内部精细的分工体系和协作机制进行设计 [Argusee：用于自动化漏洞发现的多智能体协作架构 | DARKNAVY](https://www.darknavy.org/blog/argusee_a_multi_agent_collaborative_architecture_for_automated_vulnerability_discovery/)。也就是说，他们并没有制造出一个既能敲锣又能打鼓的全能天才黑客机器人，而是孕育了一支由各自拥有绝技、训练有素的成员组成的“网络特种部队”。

更生动地展示这种AI特种部队完美角色分工的代表性研究案例，正是“Co-RedTeam”系统。该系统主要由四名团队成员组成，在一个安全隔离的执行环境中不断进行对话和互动 [Co-RedTeam：使用LLM智能体协同进行安全发现与利用](https://arxiv.org/pdf/2602.02164)。

计划主管 (Planning)： 审视系统的整体结构，制定关于“刺向哪里、如何刺穿”的宏伟蓝图和周密策略。
执行主管 (Execution)： 接过计划主管制定的策略，直接编写黑客代码（命令）并按下执行按钮。如果是在手术室里，这相当于直接握着锋利手术刀的行动队长角色。
验证主管 (Validation)： 基于客观数据，冷静地确认执行的攻击是否真的奏效，还是被系统坚固的防御墙挡住了。
评估主管 (Evaluation)： 复盘这整个过程，提供诸如“刚才的攻击为什么失败了？”、“为了下一次攻击需要补充些什么？”等一针见血的反馈。

这支特种部队更加令人不寒而栗的能力在于，它们运用了“分层长期记忆（layered long-term memory）”。它们绝不会犯下仅仅尝试一次失败就乖乖放弃的愚蠢错误。在它们的记忆装置中，过去发现的漏洞模式、高度精炼的黑客策略，以及具体的技术措施，就像经验丰富的老刑警的办案记事本一样，被完好无损地保存下来。它们会将之前惨痛的失败经验或酣畅淋漓的成功经验牢记于心，并在下一次任务中聪明地加以重用，从而形成一种自主且无限进化的机制 [Co-RedTeam：使用LLM智能体协同进行安全发现与利用](https://arxiv.org/pdf/2602.02164)。

此外，一项名为“CVE-Genie”的框架研究则更进了一步。他们重新定义了理想的漏洞重现系统应具备的名为“EAGER”的5个核心属性。这远远超越了单纯编写攻击代码的范畴。基于AI自主且完全一模一样地重建漏洞存在环境（Rebuilds vulnerable environments）、设立验证者，以及跨越多种编程语言和项目的通用能力，该研究正朝着生成“从头到尾完全自动化（End-to-end automated）”的攻击证明（PoC）代码这一宏伟目标迈进 [从CVE条目到可验证的利用代码：用于重现CVE的自动化多智能体框架](https://arxiv.org/html/2509.01835v1)。

当前现状：完美黑客的诞生？ (Where We Stand)

那么，这支可怕的AI特种部队是否能在明天就让全世界所有的黑客和安全专家失业呢？开宗明义地给出结论，那就是：“任重而道远”。

最近，研究人员将目前性能最优异的AI智能体模型（如OpenHands、SWE-agent、CAI等）请上擂台，进行了一场极其残酷的测试。他们收集了涵盖7种漏洞类型和6种最新Web技术的整整80个实际Web漏洞（CVE）数据，开展了基准测试 [[2510.14700] LLM智能体用于自动化Web漏洞重现：我们到了吗？](https://arxiv.org/abs/2510.14700)。这场测试就像是一个冷酷无情的评估舞台，旨在考验那些宛如实验室温室花朵般的最尖端AI，能否在狂风暴雨的“现实世界复杂的软件环境”中真正发挥实力 [LLM智能体与Web漏洞重现 | ShortSpan.ai](https://shortspan.ai/llm-agents-struggle-to-reproduce-web-vulnerabilities.html)。

测试结果将人工智能明显局限性的真面目展露无遗。值得庆幸的是，在重现隐藏于特定库（充当软件组件作用的小代码集合）内部的“简单漏洞”方面，AI智能体展示出了相当可观的成功率。

打个比方，这意味着它们非常出色地完成了撬开“挂在偏僻村落谷仓上的一把老旧破损锁”这一单一任务。因为目标清晰可见，且需要突破的缺口只有一个，要解决的问题范围非常狭窄。

然而，真正的麻烦在于，现代大多数Web服务绝非村落谷仓那种简单的结构。我们不经意间点击的智能手机应用或购物网站，在表面华丽屏幕的背后，隐藏着看不见的后端服务器、庞大的数据库、错综复杂的登录认证系统等无数组件。它们就像一座巨大的高科技大厦，各个部件如齿轮般咬合运转。

研究结果表明，这些曾经聪明的LLM智能体，在多个组件同时咬合运转的多组件（multi-component）环境下的“基于复杂服务的漏洞”面前，却一致陷入了结构性失败（consistently fail）的泥潭 [[2510.14700] LLM智能体用于自动化Web漏洞重现：我们到了吗？](https://arxiv.org/abs/2510.14700)。

让我们用电影来比喻这种混乱的状况。回想一下电影《十一罗汉》（Ocean’s Eleven）。主角团伙为了盗取安保森严的赌场金库，需要执行高度复杂的联合作战：一个人在地下切断电源，同时另一个人分散保安的注意力，还有一个人必须在准确的时机验证假指纹。

然而，现在的AI在这类联合作战面前，就像是不知道该先做什么而惊慌失措、陷入混乱一样。AI在长时间保持任务“上下文（Context，情境的脉络）”方面显得力不从心，在同时调出散落各处的多个服务器运行记录（日志）并推断其关联性的复杂思维过程中迷失了方向。想要超越仅修复一个零件的水平，拥有能够看穿庞大系统整体并找出连接环节的人类安全专家的深刻直觉和长期经验，AI目前还差得很远。

未来会怎样？ (What’s Next)

虽然现在的AI特种部队在巨大的赌场大楼面前，还表现出拿着倒转的地图迷路的新手模样，但考虑到AI技术令人瞩目的发展速度，这种局限性在不久的将来极有可能会被克服。那么，视野更开阔、变得更加聪明的多智能体系统的下一阶段目标究竟是什么呢？

安全专家们通过对“FuzzingBrain V2”等下一代多智能体LLM系统的研究，提供了那个充满魅力的答案线索。研究人员强烈期待，一旦引入具备能够一次性阅读并记住数万本书籍能力的“长上下文理解（long-context）”最新LLM技术，智能体们将能在连续数天的冗长乏味分析会议中也不失专注力，并保持不可动摇的逻辑 [FuzzingBrain V2：用于自动化漏洞发现与重现的多智能体LLM系统](https://arxiv.org/html/2605.21779v1)。

然而，真正让全球安全业界心跳加速的终极发展方向另有所在。那就是“自动生成补丁（Automatic patch generation）”。

如果说在此之前的AI智能体就像间谍一样，只停留在“发现并暗中试探”安全漏洞的诊断角色上，那么下一阶段的飞跃就是自己编写能够完美填补所发现漏洞的坚固水泥，即修复代码（补丁）。打个比方，这就像一位优秀的保安不仅抓住了小偷，还当场立即叫来锁匠和木匠，自动装上一扇更结实的新门和锁。

如果AI成功生成了攻击证明（PoC）代码，这就意味着AI已经彻底且完美地理解了该漏洞的根本原因（root cause）。既然找出了原因，那么接下来，自主生成能够填补该漏洞的完美解决方案（修复，fixes），进而验证该解决方案是否会在不破坏系统其他部分的情况下安全运行——这一切过程将完全由AI一手包办。也就是说，当前的学术界存在一个主流且共同的预期：AI将自主完成从漏洞诞生到被掩埋的整个生命周期（complete the vulnerability lifecycle）[FuzzingBrain V2：用于自动化漏洞发现与重现的多智能体LLM系统](https://arxiv.org/html/2605.21779v1) [[2605.21779] FuzzingBrain V2：用于自动化漏洞发现与重现的多智能体LLM系统](https://arxiv.org/abs/2605.21779)。

MindTickleBytes AI 的视角 (AI’s Take)

过去的网络安全，是一场极为原始且令人疲惫的捉迷藏游戏，它发生在躲在暗房里戴着连帽衫的少数天才黑客，与试图阻止他们秘密入侵的企业防御者之间。但是，多智能体系统的耀眼登场，正在将这场无聊的捉迷藏游戏蜕变为一座24小时一秒不歇、轰鸣运转的巨大“自动化防御工厂”。

当然，现阶段的AI在错综复杂的现代庞大软件大厦结构前，可能只是一支迷失方向的新手特种部队。但是，它们自主寻找安全漏洞、制定精密黑客作战计划，甚至最终能亲自编写出缝合深邃伤口的完美疫苗代码的这种可怕潜力，必定会在不久的将来彻底撼动IT技术的版图。

这一惊人的变化，也要求人类开发者的角色发生巨大的哲学转变。如果说过去的开发者只是徒手一块一块砌砖（代码）的“码农”，那么在未来，我们必须蜕变为协调复杂AI特种部队团队并下达明确指示的“管弦乐团指挥”。在不久的明天，企业和社会的安稳生存，或许不再取决于我们能新“开发”出什么华丽的服务，而是完全取决于我们能多么精妙地组建并多么严格地训练出一支滴水不漏地“守护我们自身系统的AI特种部队”。

参考资料

[FuzzingBrain V2：用于自动化漏洞发现与重现的多智能体LLM系统](https://arxiv.org/html/2605.21779v1)
[[2605.21779] FuzzingBrain V2：用于自动化漏洞发现与重现的多智能体LLM系统](https://arxiv.org/abs/2605.21779)
[Co-RedTeam：使用LLM智能体协同进行安全发现与利用](https://arxiv.org/pdf/2602.02164)
[[2510.14700] LLM智能体用于自动化Web漏洞重现：我们到了吗？](https://arxiv.org/abs/2510.14700)
[从CVE条目到可验证的利用代码：用于重现CVE的自动化多智能体框架](https://arxiv.org/html/2509.01835v1)
[Argusee：用于自动化漏洞发现的多智能体协作架构 | DARKNAVY](https://www.darknavy.org/blog/argusee_a_multi_agent_collaborative_architecture_for_automated_vulnerability_discovery/)
[FuzzingBrain V2：用于自动化漏洞发现的多智能体LLM系统...](https://arxiv.org/pdf/2605.21779)
[用于自动化漏洞发现的多智能体AI系统的设计与实现...](https://www.hse.ru/en/edu/vkr/1157694160)
[LLM智能体与Web漏洞重现 | ShortSpan.ai](https://shortspan.ai/llm-agents-struggle-to-reproduce-web-vulnerabilities.html)

Share this article:

测试你的理解

Q1. 以下哪个比喻最适合用来解释“多智能体”系统？

独自教授所有科目的全能家教
由外科医生、麻醉师和护士各司其职、协同合作的手术室团队
只能反复计算输入数字的简单计算器

多智能体系统并非由单一AI处理所有事务，而是由具备不同专业能力的多个AI分担角色、协同合作的系统。

Q2. 在最近的研究中，AI智能体在发现哪类漏洞时遇到了困难？

基于简单库的漏洞
过去已完全解决的旧漏洞
多个组件复杂交织的基于服务的漏洞

AI智能体能够很好地发现简单漏洞，但在多种Web技术和系统交织的复杂多组件环境（multi-component environments）中，往往会面临结构性的失败。

Q3. 研究人员认为安全漏洞系统未来的终极发展方向是什么？

完全排除人类，由AI统治世界
超越单纯的漏洞发现，自动生成补丁（解决方案）
将所有安全系统替换为物理锁

研究人员认为，下一阶段AI将在查明漏洞根本原因后，自动生成并验证修复该漏洞的补丁（patch），从而自主完成安全漏洞的整个生命周期。