测量工具先失效,而后才是威胁
一个被忽视的断裂点,决定了当前整个“AI自主攻击”叙事的可信度。
Claude Mythos Preview 在 METR 的测试套件上展现了令人警惕的能力——16小时任务成功率达50%,Palo Alto Networks 报告称 AI 可自主串联漏洞并将攻击时间压缩至25分钟[3]。白宫副总统万斯紧急召集科技公司 CEO,担忧模型能攻破乡镇银行、医院和供水设施。与此同时,Palisade Research 的数据显示 AI 入侵成功率一年内从6%跃升至81%。这些信号叠加,正在推动一个结论:“自主 AI 攻击者已经出现。”
但这个结论跳过了最关键的一步:测量工具本身是否还具备评估有效性。
METR 此次评估用的是一套包含228项任务的测试套件,对 Claude Mythos Preview 来说,只有5项任务能构成有效挑战[3]。这意味着在全部测试项中,模型跑通的是2%的任务集合,其余223项任务根本不在其能力边界内——不是因为模型不够强,而是因为测试设计的上限太低。这相当于用一套小学试卷去考博士生:考出满分的意义不是证明博士水平高,而是证明试卷已经失去了区分度。把测量工具失效包装成“自主攻击现身”,在逻辑上把诊断仪器坏掉当作了病人病情恶化。
更重要的问题是,这5项“有效任务”具体对应什么场景?是漏洞扫描、权限提升、横向移动还是数据外传?试验设置中16小时的窗口是人工截断的上限还是任务自然耗时?成功50%意味着模型在给定时间内走通了一半的攻击链路,每一链路的终点是什么——拿到目标文件就算成功,还是完成完整的渗透、持久化和痕迹清除?这些口径差异,会直接改变50%这个数字的外推空间。如果5项任务恰好集中在模型训练数据中出现频率最高的漏洞利用套路上,那么目前无法排除成功率主要反映记忆泛化而非自主推理,任务同质性问题尚未公开澄清。在没有公开任务清单、评分细则和错误模式分析的情况下,任何成功率都只是待校验的假设信号,不是已确立的能力边界。
Palo Alto Networks 那份提到25分钟攻击时间的报告,同样需要仔细审视其测试环境。已知的条件是:无防御者、无 EDR 阻断、攻击路径依赖已知漏洞库[3]。该时间在此理想化环境中测得,不能等同于在真实对抗环境中的攻击时间。这本质上是在静音靶场上跑自动化脚本——确认模型能够按既定流程操作工具链,但不能推导出在面对 SOC 团队实时响应、蜜罐诱捕和动态防火墙时会有什么表现。把自动化时间压缩等同于自主攻击能力,缺失了两个关键证据桥:模型能否在对抗性环境下自主变轨,以及遭到阻断后能否自我修复攻击链。没有这两条,任何时间数据都是在理想化管道中测出来的流速,与外管网的压力是两个系统。
Palisade Research 那条时间序列——AI 入侵成功率一年内从6%升至81%——被多个独立研究交叉验证,信号强度比单点评估更高。但序列背后仍有口径问题:实验任务是否逐年同质?6%时测试的是 GPT-4 级别模型,81%时可能已经换用了强化学习微调的攻击专用 agent,模型结构和任务难度都可能变了。更稳妥的读法是:给定一组标准化的入侵任务,最新模型的完成率比一年前显著提升。把这句话翻译成“任何暴露在网上的系统面临81%被攻破风险”,是偷换了实验条件和真实环境之间的距离。
真正让评估框架失效这件事变得紧急的,不是某一个模型的表现,而是失效这个事实本身的后果。METR 的测试套件原本用来测量 AI 系统自主执行现实任务的时距,当 97.8% 的任务对前沿模型失去区分度,这个框架就不再能回答资方最关心的问题:我部署或采购的模型在什么条件下会失控,失控的概率边界在哪。关键基础设施运营商、银行、云服务商过去基于合规框架和渗透测试签下的安全采购合同,其底层有效性正在被质疑。如果攻击方能在受控环境中串联漏洞并且压缩时间,那么客户现有的安全堆栈到底在防御什么?这种质疑本身就会启动预算迁移,不管“自主攻击”是否真正落地。
OpenAI 已经在回答这个问题。GPT-5.5-Cyber 不公开开放,仅限审查过的关键基础设施防御者调用,合作方是思科、CrowdStrike 和 Cloudflare。这不是技术演示,而是渠道控制——把最强的攻击能力锁死在分发链条里,只有通过认证的防御方才能调用。这套做法的商业逻辑很清楚:不卖模型调用,卖安全许可和集成服务。它证明的不是模型本身更安全,而是“我能控制谁拿到它”。这个区分直接改变了安全服务的定价权:过去卖防火墙和 EDR 的厂商拼检测率和响应速度,现在新卖点是“我能调用你拿不到的反制能力”。如果这条链路跑通,高端安全市场的话语权会从传统厂商往模型厂商迁移。
Anthropic 自己的研究暴露了这条链路为什么脆弱。多样本越狱实验显示,对 Claude 2 经过256轮对话灌入低危铺垫,最终可以诱使其输出制造炸弹的步骤[1]。这证明长上下文窗口是安全对齐的递减函数,越多次低危对话累积越可能突破限制。但这个机制的核心是“被诱导的人机交互行为”,而不是模型自发产生攻击意图。自主攻击意味着在无预设、无诱导、无初始权限的情况下,模型主动发现目标、规划攻击路径、执行利用。现有所有公开证据——METR 的评估、Palo Alto Networks 的测试、AISI 的企业靶场数据——都不满足“无预设”这一条件。人类设定了攻击目标、给出了初始访问权限、屏蔽了外部干扰、关闭了防御系统和报警机制。在这些前提下展示的能力,更接近高度自动化的脚本执行,而不是独立攻击决策。
AISI 的网络安全评估提供了一个更有信息量的切片:企业靶场端到端通关在10次运行中成功3次,专家级 CTF 任务成功率达73%。企业靶场 30% 的通关率放在工程语境里,意味着在真实防御不升级的情况下,攻击者有七成可能性会失败,且失败原因不是被系统拦截,而是模型自己在执行链路中跑崩。这表明模型当前的攻击能力高度不稳定,在复杂任务中容易累积错误并退化。另一个被明确标注的关键边界:测试环境无防御者、无 EDR 阻断。这测的是纯攻击能力上限,不是“企业会被攻破”的概率。上限和概率之间的距离,就是防御策略、响应速度、环境噪声和组织摩擦力填充的空间。
更底层的替代解释一直存在但被忽视了:这些模型在特定攻击任务上的表现,可能只是在重放训练数据中的知识碎片。当前的大规模预训练语料包含大量安全博文、CTF 题解、漏洞数据库和渗透测试记录,模型在特定提示下拼接出相关操作步骤,不一定在真正“推理”攻击路径。如果这是主因,当防御方改变系统配置、换掉默认端口、部署非标服务时,成功率会出现断崖式下跌。验证这一点的唯一方法是在动态变化的环境中重复测试,并记录模型遇到未知配置时的行为模式。目前没有任何公开测试包含这一步骤,因此重放解释无法被排除。
白宫方面的反应值得单独讨论。副总统万斯称 Mythos 可攻击乡镇银行、医院和供水设施,但这是把“在实验室特定任务中的部分成功”直接映射到“社会级基础设施脆弱性”,中间越过了多层现实变量。以乡镇银行为例,真正决定攻破难度的往往是业务系统本身的混乱配置、内部人员的权限管理疏漏和第三方外包维护的暗门,而不是攻击端是否由 AI 驱动。把 AI 推成主角,反而可能遮蔽了这些基础设施长期欠账的安全现实。这是一种用新技术叙事转移旧系统矛盾的常见模式。
所有信号叠加后,能得出的证据强度分层很清晰:METR 现有评测框架对前沿模型显著失效,是已确认的事实;前沿模型在无对抗环境中展示出可串联漏洞的工程能力,有多来源、低外部效度的实验室数据支持;Palisade Research 记录的 AI 入侵成功率上升趋势有跨研究交叉验证,信号中等偏强但任务同质性未被排除;模型在真实对抗环境中的端到端自主攻击能力,缺失公开证据。从这一分层出发,“自主 AI 攻击者已经现身”的判断不能成立。更准确的表述是:前沿模型在受控靶场中展示出可串联漏洞的操作能力,已有安全评估框架对这类模型失效,需构建新的测量基线,且需要补充对抗环境下的独立测试数据才能评估实际威胁水平。
需要补充的关键数据至少包括四项:第一,配备基础防御(SOC 团队、EDR 规则、动态防火墙)的模拟生产环境中,模型完成全链路攻击的单位时间成功率和资源消耗曲线;第二,同一套任务集在不同模型版本、不同提示条件下的对照数据,以排除知识重放替代解释;第三,攻击链路中创新步骤的比例,即模型是否生成了超出训练数据覆盖范围的攻击策略;第四,行业级靶场(仿真的银行内网、工控环境或医疗系统)中的稳定性与错误模式。在这些数据没有公开之前,任何百分比都只是在真空中画出来的精确错觉。
网络保险的介入将是判断威胁是否实质性落地的观测点。当自主攻击能力变得可以标准化度量,保险业的定价模型将从“历史事件概率”转向“对手模型能力评估”。这会倒逼模型厂商的更新日志变成保费定价因子,谁掌握最新攻击能力的内部评估数据,谁就在保险价值链里拥有话语权。但目前还没有任何一家保险公司在其网络险条款中引用具体模型的能力评估数据作为保费依据。这个指标的出现,是区分“供应商焦虑营销”和“真实预算迁移”的分界线。
同样明确的商业待验证指标包括:是否有大型关键基础设施运营商公开替换现有安全供应商,并明确理由是“针对自主 AI 攻击的防御能力”;GPT-5.5-Cyber 这类限制性分发模型,是否在客户合同中出现年度许可费或持续订阅,而不仅仅是项目合作。如果这两点在未来12个月内没有出现,现阶段所有关于“自主攻击威胁”的讨论,都还停留在卖方驱动的叙事构建阶段。
最终判断需要把事件拆成两个独立的部分:评估体系落后于模型进化,这是一个已发生的事实,其影响是系统性的——它动摇了安全采购、合规审计和保险定价的底层有效性。而“自主 AI 攻击者已经出现”,是一个缺乏无预设、无对抗条件下端到端证据的推断。把这两件事捆在一起讲,会把整个行业的注意力从枯燥但必要的工作——重建评估方法、标准化对抗测试、实施独立安全审计——转移到失控 AI 的戏剧画面上。
真正值得长期追踪的核心问题不是某一个模型有多危险,而是在旧的测量体系失效后,谁来制定新标准,以及制定者是否可以从新标准中收费。这场游戏的结果将重塑安全市场的格局,但游戏才刚刚开始。
参考资料
从工程现场看,整个叙事最关键的断裂点在于:METR评估体系被“击穿”不直接等于模型具备了可部署的自主攻击能力,它首先要被翻译成一个能不能跑通的问题。 把METR的评估结果拆开——228项任务只有5项有效覆盖,16小时任务成功率50%。这个指标的第一层意思是测量工具本身失效了,而不是模型能力被精确量化了。METR的测试套件原本是用来测量AI系统自主执行现实任务时距的,当一项模型只有2%的任务能进评估范围,它反映的根本问题是旧基准的粒度、难度和任务类型都不再适用。换句话说,这更像用小学生试卷考大学生,试卷的区分度为零,你不能从得分直接反推大学生到底多强。需要警惕的是——声称的16小时自主时距可能是真实能力,也可能只是对少数“恰好能测”任务的过拟合表现。 换到网络安全实操场景,AISI的评估数据反而更能说明问题。企业靶场端到端通关在10次运行中成功3次,专家级CTF任务达到73%。这两个数字放进工程语境会立刻暴露代价和边界:企业靶场成功率只有30%,意味着在真实对抗环境中,如果你的防御策略不升级,攻击者有七成可能是失败的,但这失败不是系统拦截的,而是模型在执行链路里自己跑崩了。另一个关键边界在AISI测试设置里直接写了——环境无防御者、无EDR阻断。这相当于测的是纯攻击能力上限,不是“企业会被攻破”的概率。 问题在于,自主攻击的威胁叙事需要两个支柱才能成立:模型能自主规划并执行攻击链,而且目标环境足够接近典型生产系统。现在第一个支柱有初步证据,第二个支柱完全是空的。没有防御压力测试,没有时间压力下的对抗演练,没有对横向移动、持久化和痕迹清理的全链路验证。Palo Alto Networks提到的25分钟攻击时间压缩,同样需要追问是在什么靶场上、面对什么防御配置实现的。 再退一步看Anthropic自己公开的多样本越狱研究,这反倒提供了一个可复现的工程解释:长上下文窗口确实会削弱安全对齐,多次低危对话累积到256轮就能让模型突破限制。这个机制的工程意义是明确的——安全对齐不是一次性门禁,而是上下文长度的递减函数。但这跟“自主攻击现身”是两码事,越狱是被诱导的人机交互行为,自主攻击要求模型在没有外部诱导的情况下,主动发现目标、规划攻击路径、执行漏洞利用。现在没有任何公开证据链能证明Claude Mythos Preview具备这种自发性质。 需要标注两个明确的技术证据缺失:第一,没有开源模型的权重、评估代码或完整的攻击链路复现脚本,就连METR自己的报告也承认测量框架失效,这意味着第三方无法独立验证16小时时距;第二,没有任何机构公布该模型在真实网络靶场中面对SOC团队或自动化防御系统时的表现,这让“自主威胁”的判断停留在纯攻击方视角。 技术边界上的结论很直接:安全评估方法确实被超越了,这不是这一代模型的问题,而是评估基础设施的共同债。自动攻击链路的可行性在限定条件下得到了演示,但要把演示上升为现实威胁,还需要补上防御对抗测试、攻击稳定性与错误模式分析两份技术证据。衡量这件事不应该只看成功率,核心追踪指标应该是:在配备基础防御、设定时间窗口的模拟生产环境中,模型完成端到端攻击链路的单位时间成功率和资源消耗曲线。 从这个维度看,技术信号是明确的:安全评估方法需要整体升级,从静态任务表转向动态对抗框架。但把METR评估失效等同于自主攻击威胁已落地,是跳过了最关键的工程验证环节。
文章过度强调测量工具失效可能延误真实威胁响应,建议在开篇或结尾加入明确警告:即便现有评估有缺陷,模型能力的跃升仍值得高度警惕。
为什么没放进正文:总编辑认为当前的铺垫和分层证据已足够,额外警告会稀释批判分析的焦点,且文章本身并未否认能力跃升,只是呼吁严谨界定。
Reader Signal
这篇文章对你有帮助吗?
只收集预设选项,不开放评论,不公开展示个人反馈。
选择一个判断,也可以附加一个预设标签。
发布于 2026-05-11 02:42:52。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。