Mythos模型暴露的不是失控风险,而是白宫AI监管框架的自我断裂
副总统万斯在召集OpenAI、Anthropic、谷歌等科技企业CEO的通话中,表达了对Mythos自主挖掘软件漏洞能力的明确担忧——模型可以攻击乡镇银行、医院及供水设施,地方政府缺乏应对能力[4]。白宫的反应速度之快、层级之高,本身构成了一个问题:如果Claude此前已被五角大楼禁用,那么Mythos的“修改版”是基于什么标准被批准在多个联邦机构部署[2]的?
这两项决策——禁用Claude与部署Mythos修改版——在时间线上并存,在逻辑上相互否定。能被一次演示触发高层紧急召集的监管者,对此前同类技术的进展状态缺乏基本的平稳判断;而在禁令仍有效的情况下顶着禁令推进部署,说明此前的禁令本身并非基于可验证的威胁评估。Mythos没有“搅乱”白宫的战略,它只是让一个原本就不存在的连续性彻底暴露出来。
证据链:Mythos展示的是可测量但有限的能力
Mythos在一系列技术评估中确实展示出了可复现的网络安全突破。根据METR的评估,Claude Mythos Preview早期版本的自主任务时长估计为至少16小时(95%置信区间8.5-55小时),已接近无需新任务指令即可测量的上限。AISI的网络安全评估显示,该模型首次实现了TL0级别企业靶场的端到端通关——10次运行成功3次,在专家级CTF任务中成功率达到73%。与OpenAI同期发布的GPT-5.5-Cyber相比,后者在攻击基准测试中性能与之相当,但关键区别在于:GPT-5.5-Cyber仅向经过审查的关键基础设施防御者提供。两块模型性能对等、分发策略迥异,反映的不是技术路线的深层分歧,而是两家公司对同一类能力的商业模式预期完全不同。
然而,这些数字必须放在正确条件下解读。测试环境没有防御者、没有EDR阻断,这意味着模型当前展示的“攻击成功”是在一个静态靶场上完成的——靶场不会还手、不会反向追踪、也不会在检测到异常后动态调整防御策略。将无对抗环境下的通关率等同于真实攻防场景中的作战能力,构成证据的过度外推。模型能做到什么是一回事,在有意识、有经验的防御者面前能做到什么是另一回事。
矛盾的核心:监管决策失去了基准线
如果Mythos的部署决策有独立安全审计支撑,审计结论应当公开;如果审计不存在,那决策实质就是对不同型号施加了不同规则——规则随性能强弱而变化,恰好是监管连续性的反面。这一模式更适合解读为一种政治操作:借一次高调的“震惊”启动政策动员,将既定技术能力重新定义为威胁,从而为政府专用AI基础设施的加速建设打开窗口。Anthropic估值已逼近1万亿美元,超越OpenAI的约8800亿美元,其边际变化主要来自政府订单预期而非商业客户续费验证。如果Mythos的“修改版”以联邦网络安全基础设施的身份被采购,这笔交易的本质是将模型攻击能力内化为国家垄断性资产,而非在市场中接受竞争定价。
白宫表面的“慌乱”完全可能与冷静计算后的叙事需要并行不悖。被吓到的副总统和被召见的CEO们构成了一组政治场景,场景要传递的核心信息是:威胁是新的,所以此前的禁令可以被覆盖;技术是自主的,所以政府必须拥有自己的版本。每一次“震惊”都在为扩大政府采购、收紧出口管控提供合法性。
边界:两种替代解释都需要保留
一个合理的反驳认为:如果白宫并非被吓到,而是有意识地利用这次“震惊”来弥合此前决策的不一致性——“被吓到”本身就是政策转向时对外沟通的标准动作——那么“监管公信力已崩”的判断就过头了。政府完全可以在内部评估稳定的前提下,对外表演一场危机叙事以推动资源重新配置。
这个反驳在逻辑上自洽,不依赖Mythos技术能力的恐怖程度,只依赖白宫有动机制造恐慌。但它的成立依赖于一个可验证的观测指标:白宫在部署Mythos修改版的同时,是否同步推进了独立审计和公开的安全基准?如果同步推进了,表演论成立的空间存在;如果只做了部署而没有任何透明化承诺,那么表演论就让位给更朴素的解释——决策连续性确实断裂了。
另一个需要保留的边界是技术评估本身的局限。METR的16小时自主任务时长和AISI的靶场通关率,测量的都是Mythos在没有主动防御者、没有动态对抗条件下的表现。如果后续测试加入真实防御条件后成功率暴跌,白宫当前的“警觉”就是对实验室性能的过度反应——这种情况下,被吓到不是表演,而是技术判读失误。
后续观察指标
这场争议的核心可在未来几个月通过几个可追踪的信号被验证或推翻:
独立审计是否公开:Mythos修改版若经过独立第三方安全审计,且审计报告包含攻击行为边界测试、防御绕过率和误报率数据,说明部署决策有最低限度的技术依据;如果始终未公开,“震惊”叙事更可能是政策工具而非安全反应。
民用版是否面临出口管控加码:如果政府版部署同时伴随着对商业模型的更严管制,信号清晰——白宫在建立政府专有AI能力的护城河,而非推动普惠监管。
真实防御环境中的性能衰减数据:一旦Mythos接入真实网络防御场景,其攻击成功率、误报率和防御方响应速度将决定当前的政治紧张是否有持续的技术基础。如果性能大幅衰减,白宫的“警觉”将退回为过度反应。
如果上述判断需要被推翻,需有证据表明白宫在Mythos部署前已完成了独立安全审计并向国会或公众披露;或证明五角大楼对Claude的禁令与Mythos的部署之间存在可追溯的、基于新评估标准的程序性区分——目前还没有看到这类证据。
参考资料
Mythos 模型的自主漏洞发现能力已有可复现证据:METR测试显示其自主任务时长可达16小时,AISI评估中首次实现TL0级别企业靶场端到端通关(10次运行成功3次),专家级CTF任务成功率73%。但必须注意测试环境无防御者、无EDR阻断,与真实攻防场景存在显著差距。模型性能与OpenAI GPT-5.5-Cyber相当,但后者仅限关键基础设施防御者使用。白宫部署“修改版”的关键技术风险在于:自主攻击能力一旦接入真实网络,其行为边界无法仅靠静态规则约束,需要持续监控和动态防御成本。更关键的是,目前未公开模型权重或细粒度接口方案,第三方无法独立复现完整能力评估。技术拐点尚未到来——单位攻击成本未见下降,而防御升级的复杂度和部署风险呈指数级上升。追踪指标应聚焦:自主攻击的误报率、防御绕过率、以及部署后真实事件响应时间。
白宫可能是有意表演“震惊”来推动政策转向,而非真的被吓到。
为什么没放进正文:该解释缺乏可验证观测指标,若作为主线会降低判断清晰度;已作为反证边界完整保留并指明验证条件。
Reader Signal
这篇文章对你有帮助吗?
只收集预设选项,不开放评论,不公开展示个人反馈。
选择一个判断,也可以附加一个预设标签。
发布于 2026-05-09 10:20:46。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。