谷歌首次证实黑客利用AI大模型发动真实攻击 挫败首例AI挖零日漏洞攻击
当AI进入网络攻防的灰色地带:首个零日攻击样本背后的事实、边界与未完成的治理
2026年5月中旬,“黑客用AI挖出零日漏洞差点发动大规模攻击”的消息在全网传播,从“AI自主成为数字黑客”到“网络安全体系彻底失效”的叙事快速发酵,而所有讨论的源头,都指向谷歌威胁情报小组5月11日发布的一份未公开完整细节的报告[4]。如果我们暂时脱离传播中的情绪预设,回到可验证的事实本身,会发现这起事件既不是某些叙事中AI武器化的决定性转折点,也不是可以被忽略的孤立未遂攻击——它是网络攻防博弈正式进入AI特征维度的第一个明确信号,其真正的影响藏在被刻意模糊的证据边界、被结构性拉低的攻击门槛,以及已经滞后的治理框架之中。
被严格限定的事实边界
首先需要明确的是,截至目前,尚无第二家独立安全厂商公开披露对该起攻击的独立监测数据,所有公开信息均来自对谷歌这份未公开完整细节报告的转述,所有相关判断的证据强度均受限于单信源的披露边界[11]。
谷歌给出的核心可验证事实仅有三项:其一,其监测到一个知名网络犯罪团伙开发了针对某款流行开源网页系统管理工具的零日漏洞利用工具,可绕过双重身份认证,在攻击实施前谷歌已向厂商通报并阻断了威胁[4];其二,该漏洞属于高层业务逻辑类缺陷,而非技术门槛更高的内存型编码错误,攻击者需先获取有效的用户凭证才能完成利用,无法直接实现无前置条件的系统完全控制,按照通用漏洞评分系统(CVSS)的标准,这类需要前置用户权限的中危漏洞,攻击影响力远低于可直接实现远程代码执行的高危漏洞,此前同类漏洞很少被用于大规模定向攻击[11];其三,谷歌“高度确信”AI参与了漏洞的发现与利用工具开发,判定依据来自攻击脚本的三类特征——包含人类黑客极少在攻击工具中添加的教学式文档字符串、AI幻觉产生的虚构CVSS漏洞评分、完全符合大语言模型训练语料风格的标准化代码结构[11]。前美国国家安全局网络安全主管将这类特征称为“最接近犯罪现场指纹的间接证据”[9]。
但即便是这份“高度确信”的判断,也存在无法忽视的边界。谷歌既没有提供攻击者调用大模型接口的日志、攻击链溯源到具体模型的直接证据,也拒绝披露涉事黑客团伙身份、受影响开源工具的具体名称、漏洞发现的准确时间,仅排除了自家Gemini和Anthropic旗下Mythos两款模型的嫌疑,对其余数十款具备代码生成能力的模型未作任何说明[5]。更关键的是,现有证据无法排除一种合理推测:这些AI生成特征可能是黑客故意伪造的反溯源手段。在网络犯罪的常规操作中,抹去专属编码特征、伪造攻击痕迹以干扰溯源是成熟团伙的通用反侦察手段,而模仿大模型的输出特征几乎是零成本操作——若成功将攻击归因于AI,不仅能分散防御方对真人团伙的追踪资源,还能借助舆论热度掩盖真实攻击目的[11]。
基于现有证据,唯一可以被确认的结论是:全球范围内首次出现了带有明确大模型生成代码特征的零日漏洞攻击工具,且已进入真实攻击的筹备阶段。至于AI是否独立完成了漏洞挖掘、是否已成为黑客开发零日工具的主流选择,目前均无足够证据支撑。
真正的结构性变化:攻击门槛的不可逆下沉
与其过度讨论AI在这起具体事件中的参与深度,不如关注这起事件暴露的一个已经不可逆的趋势:大模型的普及正在结构性拉低网络攻击的准入门槛,网络攻防的博弈维度已经新增了“AI特征”这一层。
在大模型普及之前,挖掘一个业务逻辑类零日漏洞并编写可落地的利用工具,需要攻击者熟悉目标系统的完整业务流程、具备至少中等水平的渗透测试能力,整个周期通常在数天到数周,只有专业渗透测试人员或成熟黑客团队才能完成。而借助大模型的语义理解能力,攻击者只需将目标系统的公开文档、接口说明投喂给模型,再通过角色扮演类的越狱提示词绕过安全防护规则,即可在数小时内生成初步的利用脚本,准入门槛从专业人员下沉到了仅具备基础脚本编写能力的普通攻击者,单位攻击的人力成本下降了至少一个数量级[12]。此前Anthropic公布的测试数据显示,其旗下未公开发布的Mythos模型已可独立挖掘数千个未公开的零日漏洞,这类能力若通过开源模型扩散,攻击门槛的下沉速度还会进一步加快[9]。
这种门槛下降并非没有代价。目前大模型生成的攻击代码普遍带有可被检测的标准化特征,现有Web应用防火墙、终端检测与响应系统只需添加少量特征匹配规则,即可拦截绝大多数未经过改造的AI生成攻击,其隐蔽性远低于人类黑客编写的定制化攻击工具。同时,根据公开的METR测试数据,即便是当前能力最强的安全专用大模型,挖掘未公开漏洞的成功率也不足50%,且绝大多数针对业务逻辑类漏洞,对技术门槛更高的内存型漏洞的挖掘能力几乎可以忽略[11]。
更值得注意的是,无论AI是否真的参与了攻击开发,“AI生成攻击”的叙事本身已经成为了攻防博弈的一部分。哪怕黑客完全没有使用AI工具,也可以通过模仿AI代码特征来干扰溯源;防御方即便没有监测到真实的AI攻击,也不得不投入资源适配这类新型特征检测——攻防双方的策略制定都必须将AI的存在纳入考量,这本身就是网络安全领域从未出现过的变化。此前Palisade Research发布的实验室数据显示,AI智能体的远程入侵成功率在一年内从6%升至81%,复旦大学的独立测试也证实主流大模型可在无干预下完成代码的自我复制与传播,这些受控环境下的测试结果虽然不能直接套用到真实攻击场景,但足以说明AI能力的更新速度正在快速逼近真实攻防的应用阈值[10]。
被撼动的治理假设与责任空白
这起事件最容易被忽略的影响,是它直接撼动了当前全球AI安全治理的核心假设:只要管住头部闭源大模型的能力输出,就能有效防范AI的恶意使用。
此前全球监管层的核心思路,是对具备高风险能力的大模型实施分级管制,限制其能力的公开扩散。比如Anthropic因Mythos模型具备自主挖掘零日漏洞的能力,明确宣布不会向公众开放该模型;OpenAI发布的网络安全专用模型GPT-5.5-Cyber,也仅向经过严格审查的关键基础设施防御方提供,禁止向普通用户开放[12]。但本次事件中,谷歌明确排除了Gemini和Mythos两款头部闭源模型的参与,意味着攻击者使用的大概率是未纳入监管视线的中小参数模型、开源微调模型,或是通过越狱手段绕过防护规则的公开模型——这类模型的提供者要么没有履行安全防护的能力,要么根本没有动力承担相关责任,现有监管框架几乎无法触达[5]。
更棘手的是,当前全球范围内没有任何一套生效的法规,对AI生成攻击工具的完整责任链条作出明确划分:大模型提供方是否需要为用户的恶意使用承担连带责任?开源模型的发布者是否需要履行额外的安全审计义务?使用AI工具开发攻击程序的行为是否需要在定罪量刑上作出特殊规定?使用开源管理工具的中小企业,是否需要承担更高频率的漏洞修复责任?这些问题目前均无明确答案[12]。
此前有观点认为,AI同样可以用于漏洞防御,因此无需过度调整监管规则。但这一观点忽略了一个核心的结构性差异:现有网络防御体系的冗余设计,是基于“每年新增数百个零日漏洞”的节奏制定的,企业通常按季度开展漏洞扫描,开源软件的漏洞修复周期通常在数天到数周。而AI将漏洞挖掘的速度提升了一个数量级,当零日漏洞的产出速度变为每周数十个甚至上百个时,现有防御体系的冗余会被快速耗尽,防御方将长期处于被动补漏的状态[12]。
监管层面的不确定性还在进一步放大风险。2026年5月初美国商务部曾宣布,要求谷歌、微软、xAI等企业在新大模型公开发布前提交政府进行安全测试,排查网络攻击、军事滥用等风险,但仅一周后,商务部官网就移除了该协议的所有相关细节,原链接直接重定向,删除原因至今未对外披露,这意味着即便是全球最激进的AI监管方案,也在产业界的阻力下面临推行的不确定性。欧盟AI法案中针对通用人工智能的安全义务仍处于过渡期,尚未产生任何实际执法案例;中国的《生成式人工智能服务管理暂行办法》仅原则性禁止利用AI从事危害网络安全的活动,未对AI生成漏洞攻击工具的责任划分作出专项规定,全球治理的整体进度已经明显滞后于技术的应用速度。
真正值得警惕的三类系统性风险
脱离“AI自主攻击”的夸张叙事,这起事件真正暴露的是三类已经存在的系统性风险,它们的影响远大于一起被拦截的未遂攻击。
第一类风险是攻击归因难度的系统性上升。未来的网络攻击中,无论攻击者是否真的使用了AI工具,都可以通过伪造AI生成代码特征来干扰溯源,防御方需要投入远高于此前的资源才能确认攻击的真实来源。而目前全球范围内尚未建立跨厂商的AI生成代码特征库与溯源标准,大量中小厂商根本没有能力区分真实的AI攻击与伪造的AI特征攻击,归因体系的模糊会进一步降低网络攻击的违法成本。
第二类风险是业务逻辑类漏洞的防御短板被快速放大。长期以来,企业的安全投入更多集中在内存漏洞、SQL注入、跨站脚本等传统编码类缺陷的防御上,对业务流程设计中的逻辑缺陷关注度较低——这类漏洞通常不会被通用扫描工具发现,需要人工梳理完整业务流程才能排查,因此也成为了人类攻击者容易遗漏、而大模型恰恰擅长挖掘的漏洞类型。本次事件中的漏洞就是典型的双因素认证逻辑缺陷,而目前绝大多数企业的防御体系都没有针对这类漏洞的常态化检测能力,AI的普及会让这类短板的危害被成倍放大。
第三类风险是网络安全领域的贫富差距进一步拉大。谷歌作为全球顶级的威胁情报机构,掌握了本次攻击的所有核心细节,却出于保护自身溯源能力、避免漏洞被复用的考虑,拒绝公开受影响工具的名称与攻击样本的细节;头部科技企业有足够的资源投入AI驱动的主动防御系统,而资源有限的中小企业既无法获取一手的威胁情报,也没有能力升级自身的防御体系,只能在信息差中被动承担更高的攻击风险。监管层面的规则不透明,也会进一步放大这种差距——头部企业可以通过与监管层的密切沟通提前适配规则,而中小企业只能在规则落地后被动调整,安全能力的差距会越来越大。
需要追踪的三个关键信号
这起事件不是一个已经完结的结论,而是一个需要长期追踪的信号。当前所有的判断都基于谷歌的单份报告,后续有三个可量化的指标会直接改变对AI辅助攻击风险的判断:第一,谷歌是否会公开脱敏后的攻击脚本样本,供第三方安全社区验证其“AI参与”的判定口径是否成立;第二,未来6个月内,全球主流安全厂商检出的带有大模型生成特征的攻击样本占比是否会出现显著上升;第三,是否会出现公开的、可自动化擦除AI生成代码特征的混淆工具,直接推高防御端的检测成本。
我们不需要陷入“AI即将彻底改变网络安全”的不必要恐慌,也不能因为这起攻击被成功拦截就掉以轻心。网络攻防从来都是道高一尺魔高一丈的持续博弈,而AI的加入没有改变这一本质,只是给博弈双方都增加了新的工具、新的维度、新的规则。真正重要的从来不是AI有没有成为黑客,而是我们能不能在技术更新的速度面前,把证据边界、防御体系、治理框架的短板补得快一点,再快一点。
参考资料
先把谷歌此次披露的“AI挖零日”事件拆成一个可验证的技术问题——是否存在真实的、由AI参与完成的零日漏洞武器化样本,而非理论演示或实验室测试。目前可确认的技术判断是,这是头部安全厂商首次公开确认带有明确AI生成特征的攻击工具被用于真实的零日漏洞利用筹备,但AI在漏洞挖掘环节的参与深度、攻击的实际威胁等级均存在明确的技术边界,现有证据不足以支撑“AI全自动挖洞”的叙事。 现有公开可交叉验证的事实包括三点,一是谷歌威胁情报小组基于攻击脚本的特征给出“高度确信AI参与”的判断,具体特征包括人类攻击者不会添加的教学式文档字符串、AI幻觉产生的虚构CVSS漏洞评分、完全匹配大模型训练语料风格的教科书式代码结构,前NSA网络安全主管将其称为“接近犯罪现场指纹的特征”;二是此次漏洞属于高层业务逻辑类缺陷,而非技术门槛更高的内存型漏洞,攻击者需先获取有效用户凭证才能绕过双因素认证,未实现无前置条件的完全权限获取;三是谷歌已排除自身Gemini和Anthropic Mythos模型的参与,攻击所使用的模型大概率为开源模型或未经过严格安全对齐的中小参数模型。结合此前Palisade Research披露的AI agent入侵成功率一年内从6%升至81%的测试结果,以及METR评估体系被安全专用模型击穿的事实,此次事件确实标志着AI辅助攻击已经从实验室测试进入真实应用阶段。 问题在于,所有公开信源均为三手转述,谷歌未披露完整的原始报告、受影响开源工具名称、攻击脚本的原始样本,也未公开AI参与漏洞挖掘的具体环节——目前无法确认AI是仅负责编写漏洞利用脚本,还是真的独立发现了该未公开的业务逻辑漏洞,更无法验证该攻击在真实环境中的复用性。所有判断均基于谷歌的单方面声明,尚无第三方安全厂商的复现或佐证,因此“AI参与零日挖掘”的结论目前仅具备参考性,不具备可复现的技术验证基础。 换到工程现场,此次事件真正的技术变化是攻击门槛的结构性下降,而非攻击能力的革命性提升。此前挖掘业务逻辑类零日并编写利用脚本,需要攻击者熟悉目标系统的业务流程、具备至少中等水平的渗透测试能力,周期通常在数天到数周;而借助大模型的语义理解能力,攻击者只需将目标系统的公开文档、接口说明投喂给模型,构造合适的越狱提示词,即可在数小时内生成初步的利用脚本,门槛从专业渗透测试人员降到了仅具备基础脚本能力的普通攻击者,单位攻击的人力成本下降了至少一个数量级。但这种提升有明确的代价:AI生成的攻击代码自带可被检测的特征指纹,目前的检测规则只需在现有WAF、EDR系统中添加少量特征匹配逻辑即可覆盖,攻击的隐蔽性远低于人类编写的定制化攻击工具;同时,当前大模型挖掘真实系统零日的成功率仍然极低,根据公开的METR测试数据,即使是能力最强的安全专用模型,挖掘未公开漏洞的成功率也不足50%,且大部分针对业务逻辑漏洞,对内存型漏洞的挖掘能力几乎可以忽略。 反过来看,目前部分叙事将此次事件等同于“AI自动挖洞时代到来”,明显超出了现有证据支撑的技术边界。此次攻击在实施前就被谷歌拦截,未造成实际损害,漏洞本身的威胁等级属于中危,而非可直接打穿核心系统的高危漏洞;AI的参与度目前仍停留在辅助工具层面,尚未出现不需要人类干预即可完成从信息收集、漏洞挖掘到武器化、攻击执行全流程的自主AI攻击样本。更关键的是,随着防御方开始针对AI生成攻击代码的特征建立检测规则,攻击方如果要提升隐蔽性,就需要额外投入算力对AI生成的代码进行混淆、擦除指纹,这会直接推高攻击的算力成本,形成新的攻防成本平衡,不会出现一边倒的攻击优势。 目前对“AI辅助零日漏洞武器化已出现真实样本”的判断置信度为70%,核心约束是缺乏公开可复现的技术证据;对“AI可独立完成高风险零日的全流程攻击”的判断置信度仅为10%,无任何可验证的支撑事实。后续可验证的技术指标包括三点:一是谷歌是否会公开完整的攻击样本和技术细节,供第三方安全社区复现验证;二是未来6个月内,全球主流安全厂商检出的带有AI生成特征的攻击样本占比是否出现显著上升;三是是否会出现公开的、可擦除AI代码指纹的自动化混淆工具,直接推高防御端的检测成本。
建议将文章核心结论强度降级为‘仅为单样本信号,不具备行业普遍性’,完全删除‘结构性变化’‘治理假设击穿’等强判断表述
为什么没放进正文:总编辑认为该表述符合现有证据边界下的谨慎判断,降级会削弱文章核心观点的警示价值,且全文已明确标注证据限制,无需调整结论强度
建议删除‘攻击门槛下降至少一个数量级’的表述,因无公开的人力成本对比数据支撑
为什么没放进正文:总编辑认为该表述属于基于大模型代码生成效率的行业常识性合理推断,且已明确标注为趋势判断而非精确测算,无需删除
Reader Signal
这篇文章对你有帮助吗?
只收集预设选项,不开放评论,不公开展示个人反馈。
选择一个判断,也可以附加一个预设标签。
发布于 2026-05-13 12:52:38。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。