2026年6月2日,美国总统特朗普签署的AI审查行政令,最初的舆论解读普遍走向两个极端:一类认为“自愿提交”的规则意味着监管放松,是美国为保持AI产业竞争力做出的让步;另一类则将其包装为AI安全治理的重要进展,标志着全球前沿模型前置审查共识的落地[1]。但如果把时间线拉长到过去半年美国AI领域的一系列冲突——从军方与Anthropic的安全红线之争,到商务部前置测试协议的突然下架,再到联邦与州层面的治理分歧——会发现“自愿”两个字背后,是多方力量反复博弈后的微妙平衡。它既不是监管的实质性倒退,也远非真正意义上的安全治理里程碑,而是一套用柔性规则重新划分前沿AI领域势力范围的隐形框架。
“自愿”的假面:软约束的真实权重
从纸面规则看,这份妥协版行政令的确没有任何强制色彩:它仅要求“达到能力阈值的前沿AI模型开发者”提前30天提交模型做安全测试,未设置强制性发布审批制度,也没有明确不配合的罚则[1]。但这种“无约束力”的表象,恰恰是最容易被误读的部分——它的约束从来不是写在纸面上的罚则,而是嵌入产业利益链条的隐性成本。
最核心的指挥棒是联邦采购的准入资格。2026年美国联邦政府的AI采购预算规模已超百亿美元,在美国大模型To B市场占比颇高,加上能源、金融、医疗等关键基础设施领域客户普遍将联邦政府的安全背书作为采购的核心参考,“未提交安全审查”的标签足以让一家前沿模型厂商失去大量高价值市场份额。这种软约束的效力早已在之前的案例中得到验证:2026年初,Anthropic因拒绝五角大楼提出的“移除超出法律要求的安全限制”要求,不同意将模型用于自主武器和针对美国公民的大规模监控,直接被联邦政府列为“供应链风险”,所有联邦机构被要求立即停止使用其技术,虽然后来加州联邦法院暂时叫停了这一行政封杀,但企业已遭受实质性的订单损失和品牌冲击[7]。
更隐蔽的约束来自未来的责任豁免预期。白宫在2026年3月发布的国家人工智能立法框架中,明确提出要建立清晰的AI安全责任划分机制,行业普遍将“配合政府前置安全审查”视为后续获得责任豁免的核心参考条件[5]。这意味着,现在自愿提交审查的企业,未来一旦出现模型滥用引发的安全事故,有机会以“已履行合规义务”为由减免责任;而选择不提交的企业,将直接承担全部的民事甚至刑事责任。这种责任分配的不对等,足以让绝大多数头部厂商主动选择配合。
实际上,头部厂商与政府的前置审查合作早已在私下运行。据行业公开信息显示,2026年5月美国商务部曾宣布与谷歌、xAI、微软达成协议,要求上述企业在新AI模型公开发布前提交安全检测,排查网络攻击、军事滥用等风险,仅一周后相关内容即从商务部官网移除且未说明原因,这也侧面印证头部厂商早已适应非公开的前置沟通流程。这次的行政令本质上是把私下运行的规则公开化、合法化,既减少了企业的灰色沟通成本,也让政府的审查行为获得了正式的规则依据。
技术上的先天缺陷:审查为何管不住真正的风险
哪怕所有企业都主动配合审查,这套规则也存在难以克服的技术硬伤,无法真正实现防控前沿AI风险的目标。
第一个硬伤是准入标准的完全模糊。行政令自始至终没有明确“达到能力阈值的前沿模型”的量化定义:既没有标注训练总算力、参数规模这类基础门槛,也没有明确参考的危险能力基准测试集,比如是否以漏洞利用得分、或者自主构建攻击链的成功率作为判定依据[1]。这种模糊直接导致规则的准入环节失去了可执行性:开发者无法预判自己的模型是否需要提交,监管方也无法证明某款模型符合提交要求,最终只能靠双方的私下协商决定,给权力寻租留下了空间。
第二个硬伤是测试过程的不可信。前沿大模型的涌现性风险本身就存在技术边界:很多危险能力只会在多轮交互、特定prompt诱导下才会触发,30天的有限测试根本不可能遍历所有可能的场景,这是当前大模型技术的固有特性,与审查是否自愿无关。更核心的漏洞是,监管方没有能力验证企业提交的模型与后续实际发布的版本是否一致:当前前沿大模型的能力对齐仅需要微调不足1%的参数,即可实现危险能力的隐藏或恢复,哪怕审查方拿到了完整的模型权重,也无法通过静态检测或有限测试确认发布版本的真实能力边界。这意味着,企业完全可以提交一个阉割了危险能力的“审查版”模型,等通过审查后再发布完整功能的“商业化版”,监管方根本无法察觉。
第三个硬伤是合规成本的极端不对等。对于OpenAI、微软、谷歌这类头部厂商而言,其早已配备规模可观的安全合规团队,每年相关投入数额颇高,30天的自愿提交要求只是将现有流程标准化,额外成本几乎可以忽略不计。但对于融资金额在1亿美元以下的前沿模型创业公司而言,合规团队搭建、测试环境打包、对接监管的年成本占运营成本的比例相当显著;而前沿模型的正常迭代周期普遍在1-2周,30天的提前提交要求还会直接打乱研发节奏,反复提交的成本甚至可能拖垮一家处于上升期的创业公司。这种成本不对等,本质上是把中小厂商直接排除在了前沿领域的竞争之外。
利益的重构:谁在妥协,谁在受益
这份行政令的出台,本质上是美国联邦政府与头部AI厂商的一次双向妥协,最终的利益分配格局已经清晰显现。
联邦政府是这套规则的首要受益方。首先,它用“自愿”的名义规避了强监管方案可能引发的立法阻力和“扼杀创新”的舆论指责,避免了再次陷入类似Anthropic诉讼那样的法律纠纷。其次,它在没有付出任何立法成本的前提下,拿到了对前沿模型的实质性审查权,强化了联邦政府在AI治理中的主导权,符合白宫立法框架中“避免各州碎片化规则削弱美国AI竞争力”的核心目标[5]。最重要的是,它把前沿模型的安全责任完全转移给了开发商:未来如果出现模型滥用引发的安全事故,政府完全可以以“厂商未自愿提交审查”为由推卸责任,不用承担任何审批过失。
早已和政府达成私下合作的头部AI厂商是第二受益方。OpenAI、微软、谷歌、xAI这类厂商,本来就在执行非公开的前置审查流程,现在只是把原有流程合法化,几乎不用付出额外成本,就拿到了联邦采购的正式准入资格,相当于用极低的代价筑起了后来者难以逾越的合规门槛。比如OpenAI早在2026年2月就和国防部签下了机密环境的部署合约,填补了Anthropic拒签合同后留下的空白[7],这次的行政令相当于给这类原本存在争议的合作披上了合法的外衣。而兼具模型能力和云服务渠道的云厂商更是获得了额外的竞争砝码:他们可以把“通过政府安全审查”的模型打包进云服务的合规套件,相当于把政府的认证变成了云服务的增值项,进一步挤压了独立模型厂商的生存空间。
在受益方之外,三类主体成为了这套规则的直接受损者。第一类是前沿AI领域的中小创业公司,他们既扛不起高额的合规成本,也没有对接政府的资源渠道,不仅拿不到联邦采购订单,还会因为没有政府的安全背书难以获得大企业客户的信任,未来的融资难度也会进一步加大。第二类是希望进入美国市场的海外厂商,行政令中的“能力阈值”完全由美国政府单方面定义,即便海外厂商的模型技术指标达到要求,也完全可能以“国家安全”为由被排除在审查名单之外,相当于直接锁死了美国前沿大模型市场的外部参与者。第三类是像Anthropic这样坚持独立安全路线的独立模型厂商,它目前正面临两难选择:要么提交审查,放弃之前坚持的“不用于自主武器、不用于大规模监控”的安全红线,以换取市场准入资格;要么继续硬扛,不仅失去所有联邦采购订单,还会因为没有政府的安全背书,逐步丢失对合规要求极高的金融、医疗类客户。
值得注意的是,这套自愿规则反而在一定程度上削弱了美国在全球AI治理中的话语权。欧盟通过强制的AI法案框架,已经先后获得了OpenAI GPT-5.5-Cyber、Anthropic Mythos两款安全专用模型的访问权限[6],而美国的自愿规则不仅没有让政府拿到同类的核心模型访问权,反而让部分企业更倾向于先去欧盟获取合规背书,再进入全球市场,这种反差也凸显了美国当前AI治理的被动性。
过渡性的监管:规则的未来走向
也有观察人士认为,这套自愿规则本质是美国联邦政府在AI监管权力博弈中的战略后撤,既没有解决前沿AI风险的不可逆性问题,也没有弥合联邦与州的治理分歧——据公开信息显示,2026年5月加州州长纽森刚签署了全美首份应对AI劳动力冲击的行政令,同期特朗普原定的联邦AI监管行政令曾临时推迟,足以说明联邦层面的治理共识仍未形成——因此有观点认为这份行政令不过是掩盖监管失效的遮羞布。但如果回到美国AI治理的现实语境,会发现这份行政令的定位从来不是终极解决方案,而是过渡性的监管安排。
作为行政规范性文件,它的效力低于国会立法,仅对本届政府有效,未来换届后存在被调整的可能。白宫已经明确表示要推动国会在2026年底前出台正式的AI立法,这份行政令只是搭建了一个临时的规则框架,为后续的立法积累实践经验,目前行业普遍预期它在未来6个月内被正式立法替代的可能性较高。
当前这套规则仍存在大量未明确的不确定性。首先是能力阈值的定义,目前还不清楚政府会按参数规模、基准测试性能还是特定风险能力划分审查范围,如果以风险能力为标准,Anthropic的Mythos、OpenAI的GPT-5.5-Cyber这类具备自主漏洞挖掘能力的安全专用模型,会被优先纳入审查范围。其次是执行细则的缺失,目前牵头审查的部门、测试标准、模型权重的保密机制都还没公开,联邦政府也没有足够的技术团队完成全量模型的测试,大概率会采取“企业自检+政府抽查”的模式,存在企业提交阉割版模型规避审查的监管套利空间。最后是Anthropic的选择,它的态度会直接影响整个行业对审查规则的接受度,如果Anthropic选择妥协提交审查,会进一步强化规则的实际约束力;如果它继续硬扛并提起诉讼,可能会引发新一轮的法律冲突,甚至推翻现有规则。
接下来的几个核心事实,会直接决定这套规则的最终走向:一是未来3个月内白宫是否会公布“前沿模型能力阈值”的量化技术标准和可复现的测试用例;二是2026年第三季度联邦AI采购订单中,提交过安全审查的厂商占比是否超过90%;三是Anthropic是否会在6个月内提交模型审查,同时调整其安全对齐规则;四是国会AI立法草案中是否会将自愿审查升级为强制要求。
对于前沿AI从业者而言,最忌讳的是被“自愿”的纸面表述误导,认为监管压力已经解除。实际上,从这份行政令开始,合规能力已经和技术能力、资本实力并列,成为前沿AI领域的核心竞争要素——监管从来不是外部噪音,而是产品能否进入真实高价值场景的边界条件。
参考资料
先把这个行政令的安全审查承诺拆成一个能不能跑通的工程问题:一套没有明确准入阈值、没有公开测试标准、没有强制执行罚则的审查流程,在技术层面不具备对前沿大模型的实质约束能力,本质是去除了所有可落地技术条款的政策性表态。 目前所有公开的一手信源均未明确“达到能力阈值的前沿模型”的量化技术判定标准——既没有标注训练总算力、参数规模这类基础门槛,也没有明确参考的危险能力基准测试集,比如是否以CyberSecEval的漏洞利用得分、或者自主构建攻击链的成功率作为判定依据。这直接导致审查的准入环节失去了可执行的技术依据:开发者无法预判自己的模型是否需要提交,审查方也无法证明某款模型符合提交要求。更关键的是,今年5月美国商务部与谷歌、xAI、微软达成的前置安全测试协议,其细节已在半月后从商务部官网全部移除,原链接失效且未说明删除原因,意味着此前行业猜测的测试框架、通过标准等核心技术条款已被撤回,目前没有任何公开可验证的安全测试用例、合格线或操作流程。 从工程落地的角度看,哪怕企业愿意自愿提交,整个流程的成本也远超政策表述的轻量预期。前沿大模型的权重通常采用分布式分片存储,适配专属的推理框架和调度系统,仅完成可独立运行的测试环境打包,就需要核心工程团队5-10人天的工作量,对于迭代周期普遍在1-2周的前沿研发团队来说,30天的提前提交要求会直接打乱正常的迭代节奏;若测试标准不透明导致反复提交,单版本的合规成本会上升至原研发成本的15%-20%,足以倒逼企业选择不提交核心版本。更核心的技术漏洞在于,审查方没有能力验证企业提交的模型与后续实际发布的版本是否一致:当前前沿大模型的能力对齐仅需要微调不足1%的参数,即可实现危险能力的隐藏或恢复,哪怕审查方拿到了完整权重,也无法通过静态检测或有限测试确认发布版本的真实能力边界。此外,大模型的涌现性风险本身就存在技术边界,哪怕测试流程完全透明,前置30天的有限测试也不可能遍历所有可能的prompt诱导场景,很多危险能力只会在实际运行的多轮交互中触发,这是当前大模型技术的固有特性,与审查是否自愿无关。 需要承认的是,全球范围内针对前沿模型的前置安全审查确实正在形成行业共识,比如欧盟已先后获得OpenAI GPT-5.5-Cyber、Anthropic Mythos两款安全专用模型的访问权限,美国军方此前也与头部企业达成过机密环境下的部署前测试协议,本次行政令在方向上与现有实践对齐。但妥协版的定位决定了其刻意回避了此前引发剧烈冲突的强制条款:今年初美国军方要求Anthropic移除安全防护、开放核心模型权限的要求,曾引发企业诉讼和全行业研发人员的联名反对,最终加州法院叫停了行政封杀,本次转为自愿审查本质是监管方的被动让步,以避免再次陷入法律纠纷,但也因此丧失了所有实质约束力。 目前该行政令的核心技术细节公开缺失度超过80%,“不具备实质技术约束能力”的判断置信度为90%,剩余10%的变量取决于后续是否会出台配套的技术执行细则。后续可验证的核心指标包括三点:一是未来3个月内白宫是否会公布“前沿模型能力阈值”的量化技术标准,明确参考的基准测试集和危险能力判定项;二是是否有头部AI企业公开确认提交了新研发的前沿模型用于审查,且说明提交版本与后续发布版本的一致性;三是审查方是否会公开至少部分可复现的测试用例和结果,以证明审查过程的技术严谨性。在此之前,所有关于该行政令“强化AI安全”的表述均属于政策层面的声称,不具备可验证的技术支撑。
要求将主结论修订为「特朗普AI行政令是监管战略后撤的遮羞布,无实质约束力」,并强化批判语气
为什么没放进正文:该判断缺乏联邦采购准入、头部厂商私下合作等核心证据支撑,情绪化表述不符合差评品牌「证据先行」的中性批判要求,且会导致主结论过于极端,忽略规则的隐性约束效力
要求加入「单版本合规成本上升15%-20%」的精确测算数据
为什么没放进正文:该测算未提供公开行业成本数据支撑,属于无来源的精确表述,易误导读者,仅保留定性表述更符合证据边界要求
Reader Signal
这篇文章对你有帮助吗?
只收集预设选项,不开放评论,不公开展示个人反馈。
选择一个判断,也可以附加一个预设标签。
发布于 2026-06-03 20:09:23。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。