Ai Product2026-05-21 10:09:5911 min read

谷歌I/O 2026：Agent范式转捩点的叙事与现实

No.05

Aione Editorial

Aː

Aione 编辑部

Editorial Desk

2026-05-21 10:09:59 11 分钟

2026年5月20日谷歌I/O开发者大会结束当天，谷歌母公司Alphabet股价收跌2.01%，报387.66美元，总市值蒸发近千亿美元。这一市场反应与发布会后科技圈普遍的“谷歌全面反超”叙事形成了鲜明反差：在长达3小时的主题演讲中，谷歌一口气发布了Gemini 3.5系列模型、全能多模态模型Omni、个人AI代理Spark、代码Agent平台Antigravity 2.0，以及搜索、Workspace、硬件等十余项AI更新，覆盖了当前AI赛道所有热门方向[1]。但资本市场的冷淡反应暗示，这场被国内媒体称为“Agent时代入场券”的发布会，实际价值远没有宣传叙事中那样确定。

范式转移的确定性信号

剥离所有宣传包装，本次谷歌I/O最核心的价值，是第一次完整展示了AI行业从“工具式AI”到“代理式AI”的范式转向路径，而非单点模型的代际突破。过去三年，大模型的商业化逻辑始终围绕“单次调用”展开：用户输入prompt，模型输出结果，计费按单次调用的token量计算，产品形态以对话式聊天框、单次生图生文为核心。但从2025年下半年开始，行业普遍意识到，大模型的真正价值不在于回答问题，而在于代替用户执行长周期、多步骤的复杂任务——也就是Agent（智能代理）。但直到本次发布会之前，没有任何一家巨头给出完整的、可落地的Agent全栈方案，所有产品要么停留在Demo阶段，要么受限于算力成本、计费模式、生态打通的瓶颈无法规模化。

本次谷歌发布的产品矩阵，第一次填补了这个空白，其中三个核心进展具备足够的证据支撑，是行业公认的确定性变化。第一个确定性进展是模型底座的Agent原生重构。本次发布的Gemini 3.5 Flash并非传统意义上的“轻量模型升级”，而是专门针对Agent任务设计的基座模型。谷歌官方披露的基准测试数据显示[1][4]，该模型在编码任务Terminal-Bench 2.1上得分76.2%，在真实世界Agent任务GDPval-AA上得分为1656 Elo，在大规模工具调用测试MCP Atlas上得分83.6%，在多模态推理测试CharXiv上得分84.2%，所有四项核心指标均超过上一代旗舰模型Gemini 3.1 Pro[4]。更关键的是，该模型的空跑token输出速度达到289 tokens/秒，是当前同类前沿模型的4倍[4]，已作为Gemini App和搜索AI模式的默认模型上线，公开API定价为输入1.5美元/百万token、输出9美元/百万token，缓存输入价格低至0.15美元/百万token[6]。第二个确定性进展是计费模式的根本性调整。与模型升级同样重要的是，谷歌同步调整了全系列AI服务的计费模式，从传统的日调用次数限制，转向完全基于实际计算量的动态计费。这是行业内首个专门适配Agent场景的定价规则：传统单次对话的token消耗通常在几千到几万量级，日限额模式足以覆盖普通用户需求，但一个全时运行的Agent每天的token消耗可达数百万甚至数千万，是普通用户的数十倍，原有订阅制的限额模式根本无法支撑规模化使用[8]。谷歌披露的运营数据也印证了这一趋势[1]：其全球大模型月处理token量已从2025年I/O时的480万亿，暴涨至2026年的3200万亿，一年增长7倍；内部开发者的日token消耗更是在两个月内从3月的5000亿飙升至当前的3万亿，翻了6倍，其中超过70%的增量来自Agent类任务[8][10]。截至目前，已有375家外部客户单月处理token量超过1万亿，证明谷歌的算力集群已经具备支撑大流量Agent任务的规模化运行能力，这是目前其他厂商未公开验证的底座优势[6]。第三个确定性进展是全栈产品的落地路径清晰。在应用层，本次发布的所有核心产品均给出了明确的上线时间表，而非远期规划：Gemini 3.5 Flash已面向所有用户开放，3.5 Pro版本预计下月推出；Gemini Omni的首个版本Omni Flash已在Gemini App上线，面向订阅用户和YouTube Shorts创作者开放；代码Agent平台Antigravity 2.0已面向全球用户开放[2]，谷歌现场演示了93个子Agent并行工作，12小时内处理26亿token，完成一个功能完整的OS内核开发，总API成本不到1000美元[4][6]；个人AI代理Gemini Spark将在谷歌云隔离虚拟机中运行，下周面向美国Ultra订阅用户开放测试，今年夏季将集成到Chrome浏览器中[2][3]。整个产品矩阵从模型底座到开发平台，再到个人端和场景端应用，形成了完整的闭环，而非零散的单点发布。

这些进展意味着，Agent不再是实验室里的概念Demo，而是已经具备规模化落地的技术底座和商业基础。谷歌作为首个拿出完整方案的巨头，确实走在了行业的前面，但这并不等于它已经拿下了Agent时代的竞争优势。现有公开信源交叉验证显示，谷歌官方的宣传叙事与实际落地能力之间，存在三层清晰的落差，所有“谷歌全面反超OpenAI”“锁定Agent时代胜局”的判断，都远没有达到证据可支撑的强度。

第一层落差：性能与成本的口径选择性

第一层落差，是核心性能与成本宣称的口径选择性。谷歌官方将Gemini 3.5 Flash的核心卖点定义为“又快又便宜”，多次强调其“速度是同类前沿模型的4倍，成本不到同类旗舰模型的一半”[1][3][10]，并据此测算“头部客户若将80%的前沿模型工作负载迁移到3.5 Flash，每年可节省超过10亿美元”[3][10]。但这套叙事存在三处关键的前提缺失。首先是速度宣称的场景限定。官方提到的4倍速度，是1M上下文下短文本生成的空跑token速度，仅能反映模型的峰值输出能力，无法代表Agent长链任务下的端到端延迟[3][8]；而被广泛传播的“Antigravity平台内速度提升12倍”，是谷歌针对自有开发工具链做的专属软硬协同优化结果，仅能在谷歌封闭生态内使用，对外公开的API版本并不支持该优化[8]。即便是被反复提及的93个Agent12小时生成OS内核的演示，也仅为谷歌内部受控环境下的测试结果，目前尚无外部开发者复现的公开记录，也未开源相关代码仓库，无法验证生成的OS内核的功能完整性[4][8]。其次是成本测算的逻辑漏洞。官方的成本对比是将3.5 Flash的单token API定价，与其他厂商的旗舰级模型单token定价做对比，但完全回避了Agent任务本身的token消耗量级——行业通用数据显示，Agent任务的单任务token消耗是传统对话任务的3到10倍[8][10]，叠加3.5 Flash的API定价比上一代Gemini 3 Flash高3倍的现实，第三方行业分析机构Artificial Analysis 2026年5月发布的报告测算，其单位任务的实际运行成本，较上一代3.1 Pro高出75%，较旧版Flash高出5倍有余[10][12]。而官方提到的“年省10亿美元”的测算，建立在“80%工作负载为短上下文轻量任务”的假设上，完全不符合企业级Agent长周期、多工具调用的真实负载特征。此外，谷歌公布的Gemini月活从2025年I/O的4亿增长到当前的9亿，也存在口径模糊的问题：官方未明确该数据是Gemini独立App的月活，还是包含搜索、Workspace等谷歌自有产品中默认调用Gemini能力的用户，若为后者，增长的核心驱动力是谷歌自有生态的流量倾斜，而非用户主动选择Gemini的市场竞争力提升，不能直接推导为Gemini产品的用户认可度翻倍[10][12]。第三是性能对标对象的模糊化。国内部分媒体传播的“Gemini 3.5 Flash性能碾压GPT-5”的表述，此为非官方演绎，谷歌官方未做此类对标，相关说法仅来自三手报道的编译演绎，官方从未明确将GPT-5作为对标对象，也未公开任何跨模型基准测试的原始数据，即便是官方给出的四项基准测试成绩，也仅标注了超过上一代Gemini 3.1 Pro，未提供与外部竞品的同条件对比数据[10][12]。目前所有核心性能数据均来自谷歌官方单方面披露，9份公开信源中仅2份为一手现场报道，其余均为官方通稿的转译与二次加工，看似100%的交叉验证率本质是信息同源的结果，尚无第三方独立实测数据支撑核心性能宣称。

第二层落差：产品定位的概念放大

第二层落差，是核心产品定位的概念包装与实际能力的差距。最典型的案例是被称为“全能世界模型”的Gemini Omni。谷歌官方将其定义为“可从任何输入生成任何输出的世界模型”，宣称其能够理解和模拟真实世界的物理规则，代表了通用AI的下一步方向[1][5][7]。但目前已上线的Omni Flash版本，仅支持文本、图片、视频输入生成或编辑视频内容，所有公开演示也仅围绕对话式视频编辑、短视频生成展开，既未展示从音频、传感器数据等非视觉输入生成3D模型、物理仿真等其他模态输出的能力，也未提供模拟物理规则的通用场景验证，本质上仍是一款生视频赛道的细分产品，距离“全模态任意输出”的世界模型定位存在明显差距[5][9]。同样的概念放大也出现在个人AI代理Gemini Spark的宣传中：官方重点强调其“7×24云端运行、原生打通谷歌全系应用、自动处理账单邮件甚至代理支付”的能力，却很少提及该产品目前仅支持原生接入谷歌自有应用，第三方应用接入需要走Antigravity的托管API，不支持本地或私有云部署，所有用户数据必须流经谷歌云端，无法满足金融、政务等合规敏感场景的需求[2][8]。即便是被称为“搜索25年来最大升级”的搜索AI改版，目前新增的Search Agents功能也仅支持24小时后台监控信息变化并主动推送，尚未实现真正的跨平台自主决策与任务执行能力，距离“代理式搜索”的宣传定位仍有不小的距离。这种概念放大的本质，是用远期规划的能力包装当前的产品定位，从而抬高市场预期。不可否认，Omni未来可能会逐步开放全模态输出能力，Spark也可能会逐步支持第三方应用接入，但将未落地的远期能力作为当前产品的核心标签，很容易误导市场对产品实际能力的判断。

第三层落差：商业化的隐含风险隐瞒

第三层落差，是官方叙事完全回避了Agent模式背后的核心商业化风险与责任边界问题。Agent模式的核心是“自主执行任务”，这意味着AI不再是一个被动的工具，而是会主动对用户的个人数据、财产甚至工作流程产生影响，随之而来的隐私风险、责任风险、业务反噬风险，都远高于传统的工具式AI，但谷歌在发布会上几乎完全没有提及这些问题。首先是C端的隐私与责任风险。Gemini Spark要实现自动处理邮件、解析账单、代理支付等功能，需要获取用户的邮件、日历、支付信息、位置数据等全部核心隐私数据，但谷歌在发布会上完全未披露任何配套的安全审计结果、数据权限管控机制与误操作责任划分规则——一旦Spark出现权限滥用、数据泄露或自动执行任务出错（比如下错订单、删除重要工作邮件），谷歌并未明确对应的赔偿机制与责任承担方式，仅以“隔离云端运行”的模糊表述带过核心风险[12]。美国现行的CCPA等隐私监管规则对个人数据的使用有严格限制，Spark的全量数据授权模式是否符合监管要求，目前尚未有明确结论。其次是B端的迁移成本壁垒。谷歌将Antigravity 2.0的核心卖点定为“速度快、成本低”，试图对标Claude Code抢食代码Agent市场，但目前绝大多数企业的代码库与开发流程都深度对接GitHub、AWS、Azure等现有工具链，迁移AI工作负载的成本不仅包括API价格，还包括系统对接、流程重构、员工培训等隐性成本，远高于单纯的API价差，谷歌的成本优势目前仅能覆盖已经使用谷歌云服务的客户群，难以快速渗透到更大的市场[8][10]。最核心的风险来自谷歌的基本盘——搜索业务。代理式搜索的核心逻辑是由Agent直接整合信息给出最终答案，用户不再需要点击搜索结果跳转第三方网站，这直接动摇了谷歌赖以生存的关键词广告变现体系。目前谷歌超过80%的收入来自广告业务，其中搜索广告占比超过60%，如果代理式搜索真的普及，用户的搜索结果点击量大幅下降，谷歌的广告收入将面临直接冲击。这也是发布会后谷歌股价下跌的核心隐含担忧，但谷歌在发布会上完全未提及这一风险，仅强调搜索体验的提升[10][12]。此外，谷歌调整了Ultra订阅的定价，新增100美元/月的入门档，将原250美元/月的档位降至200美元/月，试图通过降价吸引更多用户为Spark等高级功能付费，但目前尚无任何数据支撑用户愿意为个人Agent支付如此高的订阅费用，付费意愿仍有待验证[3]。

分层判断与后续观测指标

基于现有公开信源，我们可以得出三个分层的确定性判断，而非单一的“好或坏”的结论。首先，本次谷歌I/O确实是AI行业从工具式AI向代理式AI转型的关键节点，谷歌展示的全栈工程整合能力、规模化算力支撑能力、适配Agent的定价体系，都为行业提供了明确的参考路径，这一判断可通过所有公开信源交叉验证，置信度为90%。其次，谷歌本次发布的所有已上线产品的可用性是确定的，包括Gemini 3.5 Flash的API、Antigravity 2.0开发平台、Omni Flash的视频生成能力，均可直接接入验证，这一判断的置信度为95%。第三，所有关于“谷歌已经反超竞品”“Agent时代已经全面到来”的判断，目前均无足够证据支撑，核心性能宣称、商业化能力、用户接受度都还需要进一步验证，置信度不足30%。

要进一步校准判断，需要跟踪四个可量化的核心指标，而非依赖官方的宣传通稿。第一是第三方独立基准测试数据：需要等待独立评测机构在相同硬件配置、相同真实Agent任务场景下，验证Gemini 3.5系列与当前头部模型的性能、速度、端到端任务完成率与实际单位任务成本的差异，确认谷歌的性能与成本优势是否真实存在。第二是Gemini Spark的实际运营数据：需要跟踪Spark上线3个月后的用户留存率，以及跨应用任务的实际完成率，而非官方演示的理想场景数据，验证个人Agent的用户需求是否真的成立。第三是搜索AI模式的广告变现数据：需要观察搜索AI模式全面铺开后，谷歌搜索广告的eCPM（有效千次展示成本）与用户点击量的变化，验证代理式搜索是否会冲击谷歌的核心广告收入。第四是Antigravity 2.0的市场份额数据：需要跟踪该平台上线6个月后的付费开发者市占率，确认其能否从Claude Code等现有头部代码Agent平台手中抢下10%以上的市场份额，验证B端客户对谷歌Agent产品的接受度。

如果出现以下三类事实，我们将修正当前的判断：如果第三方实测数据证明Gemini 3.5 Flash的单位真实任务成本确实比同类竞品低50%以上，那么谷歌的成本优势将被确认，其市场竞争力将大幅提升；如果Gemini Spark上线3个月后的用户留存率超过50%，那么个人Agent的大众需求将被验证，整个C端AI市场的空间将被打开；如果谷歌搜索转向Agent模式后，广告eCPM没有出现明显下降反而有所上升，那么谷歌将解决搜索转型的核心矛盾，其基本盘的稳定性将大幅增强。反之，如果以上事实均未出现，那么本次发布的实际商业价值将远低于当前的市场预期。

从更宏观的行业视角来看，本次谷歌I/O的真正意义，不是宣布了某家巨头的胜利，而是宣告了AI行业的游戏规则已经彻底改变。过去五年，行业的竞争核心是单模型的跑分、参数规模、上下文长度，而进入Agent时代，竞争的核心将变成工程整合能力、算力规模化成本、生态打通的广度、隐私合规的解决方案、商业化闭环的跑通能力。谷歌只是第一个把这套完整玩法摆上台面的玩家，而非已经锁定胜局的领跑者。对于整个行业而言，真正的竞赛才刚刚开始，所有的结论都要留给真实的用户和市场来验证，而非发布会的演示和宣传通稿。

References

参考资料

Editorial Room

这篇文章怎么过稿

5 位编辑过稿

总编辑主笔

编写方式

总编辑主笔

校稿清单

9/9

资料引用

12 条

编辑席

技术编辑

这次谷歌I/O的AI发布，本质是把此前分散的模型、工具、Agent能力做了全栈工程闭环的验证，而非单点模型的代际突破，所有性能宣称都绑定了严格的场景限定，不能直接等同于通用能力的提升。目前可验证的落地进展有三项：一是Gemini 3.5 Flash已经作为Gemini App和搜索AI模式的默认模型上线，公开API定价为输入1.5美元/百万token、输出9美元/百万token，支持1M上下文；二是Antigravity 2.0的多Agent协同演示给出了明确的资源消耗数据：93个子Agent并行12小时，处理26亿token，总API成本不到1000美元，且该平台已经面向全球用户开放；三是Gemini Spark的部署路径清晰，将在谷歌云隔离虚拟机中运行，下周面向美国Ultra订阅用户开放测试，明确了初期的用户范围和运行环境。但所有核心性能数据均仅来自谷歌官方发布，无独立第三方信源交叉验证：包括Gemini 3.5 Flash在MCP Atlas、Terminal-Bench等基准测试的得分，均为谷歌自测结果，没有披露测试的上下文长度、工具调用次数限制、任务失败率等关键参数；12小时生成OS内核的Demo没有开源代码仓库，也没有第三方对功能完整性的验证；Gemini Omni官方声称的“从任意输入生成任意输出”属于长期产品路线，当前上线的版本仅支持视频生成与编辑，不支持全模态输出，也没有公开视频生成的分辨率、帧率、长时序一致性等核心指标，以及与现有商用生视频模型的同口径对比数据。指标看起来漂亮，但生产环境会先追问成本和稳定性。首先是速度宣称的场景限定，官方提到的4倍于同类前沿模型的速度，是1M上下文下短文本生成的空跑token速度，而Antigravity平台内的12倍加速是专属软硬协同优化的结果，仅能在谷歌自有开发工具链内使用，对外公开的API版本不支持该优化；其次是成本的口径差异，官方宣称“成本不到同类模型一半”，是与旗舰级模型的单token定价对比，但该版本API定价比上一代Gemini 3 Flash高3倍，结合Agent任务单任务token消耗为普通对话的3-5倍的行业规律，海外第三方机构测算其单位任务实际成本比上一代高75%，官方提到的“头部客户年省10亿美元”是建立在80%负载为短上下文轻量任务的假设上，不符合企业级Agent的真实负载特征；最后是部署的封闭性，Gemini Spark仅支持原生接入谷歌全系应用，第三方应用接入需要走Antigravity的托管API，不支持本地或私有云部署，所有用户数据必须流经谷歌云端，无法满足金融、政务等合规敏感场景的需求。需要明确的是，本次发布的工程整合能力确实具备行业参考性，谷歌披露的内部日处理token量从3月的5000亿增长到当前的3万亿，两个月翻6倍，且有375家外部客户单月处理量超1万亿，证明其算力集群已经具备支撑大流量Agent任务的规模化运行能力，这是目前其他厂商未公开验证的底座优势；计费模式从日调用限制转向按计算量计费，也适配了Agent长周期、多轮次任务的特性，解决了此前订阅制的核心痛点。当前判断的置信度分层明确：已上线模型和API的可用性置信度为90%，可直接接入验证；核心性能宣称的置信度为30%，缺乏第三方复现支撑；全栈Agent的规模化商用能力置信度为50%，仅覆盖美国小范围订阅用户，尚无多租户稳定性和任务完成率的真实数据。后续需要跟踪四个核心维度的公开数据作为判断修正依据：一是第三方评测机构是否放出Gemini 3.5 Flash与当前头部模型在长上下文工具调用、真实Agent任务上的同基准对比，尤其是任务成功率和端到端延迟；二是Gemini Spark上线后真实用户的跨应用任务完成率，而非官方演示的理想场景数据；三是Antigravity平台多Agent调度的单位任务成本是否会随着规模上升出现下降，还是维持当前定价；四是Gemini Omni开放全功能后，1080p 30秒视频的生成时间、一致性指标及单位生成成本。

过稿轨迹

挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾

校稿清单

篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄

被压下去的反对意见

差评君critical

建议直接block发布，因一手信源占比仅13%，远低于40%门禁，且部分第三方数据无明确来源，存在误导风险

为什么没放进正文：文章具备独立分层论证框架和反证意识，核心判断基于交叉验证事实，信源不足可通过补充1-2个官方一手信源修复，无需阻断发布

差评君attention

建议删除所有非官方第三方成本测算内容，仅保留谷歌官方披露数据，避免引用未验证信息

为什么没放进正文：第三方成本测算是核心反证依据，删除会大幅削弱批判深度，只需明确标注来源即可，无需删除

Reader Signal

这篇文章对你有帮助吗？

只收集预设选项，不开放评论，不公开展示个人反馈。

选择一个判断，也可以附加一个预设标签。

发布于 2026-05-21 10:09:59。本文为原创深度报告，未经授权不得转载。观点仅代表编辑部独立判断，不构成投资建议。

Ai Product

英伟达的智能体治理新局：能力认证的真实价值与边界

2026-05-21

Ai Product

告别视频会议小方格？Google Beam的体验分层与落地门槛

2026-05-21

Ai Product

青骐智能体：张江AI生态里的人才试验场

2026-05-19

Ai Product

押注AI健康的三星手表，能跳出安卓可穿戴的参数内卷吗？

2026-05-19

范式转移的确定性信号

第一层落差：性能与成本的口径选择性

第二层落差：产品定位的概念放大

第三层落差：商业化的隐含风险隐瞒

分层判断与后续观测指标

参考资料

这篇文章对你有帮助吗？

相关阅读

英伟达的智能体治理新局：能力认证的真实价值与边界

告别视频会议小方格？Google Beam的体验分层与落地门槛

青骐智能体：张江AI生态里的人才试验场

押注AI健康的三星手表，能跳出安卓可穿戴的参数内卷吗？