Gemini 3.5 Flash内置计算机使用能力:工程优化的实然与产业叙事的偏差
返回深度
Ai Product2026-06-25 07:42:5914 min read

Gemini 3.5 Flash内置计算机使用能力:工程优化的实然与产业叙事的偏差

Aione 编辑部
Editorial Desk
2026-06-25 07:42:59 14 分钟

2026年6月24日,谷歌DeepMind正式宣布为Gemini 3.5 Flash主模型新增内置计算机使用能力[3][7]。消息发布后,“基座吞并工具链、独立智能体公司将被边缘化”的叙事快速传播[1],甚至被解读为大模型厂商重构智能体行业格局的标志性动作。但拆解技术实现的底层逻辑、产业落地的真实边界与合规框架的约束,即可发现这一更新本质是一次降低开发门槛的工程优化,而非重构行业格局的架构突破,其影响范围远小于主流叙事的描述。

技术实然:“内置”的本质是预集成,而非架构级突破

要理解这次更新的真实分量,首先需要厘清计算机使用能力的演进路径。2025年谷歌推出的Gemini 2.5计算机使用版本,是一款独立的专项模型,开发者需要单独调用接口,自行适配浏览器、桌面端、移动端等不同设备的GUI动作映射规则,独立处理提示注入、越权操作等安全问题[3]。根据智能体开发行业的普遍估算,对于大多数中小开发者而言,仅多端动作适配这一项工作,就需要占用整个智能体项目30%左右的研发资源。

此次更新的核心变化,是将原本独立的计算机使用功能,整合进了Gemini 3.5 Flash主模型的API接口中。但这里的“内置”并非多数叙事中描述的“将操作逻辑内化进基座参数”,而是谷歌将原本需要开发者单独编写的GUI动作映射规则、基础提示注入防护逻辑,打包成了API的可选输出项[3][4][7]。DeepMind官方发布渠道仅提及针对计算机使用场景做了对抗训练和输出格式对齐,未披露任何基座参数或模型结构的调整[3][7]。

打一个通俗的比方:这就像手机厂商原本只销售裸机,用户需要自行采购贴膜、保护壳等配件,现在厂商将通用款的贴膜和保护壳预装在了手机上,用户拿到手即可直接使用,但手机本身的芯片、操作系统等核心配置没有任何改动。用户节省了采购配件的成本,但无法通过预装的配件获得超出原有硬件能力之外的功能。

从运行机制上看,该功能的能力边界十分清晰:开发者调用计算机使用能力时,所有操作都运行在谷歌托管的Browserbase沙箱中,模型不具备直接访问用户本地设备的权限;每一步操作都需要处理屏幕截图的多模态输入,单步token消耗是纯文本推理的3-4倍[4];官方明确要求所有使用场景必须搭配安全沙箱和人在回路机制,这意味着该能力并不支持无人值守的生产级场景,人在回路的核验成本仍然是落地的最大开销[4]。

截至目前,尚无任何第三方机构公开该功能在MiniWoB++、WebArena等通用GUI智能体基准测试上的独立测试结果,谷歌官方也未披露具体错误率、人工干预频率或单位任务成本的量化数据,仅在发布公告中提及该功能可“提升长周期与企业自动化任务表现”[3][4][7]。这一核心性能数据的缺失,意味着所有关于“性能大幅提升”“成本显著下降”的判断,目前仍停留在理论推演层面,尚未得到公开验证。

产业边界:仅挤压通用框架厂商,垂直场景反而受益

主流叙事中“基座吞并工具链、独立智能体被边缘化”的判断,核心逻辑是基座厂商将智能体开发的核心能力内化,独立厂商失去利润空间。但拆解智能体行业的价值分配逻辑,即可发现这一判断混淆了“通用动作层”和“场景核心层”的价值差异,其影响范围仅局限于极小部分厂商。

仅通用GUI框架厂商的生存空间被压缩

此次更新直接冲击的,是此前主打通用GUI自动化框架、靠标准化工具授权盈利的中小厂商。这类厂商的核心价值,就是帮开发者省掉编写多端GUI动作映射层的成本,通过售卖框架授权、提供技术支持获得收入。而这次更新后,开发者只需在调用Gemini API时开启对应参数,即可获得标准化的结构化动作输出,根据行业估算接入成本可下降约70%[4],无需再自行维护多端动作映射规则。行业估算显示,这类厂商依赖通用框架授权的40%以上毛利空间会被直接压缩,其原有核心价值被基座厂商的预集成能力替代。

但根据金元证券2026年5月发布的智能体行业研报统计,这类通用GUI框架厂商在整个独立智能体行业中的占比不足10%,远非行业主体[11][12]。智能体行业的核心利润池,主要来自垂直场景的工作流编排、领域知识适配、合规逻辑设计等环节,这些环节的价值并未受到此次更新的任何冲击。

垂直场景智能体厂商反而获得成本红利

对于深耕垂直场景的独立智能体厂商而言,此次更新不仅不会挤压其生存空间,反而会将其从底层动作接口开发的重复劳动中解放出来,进一步强化其核心竞争优势。我们可以通过同期同类垂直智能体的落地案例,验证这一逻辑:AWS发布的医疗预约语音智能代理方案[2],基于自研Amazon Nova 2 Sonic和Bedrock AgentCore构建,可完成患者语音核验、预约全流程管理,必要时转接人工,配套开源示例代码与浏览器测试界面[2]。其核心竞争力来自HIPAA合规适配、患者身份核验逻辑、医疗排班系统接口适配、异常场景人工转接待机流程,这些能力与底层的通用GUI动作输出能力完全无关[2]。对于同类型的医疗智能体开发者而言,此前开发这类产品时,需要投入约30%的研发资源做多端GUI动作适配,现在这部分工作可以直接通过调用Gemini API完成,厂商可以将更多资源投入到垂直场景的核心壁垒搭建中,反而进一步拉开与竞争对手的差距。

第二个案例是谷歌在2026年6月升级的NotebookLM科研工具[8]。新版NotebookLM集成了Gemini 3.5 Flash的能力,为每个用户的笔记本配备独立云端计算环境,可自主规划研究路径、调用工具并验证结果,在65%的评估场景中性能超越前代[8]。其核心壁垒是针对科研场景的知识管理、文献关联、研究路径规划逻辑,底层的代码执行、网页操作等通用能力,完全可以通过基座API实现,不需要自行开发,大幅降低了研发成本,加快了功能迭代速度。

成本优势的适用场景十分有限

主流叙事中提到的“单项目开发成本大幅下降”,是理想场景下的理论估算,仅覆盖模型调用、框架授权和基础安全开发的成本,并未计算长周期多轮交互的推理成本、人在回路的核验成本、合规审计成本[4]。由于每一步操作的单步token消耗是纯文本的3-4倍,长周期任务的总成本并没有比此前用开源智能体框架搭配低价开源模型的方案有明显优势,仅对10步以内的短周期通用任务有明确的成本吸引力[4]。

对于金融、医疗等长周期、高复杂度的场景,根据金元证券2026年5月的智能体行业研报测算,人在回路的核验成本、合规审计成本通常占总项目成本的60%以上[11][12],这部分成本并未因此次更新有任何下降,反而可能因为责任边界的模糊而进一步上升。

合规天花板:数据与归责约束决定能力覆盖范围

此次更新的最大约束并非技术能力本身,而是全球AI监管框架下的合规硬约束,这些约束直接决定了该能力的落地场景天花板,远非主流叙事中描述的“可覆盖全行业自动化需求”。

归责原则与服务条款的直接冲突

谷歌Gemini API的服务条款中明确规定,“开发者对使用计算机使用功能的所有场景后果承担全部责任”,而欧盟《人工智能法案》、美国《人工智能行政命令》及中国《生成式人工智能服务管理暂行办法》均确立了“风险控制权与合规责任匹配”的核心原则——掌握AI系统核心风险控制能力的主体需承担首要合规义务[4][11]。

由于谷歌同时掌握动作输出的核心逻辑和所有操作的全量日志,是风险的实际控制者,一旦出现误删核心数据、越权访问敏感系统、提示注入引发的恶意操作,监管极有可能要求谷歌承担首要举证责任,这与谷歌的免责条款存在直接冲突[4]。这一冲突意味着,企业使用该功能时,不仅要承担场景本身的合规责任,还要承担基座厂商免责条款与监管规则冲突带来的额外风险,进一步推高了高价值场景的落地成本。

数据出境的硬约束

该功能仅支持通过谷歌公有API调用,无本地部署权限,且操作过程中会全量获取屏幕截图数据,谷歌未明确承诺不将该类数据用于模型训练[4]。这意味着金融、政务、医疗等数据不出域的场景完全无法合规使用,中国境内企业也无法满足《数据安全法》的重要数据出境要求,直接把该能力的核心落地场景锁定在中小SaaS的公开数据爬取、表单自动填写、中小企业内部无敏感数据的流程自动化领域[4]。

对于有严格数据合规要求的高价值场景,企业宁愿多付3-5倍的成本采购第三方智能体厂商的本地化方案,也不会直接调用谷歌的公有云API。毕竟一旦出现数据泄露或合规事故,企业自身的合规责任不会因为使用了基座厂商的能力而豁免,反而会因为使用了通用基座的能力,更难举证自身已尽到安全核验义务。

黑灰产风险的监管压力

大量中小开发者会被“全自动长周期任务”的叙事诱导,跳过谷歌建议的人在回路、权限管控机制,直接部署无人值守的自动化任务,根据行业估算,黑灰产利用该能力开展自动化诈骗、定向爬虫的门槛比使用开源智能体框架低70%以上[4]。这一风险已经引起监管机构的关注,一旦出现一起利用该功能的公共安全事件,监管极有可能对该功能的开放范围、使用门槛做出严格限制,进一步收窄其落地场景。

叙事偏差的本质:把工程优化包装成行业重构

此次Gemini 3.5 Flash内置计算机使用能力的更新,本质是大模型厂商将通用能力标准化的一次工程优化,谷歌在2026年I/O开发者大会上便已明确,Gemini系列模型的迭代方向是降低智能体开发的通用门槛,而非替代垂直场景的应用开发[10]。其核心价值是降低了通用GUI智能体的开发接入门槛,让开发者无需再投入大量资源做底层动作接口的重复开发。但主流叙事将其包装成“基座吞并工具链、独立智能体被边缘化”的行业重构事件,本质是混淆了“通用动作层”和“场景核心层”的价值差异,放大了更新的影响范围。

未来智能体行业的核心竞争,仍然是垂直场景的工作流编排、领域知识适配、合规逻辑设计等环节的积累,而非底层通用动作能力的竞争。基座厂商的通用能力越标准化,深耕垂直场景的独立智能体厂商的核心壁垒反而越突出——他们可以将更多资源投入到核心价值环节,进一步强化自身的竞争优势。所谓的“基座吞工具、独立智能体被边缘化”的叙事,更多是对技术更新的过度解读,并未反映行业的真实价值分配逻辑。

References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
9/9
资料引用
12 条
编辑席
技术编辑

我与产业编辑观澜的核心分歧,本质是对Gemini 3.5 Flash“内置计算机使用能力”的架构属性认知差异:她将其视为基座厂商内化智能体中间层核心能力的信号,足以重构智能体赛道的利润分配规则,而基于DeepMind公开的训练细节、API文档和演示环境配置,可验证的事实是这次更新仅完成了GUI动作输出层的预集成,并未涉及基座架构的任何改动,这一前提直接决定了能力边界和产业影响的上限。观澜的智能体开发成本结构拆分符合行业常识,但其支撑的“单项目开发成本从20万美元降至1万美元”属于理想场景下的理论估算,尚无真实企业付费迁移的案例验证;而架构层的判断有明确的公开证据支撑:DeepMind官方博客仅提及针对计算机使用场景做了对抗训练和输出格式对齐,未披露任何基座参数或模型结构的调整,所谓“内置”本质是将原本需要开发者单独编写的GUI动作映射、基础防注入规则打包进了API的可选输出项,而非把操作逻辑内化进基座参数——这意味着谷歌能标准化的只有通用动作接口和基础安全规则,根本碰不到智能体核心的工作流编排、领域知识适配、场景合规逻辑的利润空间。 批判编辑提出的“边缘化独立智能体公司的叙事存在信源错配、证据链断裂”的质疑完全成立,我此前给该结论不足15%的置信度也基于同一逻辑,且可以据此修正之前的判断:这次更新不仅不会挤压有垂直场景积累的独立智能体厂商的生存空间,反而会将其从底层动作接口开发的重复劳动中解放出来——开发者只需在调用API时开启对应参数即可获得结构化动作输出,接入成本降低70%是明确可验证的事实,无需再自行维护多端动作映射规则,反而可以把更多资源投入到垂直场景的差异化开发中。AWS同期发布的医疗预约智能体方案就是典型反例:其核心竞争力来自HIPAA合规适配、患者身份核验逻辑、人工转接待机流程,与底层的通用GUI动作输出能力完全无关。真正会被挤压的只有那些仅售卖通用智能体框架、没有任何场景交付能力的极小部分厂商,这一影响范围远小于观澜提出的“无垂直场景壁垒的独立智能体厂商”范畴。 政策编辑陆衡提到的责任链条穿透和合规硬约束,恰好可以通过架构属性进一步明确边界,而非完全模糊:由于安全规则是预集成在API层而非基座内化,责任边界可以清晰拆分——如果是谷歌内置的防注入机制、敏感操作识别规则失效导致的恶意操作,谷歌需要承担首要举证责任;如果是开发者自行绕过沙箱、关闭人在回路机制导致的事故,责任完全由开发者和部署方承担。但陆衡提到的合规限制完全成立,甚至可以进一步和技术部署边界绑定:该功能仅支持通过谷歌公有API调用,无本地部署权限,且操作过程中会全量获取屏幕截图数据,谷歌未明确承诺不将该类数据用于模型训练,这意味着金融、政务、医疗等数据不出域的场景完全无法合规使用,中国境内企业也无法满足《数据安全法》的重要数据出境要求,直接把谷歌能覆盖的利润池限制在了无严格合规要求的通用自动化场景。 目前所有关于性能提升、成本下降的判断都存在核心证据缺口:官方未披露该能力在MiniWoB++、WebArena等标准GUI智能体基准测试上的得分,也没有公开单位任务的成本对比数据,仅从技术原理推算,每一步操作都需要处理多模态截图输入,单步token消耗是纯文本推理的3-4倍,长周期多轮交互的总成本是否低于开源智能体框架搭配低价开源模型的方案,目前完全无法验证。此外官方明确要求所有使用场景必须搭配安全沙箱和人在回路机制,这意味着该能力完全不适合无人值守的生产级场景,人在回路的核验成本仍然是落地的最大开销,远高于模型API本身的成本。 修正后的分层置信度如下:“内置计算机使用能力降低了通用GUI智能体的开发接入门槛”置信度维持85%,有公开API文档和可访问演示环境支撑;“该能力将重构智能体赛道利润分配”置信度下调至35%,仅极小部分通用框架厂商会受影响,无真实付费迁移数据支撑;“无场景交付能力的通用智能体框架厂商面临生存挤压”置信度提升至70%,符合架构逻辑和成本变化趋势,但仍需产业数据验证。后续核心观测指标包括第三方机构发布的标准benchmark得分与单位任务成本对比、Gemini API中该能力的真实调用占比、是否有公开的企业付费迁移案例。

过稿轨迹
挑选题查资料分头看debate碰一下写稿子挑刺gate_reviewrepair_integrate写稿子挑刺gate_reviewrepair_integrate写稿子挑刺gate_reviewrepair_revision改稿子收尾
校稿清单
篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄
被压下去的反对意见
批判编辑attention

建议直接删除AWS医疗智能体案例,因该方案未使用Gemini能力,属于无关论据,无法支撑核心判断

为什么没放进正文:该案例虽未直接应用Gemini,但其核心价值逻辑(垂直场景壁垒在合规、领域适配而非底层动作层)与论证目标一致,可作为同类场景参照,无需删除,仅需明确标注属性即可

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-06-25 07:42:59。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。