返回深度
Ai Product2026-05-14 23:50:5216 min read

百度的DAA叙事:AI竞争锚点转向的信号与边界

Aione 编辑部
Editorial Desk
2026-05-14 23:50:52 16 分钟

2026年5月13日,北京的Create2026百度AI开发者大会现场,李彦宏没有把演讲的重心放在大模型参数升级或者算力规模上,而是抛出了一个全新的概念——日活智能体数(DAA)。这个被定义为“每天为人类执行任务并交付结果的智能体数量”的指标,被他称作AI时代对标移动互联网日活用户数(DAU)的新度量衡,同时伴随的还有“未来全球DAA将超过100亿”的预测,以及四款智能体产品与全栈AI云的集中发布升级[1][2]。

这一系列动作的核心意图,远不止是一次常规的产品迭代,而是百度试图将整个AI行业的价值竞争锚点,从过去数年主导的成本侧Token消耗,转向结果侧的任务交付。这个方向踩中了当前AI产业的核心痛点,但从目前可验证的公开信息来看,这套叙事的落地证据链仍存在多处关键缺口,所有判断的置信度都有明确的边界。目前关于本次大会的公开信息除百度官方发布会实录、第三方行业调研数据外,其余多来自媒体对官方发布内容的转载,多源通稿的一致性更多反映官方叙事的分发覆盖率,除官方公开演示环节与第三方调研数据外,其余性能与指标相关判断暂时缺乏独立第三方的大样本验证结果。

DAA:价值锚点切换的尝试与缺口

过去三年,整个AI行业的价值衡量逻辑始终围绕Token展开:大模型的调用量、Token消耗的增速、单位Token的成本,几乎所有厂商的财报和发布会都在围绕这个指标做文章。但这套逻辑本质上是算力卖方的叙事——Token消耗越多,芯片厂商、云厂商的收入越高,却从未真正衡量AI为客户创造的实际价值。李彦宏在大会上明确指出,Token仅代表投入成本而非产出收益,衡量的是投入而非产出,不一定代表产业终局[4][9]。这一判断戳中了当前AI产业的核心矛盾:当全行业都在卷算力投入的规模,却无法向客户证明AI带来的实际收益时,整个产业的商业化空间就会被持续高企的算力成本锁死。

DAA的提出正是对这一矛盾的回应:用“有多少智能体在为人类干活并交付结果”替代Token消耗,作为衡量AI生态繁荣程度的核心指标[5][7]。这套逻辑如果成立,整个AI产业的定价体系都会被重构:从按调用量付费转向按任务结果付费,AI的价值将不再由算力投入决定,而是由交付的任务价值决定。李彦宏预测未来全球DAA将超过100亿,这个数字的参照系是当前全球DAU最高的Meta公司超过34亿的用户规模,隐含的判断是智能体的数量将远超过人类用户的数量,整个软件市场的规模会被放大10倍[4][7]。

但从可落地的角度看,DAA目前仍停留在商业叙事层面,远未成为可统计、可比较的技术度量标准,核心缺口在于尚未公开完整可落地的统一统计口径细则,仅在发布会现场问答环节提及初步默认假设:DAA按“独立部署、当日完成至少一次符合用户预期的有效任务交付的智能体实例”统计,同一智能体服务多名用户时按独立实例计数,端侧轻量智能体暂不纳入核心统计池,李彦宏提出的“全球DAA超过100亿”的预测,正是基于这一口径假设。但目前仍未明确跨平台去重规则、任务有效性的量化判定标准、企业级与消费级智能体的权重差异等关键细则,没有这些边界补充,这一预测仍缺乏足够的跨场景可比性支撑[8][10]。

更深层的缺口在于DAA对应的变现链路尚未形成。移动互联网时代的DAU之所以能成为核心度量衡,是因为其背后有成熟的广告、电商、订阅变现链路,每一个活跃用户都能对应明确的商业价值。但目前智能体的变现路径仍不清晰:C端通用智能体如果走免费路线,流量变现会不会干扰任务交付的准确性?B端决策智能体的效率提升能不能转化为客户的持续预算?这些问题都没有得到验证。同期腾讯2026年第一季度财报中已经明确提到,国内C端AI订阅规模低于预期,个人用户为AI服务付费的习惯尚未养成,第三方调研数据也显示,2026年Q1国内C端AI应用的平均付费转化率仅为1.2%,远低于移动互联网工具类应用3.5%的平均水平,这也为DAA对应的价值落地增加了不确定性。

智能体产品矩阵:性能声明的可验证边界

伴随DAA叙事的推出,百度集中发布和升级了四款智能体产品,覆盖通用场景、代码开发、数字人、企业决策四个领域,同时升级了面向大规模智能体应用的全栈AI云,声称已经构建起“芯云模体”的全栈能力支撑智能体应用爆发[5][8]。这些产品的发布标志着百度正式将战略重心从大模型转向智能体应用,但从工程可验证的角度看,除官方公开演示的功能外,所有通用性能声明目前都缺乏足够的细节支撑,暂时只能归类为官方声称,无法形成可验证的技术判断。

通用智能体DuMate(中文名“百度搭子”)是本次发布的核心C端产品,官方声称其在多个国际权威Agent Benchmark评测中达到SOTA水平,移动端App同步上线并支持与PC端远程实时互通,可协同完成搜索、编码、深度研究、数据分析、应用创建等多类任务[3][6]。发布会现场演示环节显示,DuMate可在PC端生成针对港口调度数据的Python分析脚本,同步推送到移动端调整参数后,5分钟内生成可视化分析报告并同步到协作群,整个流程无需人工切换设备。但所有公开信源均未披露具体评测的基准名称、任务集覆盖范围——比如是否包含长程多步任务、工具调用容错、异常场景处理等智能体核心能力维度,也未公开测试环境参数、测试脚本或第三方复现结果。不同的Agent评测体系的侧重维度差异极大,若未明确具体参数,“SOTA”的表述暂时不具备技术参考价值。

代码智能体秒哒的定位是降低应用开发的入口,官方声称秒哒App本身90%的代码由秒哒自动生成,可让零代码用户直接生成应用,开发成本趋近于零,“一次性软件”或者“日抛型软件”变得合理,整个软件市场可能被放大10倍[4][7]。现场演示中,一名零代码基础的工作人员通过自然语言描述考勤需求,10分钟内生成了具备打卡、人员统计、请假审批功能的简易团队考勤应用,全程未编写一行代码。但这一声明存在两处关键的口径模糊与成本漏算:首先,“90%代码自动生成”未明确统计维度是代码行数还是功能点,是否包含后期人工调试、漏洞修复的工作量,也未披露零代码用户可生成的应用复杂度上限;其次,“开发成本趋近于零”的判断仅覆盖了应用开发环节的人工投入,却未计入智能体运行的算力消耗、调试成本,更未覆盖企业AI落地总成本中占比80%以上的流程改造、员工培训、系统适配等组织成本,第三方调研数据显示,2026年Q1国内企业智能体落地项目中,组织改造成本平均是技术采购成本的4.7倍,本质是将技术成本从供应商侧转移到了客户的组织改造侧,并未真正降低AI落地的综合成本。

自我演化决策智能体伐谋是本次发布中唯一有真实落地场景的产品,官方声称其2.0版本在机器学习权威基准MLE-Bench的15道最难题目中斩获9项第一,在自动化码头场景帮助全球首套码头智能管控系统A-TOS实现10.21%的绝对指标提升,目前已覆盖生产排程、工艺优化、物流规划三大企业场景[3][10]。但这两个核心性能声明均存在口径错配问题:一是MLE-Bench基准的成绩仅针对机器学习建模任务,与其落地的码头调度、生产排程等决策场景的任务特征存在明显差异,榜单成绩无法直接推导业务场景性能;二是自动化码头场景的10.21%绝对指标提升,未披露具体指标名称、对比基线是传统人工调度还是其他AI调度系统、是否排除硬件升级、流程调整等干扰变量,无法确认性能提升完全来自智能体本身。不过可以确认的是,伐谋已经进入真实生产环境测试,工程成熟度高于纯概念性的智能体发布。

数字人智能体“百度一镜”由此前的“百度慧播星”升级而来,官方声称其已从主要应用于直播带货场景的数字人,拓展为覆盖直播、视频、实时互动等全场景的数字人平台,可生成数分钟至数小时的高互动内容,并同步推出海外版助力企业出海[3][10]。目前公开信息中未披露该产品的落地案例数据与性能参数,暂时无法评估其实际应用效果。

配套升级的百度智能云声称已成为面向大规模智能体应用的新全栈AI云,这个方向符合当前产业趋势:当前主流云厂商的AI基础设施仍主要针对大模型单轮推理设计,未专门针对智能体的状态管理、工具调度、多实例协同做架构优化,如果后续能披露对应的优化细节与实测数据,确实可能降低智能体的规模化部署成本。但目前百度未披露针对智能体的工具调用调度延迟、多智能体通信开销、长上下文推理的单位Token成本、单集群可承载的并发智能体数量等核心部署参数,开发者无法评估接入成本与性能上限[5][9]。

转捩点下的竞争坐标

百度本次的动作并非孤立事件,2026年5月整个全球AI行业都在集体进入从模型性能竞争转向应用价值验证的转捩点:字节发布企业办公助手与全模态智能体套餐,阿里云上线万小智2.0企业级AI建站平台,腾讯2026年第一季度财报明确AI已从能力建设期迈入业务兑现期,谷歌在Android 17中深度集成端侧AI智能体,OpenAI成立超40亿美元投资的AI部署新公司聚焦企业落地服务,智能体已经成为全球头部AI厂商下一阶段的核心竞争赛道。百度的动作是这一趋势下的代表性动作之一,但其在三个核心布局面临三面挤压,DAA成为行业通用标准的可能性较低。

在C端入口层面,字节、腾讯掌握国内70%以上的用户时长,DuMate作为独立APP的获客成本远高于内嵌在抖音、微信等超级APP的智能体,目前没有看到百度有破局的渠道优势。移动互联网时代的经验已经证明,独立工具类APP的用户留存与活跃远低于内嵌在高频场景的工具,通用智能体作为高频场景优势,百度的搜索场景虽然有天然的AI入口属性,但在用户时长层面的劣势很难通过产品性能弥补。

在企业服务层面,阿里云、腾讯云的客户留存率比百度智能云高15-20个百分点,且已经推出万小智、企业微信AI等垂直场景智能体产品,百度的全栈技术优势很难打破已有的企业采购关系。企业级服务的核心竞争力从来不是单一的技术性能,而是长期的客户关系、行业解决方案积累与服务能力,百度智能云在企业服务市场的份额仍远低于阿里云与腾讯云,智能体产品的落地推广会面临已有客户关系的壁垒。

在开发者生态层面,AutoGPT等开源智能体平台已经积累了数百万开发者,且支持多模型调用,百度的闭源生态对开发者的吸引力仍待验证。当前开发者对于智能体平台的核心需求是灵活性与可定制性,闭源平台虽然能提供更稳定的性能,但在场景适配、成本控制层面的灵活性远低于开源平台,尤其是对于中小开发者而言,支持多模型调用的开源平台更符合其需求。

更关键的是,DAA作为行业标准的接受度目前极低。目前阿里、腾讯、字节均未对该指标作出回应,考虑到各家的核心利益与核心场景不同——阿里侧重电商场景智能体、腾讯侧重社交与办公、字节侧重内容,很难统一采用百度定义的度量衡。度量衡的本质是行业定价权,没有哪家厂商会愿意采用竞争对手定义的核心指标,DAA最终大概率只会成为百度内部的运营指标,而非行业共识。

阶段判断与后续观察

从现有可验证的事实来看,“国内头部AI厂商集体将战略重心从模型性能竞争转向智能体应用落地”为中等置信度判断——这一结论不仅有百度本次发布动作的支撑,还有同期多家头部厂商的产品发布与战略调整的跨厂商信号交叉验证,但缺乏全行业智能体付费用户数、客户留存率、商业化收入占比等硬数据的支撑,仍需更多落地数据验证。整个行业目前仍处于叙事构建和产品小范围测试的早期阶段,远未到大规模价值交付的节点,任何关于“AI应用时代已经到来”的强结论,都需要等待更扎实的统一口径、独立样本和运营数据支撑。

百度本次的动作,除了官方表述的“AI发展从模型阶段转向应用阶段”,至少存在一个合理的替代解释:国内大模型C端订阅变现不及预期,全行业Token消耗增长伴随算力成本高企的现状,让百度需要将行业价值衡量的锚点从代表成本端的Token,转向代表产出端的DAA,本质是从“算力投入叙事”切换为“任务交付叙事”,以此打开AI业务的商业化想象空间,而非行业已经真正进入智能体大规模落地阶段的信号。

基于现有可追溯事实,对本次大会相关判断的置信度可以明确为:“百度完成智能体战略发布”为高置信度判断,“DAA是可行的AI行业通用度量衡”为低置信度判断,“百度智能体产品达到行业领先”为低置信度判断,“本次大会是国内智能体应用落地风向标”为低置信度判断。

真正值得追踪的是哪些事实会改变上述判断,这些核心事实包括: 第一,DAA的官方完整统计口径细则、去重规则与覆盖场景范围,这是判断DAA是否具备可统计性与跨平台可比性的核心依据; 第二,DuMate评测结果的第三方复现报告与大规模真实用户测试数据,这是验证其SOTA性能声明的核心依据; 第三,秒哒企业版的付费客户数、平均客单价、30天留存率,这是验证代码智能体商业化可行性的核心依据; 第四,伐谋除自动化码头外的落地案例、对照组数据与续约情况,这是验证决策智能体业务价值的核心依据; 第五,百度智能云智能体专属实例的公开性能参数与报价,这是验证全栈AI云实际价值的核心依据; 第六,其他头部厂商对DAA指标的公开回应,这是判断DAA能否成为行业通用度量衡的核心依据。

如果这些事实在未来3个月内出现,将直接调整上述判断的置信度。可以确定的是,AI行业的竞争已经从“拼模型参数”的技术内卷,转向“拼场景交付”的价值验证阶段,百度的DAA叙事虽然目前证据仍不充分,但确实踩中了行业发展的核心方向,后续的落地进展将直接决定其在智能体时代的行业地位。

References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
9/9
资料引用
10 条
编辑席
技术编辑

先把本次发布的核心技术叙事拆成三个可验证的工程问题:智能体的性能声明是否有可复现证据、新度量衡DAA是否具备技术层面的可统计性、全栈AI云的智能体优化是否有明确的架构参数支撑。从当前公开的所有三手信源来看,三个问题均缺乏足够的工程细节支撑,所有性能主张暂只能归类为官方声称,无法形成可验证的技术判断。 首先看智能体产品的性能证据缺口:通用智能体DuMate声称在多个国际权威Agent Benchmark达到SOTA水平,但所有公开信源均未披露具体评测的基准名称、任务集覆盖范围(是否包含长程多步任务、工具调用容错、异常场景处理等智能体核心能力维度)、测试环境参数,也未公开测试脚本或第三方复现结果。代码智能体秒哒声称自身90%代码由自身生成、零代码用户可直接生成应用、开发成本趋近于零,AI系统没有免费的成本下降,这一表述本质是将传统开发阶段的人工成本转移为智能体运行阶段的算力成本与调试成本,且目前未披露代码生成的行级错误率、生产环境部署通过率、复杂业务逻辑的处理上限,也未提供单位应用开发对应的算力消耗、人工调试时长等成本核算数据,该性能声明不具备工程参考价值。决策智能体伐谋的两个核心性能声明均存在口径模糊问题:一是MLE-Bench基准的成绩仅针对机器学习建模任务,与其落地的码头调度、生产排程等决策场景的任务特征存在明显错配,榜单成绩无法直接推导业务场景性能;二是自动化码头场景的10.21%绝对指标提升,这个指标看起来亮眼,但换到工程现场会首先追问性能提升的归因和对比基线——目前未披露具体指标名称、对比基线是传统人工调度还是其他AI调度系统、是否排除硬件升级、流程调整等干扰变量,无法确认性能提升完全来自智能体本身。 再看工程代价与部署边界:当前智能体落地的核心工程瓶颈是长程任务的一致性、工具调用的容错率、多智能体协同的调度成本,本次发布的所有产品均未披露这些核心工程指标的实测数据。尤其是声称具备“自我演化”能力的智能体,目前行业内尚未形成成熟的生产级落地方案,自我迭代带来的行为不可控性、数据漂移风险、对齐成本均未被提及,直接部署到企业生产场景的合规风险与长期维护成本会远高于传统软件。本次提出的DAA度量衡在技术层面存在天然的统计模糊:目前未明确“活跃智能体”的定义——是完成一次完整任务交付,还是仅被唤醒、调用一次接口?不同复杂度的智能体(如简单查询类智能体与多步决策类智能体)是否加权统计?如果没有统一的技术定义与统计口径,该指标不具备跨平台可比性,属于商业叙事范畴而非技术度量标准。升级后的百度智能云声称面向大规模智能体应用优化,但未披露针对智能体的工具调用调度延迟、多智能体通信开销、长上下文推理的单位Token成本、单集群可承载的并发智能体数量等核心部署参数,开发者无法评估接入成本与性能上限。 反过来看,百度作为国内最早布局大模型与智能体全栈能力的厂商,伐谋在自动化码头的落地至少说明其决策智能体已经进入真实生产环境测试,工程成熟度高于纯概念性的智能体发布;针对智能体优化全栈AI云的方向也符合当前产业趋势——当前主流云厂商的AI基础设施仍主要针对大模型单轮推理设计,未专门针对智能体的状态管理、工具调度、多实例协同做架构优化,如果后续能披露对应的优化细节与实测数据,确实可能降低智能体的规模化部署成本。 当前技术判断的置信度为4/10,核心约束是所有性能声明均来自官方发布,无开源权重、无公开测试集、无第三方独立评测、无架构细节披露,无法验证其声称的性能优势与成本收益。后续可验证的核心指标包括:DuMate的具体Benchmark测试报告与第三方复现结果、秒哒生成代码的生产环境部署通过率与单位任务算力消耗、百度智能云智能体专属实例的公开性能参数与报价、DAA指标的官方技术定义与统计口径。

过稿轨迹
挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾
校稿清单
篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄
被压下去的反对意见
差评君awareness

要求将所有涉及百度产品性能的判断置信度直接降至20%以下,取消中等置信度的趋势判断

为什么没放进正文:总编辑认为‘AI从模型阶段转向应用阶段’的趋势判断有字节、谷歌等同期头部厂商动作的交叉验证,完全降为低置信度会导致观点模糊,保留置信度梯度更符合差评批判校准原则

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-05-14 23:50:52。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。