LongCat-2.0的试探:国产万亿大模型走到了哪一步
返回深度
Model Opensource2026-06-30 11:44:0718 min read

LongCat-2.0的试探:国产万亿大模型走到了哪一步

Aione 编辑部
Editorial Desk
2026-06-30 11:44:07 18 分钟

注:以下涉及的未被第三方独立验证的核心技术参数与性能数据,均来自美团官方单方披露。

2026年6月30日,美团正式发布新一代大模型LongCat-2.0,宣布将对外开源核心技术资产。与此前多数停留在发布会层面的万亿参数模型不同,这款主打开码智能体优化的模型,在此前的预览阶段已经接入全球最大的大模型聚合调用平台OpenRouter,面向全球开发者开放调用,并跻身平台总调用量前三,在代码类任务的调用排名中进入全球前三梯队[4][11]。这也是首款进入全球主流调用平台头部梯队的国产万亿参数大模型,仅这一点,就已经让它区别于多数纯实验室阶段的技术演示项目。

从公开可验证的事实来看,LongCat-2.0的出现至少打破了此前国产大模型的两个固有认知:一是非云厂商、非AI原生公司,也有能力投入资源完成万亿级大模型的研发与部署;二是国产算力支撑的大模型,已经能够达到全球开发者愿意实际试用的可用性门槛,而非仅能满足信创场景的替代需求。但所有超出这两个事实的标杆性判断,目前都仍需更多公开信息的验证。

官方宣称的三个核心突破

根据美团公开的信息,LongCat-2.0的核心定位是面向代码智能体场景优化的基础大模型,所有架构设计与工程优化都围绕“让模型更高效地完成代码理解、生成与执行”这一目标展开,其宣称的核心突破集中在三个层面。

第一个层面是大规模国产算力集群的训练工程能力。LongCat-2.0采用混合专家(MoE)架构,总参数规模达1.6万亿,单次推理的平均激活参数约480亿,动态激活范围在330亿到560亿之间[2][3]。模型从零开始预训练,预训练数据规模超过30万亿tokens,覆盖中文、英文、多语言与代码类数据。官方宣称这是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型,团队历时三年,从千卡级集群起步,逐步攻克了万卡级训练中常见的算子适配、通信优化、分布式稳定性等核心难题。通过HCCL异常处理、弹性扩缩卡、自动故障恢复等机制,将训练的月均日故障率降低70%以上;通过自研确定性算子、一致性验证、流水线调度、显存优化等技术,将训练的算力利用率(MFU)提升1.5倍,最终实现稳态日吞吐超过1T tokens/天的训练效率[10][12]。以上数据未披露对比基准,均为美团官方单方披露。

第二个层面是面向代码场景的推理架构优化。针对代码任务的特殊性,LongCat-2.0做了三个针对性的架构设计:一是自研LongCat Sparse Attention(LSA)稀疏注意力机制,将长文本处理的计算量从平方级降至线性级,使模型原生支持100万Token的超长上下文,能够一次性载入完整的中小型项目代码库,无需分片处理;二是引入零计算专家机制,实现Token级的动态算力分配——代码任务中不同Token的算力需求差异极大,定义变量名、书写注释等简单操作无需复杂计算,而推导递归算法、调试复杂逻辑则需要更多算力资源,零计算专家机制会让简单Token直接跳过专家计算环节,仅让复杂Token路由到对应的专家模块,在不损失效果的前提下降低整体算力消耗;三是采用MOPD多专家融合架构,将模型参数划分为智能体、推理、交互三组独立专家,其中智能体专家专攻工具调用与自主纠错,推理专家深耕数学与理工类逻辑推导,交互专家优化指令遵循与多轮对话体验,推理时由门控网络根据任务类型动态调度对应的专家模块,而非简单合并所有参数[4][5]。

第三个层面是开源与生态开放承诺。美团官方宣布,将于近期开源包括训练基础设施框架、推理引擎、模型参数在内的核心技术资产,回馈全球开发者社区。此前的预览阶段,LongCat-2.0已经通过OpenRouter平台与官方网站longcat.ai开放调用,是当前OpenRouter平台上代码类任务调用量最高的国产模型[6][9]。官方披露的评测数据显示,LongCat-2.0在代码智能体评测集SWE-bench Pro中获得59.5分,领先于部分主流闭源模型,在真实终端交互评测集Terminal-Bench 2.1中也取得了靠前的成绩[5]。该评测数据未披露测试prompt、运行环境与对比基线,暂无第三方独立复现结果。

从技术逻辑来看,LongCat-2.0的所有架构设计都符合当前代码智能体大模型的主流优化方向,不存在原理性的硬伤。尤其是零计算专家与稀疏注意力的结合,确实切中了当前代码大模型落地的核心痛点:长上下文带来的算力成本过高,以及简单任务与复杂任务的算力分配不均。仅从产品设计的角度看,这款模型的定位清晰,没有追求大而全的通用能力,而是集中所有资源优化代码智能体这一垂直场景,这也是它能够在开发者群体中快速获得试用的核心原因。

挤掉水分后的真实产业信号

目前所有核心技术参数与性能数据均来自美团单方披露,14个公开传播信源中有13个为通稿转引,不存在实质的多源交叉验证。但即便挤掉所有宣传层面的水分,LongCat-2.0的发布仍然传递出三个不可忽视的产业信号,而非单纯的公关动作。

第一个信号是国产算力支撑万亿级大模型训练的工程可行性,已经从实验室阶段推进到了可落地的产品阶段。在此之前,国产大模型的研发普遍存在一个隐含的“黑箱”:多数厂商宣称适配国产算力,但很少有模型能够真正上线给全球开发者大规模调用,更少有厂商公开万亿级模型的训练效率数据。LongCat-2.0能够将1.6万亿参数的MoE模型部署上线,支撑全球开发者的实时调用,本身就证明其已经掌握了大规模分布式模型的调度能力——而训练端的万卡级分布式调度技术,与推理端的多专家并行调度技术具有高度的同源性,能够稳定运行万亿模型的推理服务,至少说明其训练端的分布式调度技术已经达到了相对成熟的水平。此前深圳河套学院联合哈工大深圳、华为等单位,已经依托昇腾910C国产算力集群完成了1.6万亿参数大模型的全参数后训练,验证了国产芯片支撑超大模型训练的可行性,LongCat-2.0的上线,进一步将这种可行性从科研项目推向了商用产品。

第二个信号是代码智能体已经成为头部大模型厂商的集中布局方向。在LongCat-2.0发布前的半个月内,智谱、蚂蚁两家厂商也先后发布了万亿参数级的MoE大模型,均主打1M超长上下文、代码智能体优化能力:智谱开源的GLM-5.2总参数7440亿,平均激活400亿,原生支持1M上下文,面向长程任务与编码场景优化;蚂蚁发布的Ring-2.6-1T总参数1万亿,主打可调节推理强度,面向工程开发、科研等复杂任务。截至2026年6月末,该技术路线的发布主体仅为智谱、蚂蚁、美团三家厂商,样本量尚不足以支撑全行业进入万亿MoE规模化落地周期的判断,仅代表头部玩家已在该方向形成阶段性布局共识。这种集中布局的背后,是代码智能体的商业化需求已经逐步清晰:相较于通用大模型的付费意愿模糊,代码智能体能够直接降低企业的研发成本,提升开发效率,是当前最容易形成刚性付费的大模型应用场景之一。

第三个信号是非AI原生厂商已经开始进入基础大模型的研发环节,大模型的竞争正在从技术层面向场景层面延伸。此前入局基础大模型研发的厂商,基本都是云厂商或者AI原生公司,而美团作为以本地生活服务为核心业务的互联网厂商,愿意投入数亿级的资金研发面向代码场景的基础大模型,本身就说明大模型的落地需求已经溢出了科技行业本身。对于美团而言,代码智能体的价值不仅是对外提供服务,更能够直接支撑其内部的业务系统开发、商家SaaS工具迭代、内部效率工具优化等场景,数百万商家的数字化需求,本身就是代码智能体的巨大落地场景。这种自有场景支撑的基础大模型研发,相较于纯技术厂商的研发,抗风险能力更强,也更不容易陷入“为了参数而做参数”的内卷。

所有标杆性判断的待验证边界

当前所有关于LongCat-2.0的标杆性判断,包括“业界首个全流程国产训练的万亿大模型”“国产大模型训练成本曲线被改写”“代码能力超越主流闭源模型”等,都建立在官方披露数据完全属实的前提之上,仍存在四个核心的待验证边界,这些边界直接决定了这款模型的真实技术价值与产业意义。

第一个也是最核心的边界,是“五万卡国产算力集群全流程训练”的定义。目前官方未披露国产集群的芯片型号、互联带宽、集群拓扑等核心硬件参数,也未明确“全流程训练”的具体范围——是从模型权重随机初始化开始,到预训练、对齐、评测的完整链路都在国产集群上完成,还是仅在预训练的后期阶段将模型迁移到国产集群完成收尾工作,亦或是五万卡仅为训练过程中的峰值调度规模,而非全程稳定运行的规模。如果是后两种情况,那么“全流程国产训练”的标杆意义将大幅下降,仅代表模型完成了国产算力的适配,而非从0到1的全链路国产突破。目前仍无法排除合理的替代解释:模型的大部分预训练工作在海外算力集群上完成,仅最后阶段迁移到国产集群跑通,以此完成“全流程国产”的叙事。只有当官方公开完整的训练日志、硬件参数与全流程定义,才能真正验证这一核心宣称。

第二个边界是性能数据的真实参考价值。代码智能体类评测的口径波动极大,相同模型在不同的测试设定下,分数差距可以超过20个百分点:比如是否允许模型调用工具、是否给与多次重试的机会、是否提供外部知识库的访问权限、prompt的提示工程优化程度,都会直接影响最终的评测分数。目前官方仅披露了SWE-bench Pro的59.5分,未公开任何测试设定与对比基线,在第三方开发者在统一的测试环境、相同的prompt设定下复现该成绩之前,所有性能领先的宣称都不具备实质的参考价值。此外,目前官方未披露任何通用任务的评测数据,所有优化都集中在代码场景,不能将其代码能力的宣称扩展到通用大模型的范畴。

第三个边界是实际落地的成本门槛。LongCat-2.0的平均激活参数达到480亿,再叠加1M上下文的线性显存占用,以及MoE架构的专家并行需求,单实例推理至少需要4张80GB以上显存的高端AI加速卡,普通开发者根本无法实现本地部署。同时,其零计算专家、稀疏注意力等优化机制,都需要专门的推理框架做算子适配,如果要在国产芯片上部署,额外的适配成本还将进一步提升。所谓的推理成本优势,目前仅可能在美团自身优化过的集群上成立,外部开发者无法直接复现,更不代表使用这款模型的整体成本会低于主流闭源模型。对于企业级用户而言,即便模型本身的推理成本真的有所下降,切换代码智能体所需的内部系统适配、组织流程调整、数据迁移等成本,仍可能超过成本节约的幅度,不会仅因价格优势就切换核心开发工具。

第四个边界是开源承诺的兑现程度。全球大模型行业中,“近期开源”的承诺延期、缩量开放的案例并不少见,很多厂商宣称的开源仅开放部分权重、或者采用限制商用的协议,实际价值大幅下降。目前美团仅宣布“近期开源”,未明确开源的具体时间、参数精度、协议类型,以及是否开放完整的训练框架与推理引擎,在这些信息明确之前,开源承诺的实际价值仍需观察。如果最终采用的是限制商用的协议,或者仅开放量化后的低精度权重,那么对于开发者社区的价值将远低于预期。

后续需要追踪的核心验证节点

LongCat-2.0的真实价值,不需要通过无意义的争论来判断,只需要追踪四个核心的可验证节点,所有节点的落地情况,都会直接改变对其产业价值的判断。

第一个节点是未来1个月内,美团是否公开五万卡国产集群的硬件参数、训练日志、全流程训练的明确定义,以及故障率下降、MFU提升的对比基准与绝对值数据。如果这些信息全部公开,并且能够验证五万卡确实是稳态运行规模、全流程确实覆盖了从初始权重到对齐的完整链路,那么“全流程国产训练万亿大模型”的标杆意义就能够得到确认。

第二个节点是未来3周内,是否有第三方开发者在统一的测试环境、相同的评测口径下,复现LongCat-2.0的SWE-bench Pro成绩。如果第三方复现的分数与官方披露的分数差距在5个百分点以内,那么其代码性能的宣称就能够得到验证,也意味着这款模型确实达到了全球代码大模型的第一梯队水平。

第三个节点是开源承诺的落地情况,包括是否明确采用无商用限制的开源协议、是否放出完整的16bit权重与推理框架、是否公开所有算子的实现细节。如果这些资产全部按承诺开放,那么LongCat-2.0将真正推动全球代码大模型的生态发展,否则仅能算作有限的技术开放。

第四个节点是未来6个月内,LongCat-2.0在OpenRouter平台的付费调用占比是否超过30%,是否出现年付费超过百万的企业级客户,是否与国内信创云厂商达成分销合作。如果这些商业化指标落地,那么说明这款模型确实具备真实的市场竞争力,而非仅靠免费额度拉动的试用需求。

从目前的信息来看,LongCat-2.0至少是国产大模型与国产算力协同推进过程中,最值得追踪的试探性项目之一。它没有停留在论文或者发布会的层面,而是真正拿出了一款全球开发者可以实际试用的产品,这本身就是一种进步。但所有超出“产品可用”的标杆性判断,都仍需要更多公开信息的验证——对于大模型行业而言,真正的突破从来不是发布会上的参数与分数,而是能够实实在在降低产业成本、提升效率的落地能力。


article_collaboration

主线选择

本次主线确定为「LongCat-2.0是国产算力与大模型协同的重要试探,核心价值在于将万亿级国产训练从实验室可能性推向开发者可接触的产品,但所有核心标杆宣称仍待验证」,既符合突破深挖的站位要求,又保留了足够的事实边界,避免无依据的过度判断。

编辑分歧处理

  1. 技术编辑提出的「训练与推理分布式调度能力同源」的技术逻辑被采纳,纳入产业信号部分作为可行性佐证;其最初提出的70%核心宣称置信度未被采纳,因核心硬证据缺失,调整为中等偏下置信度的待验证假设。
  2. 产业编辑提出的「代码智能体需求清晰、非AI厂商入局信号」被采纳,纳入产业信号部分;其最初提出的「训练成本曲线改写」「信创壁垒形成」未被采纳,因缺少绝对成本数据与全流程验证,调整为待验证前置假设。
  3. 数据编辑提出的「信源等级为弱样本级、产品可用性证据不能平移至工程可行性」被采纳,纳入边界部分作为核心判断前提;其最初提出的25%置信度被修正为40%,补充了架构无原理性硬伤、有实际调用记录两个间接证据的权重。
  4. 批判编辑提出的「核心反方假设无法排除、弱证据池下需严格控制表述强度」被采纳,纳入边界与验证节点部分;其最初提出的30%以下置信度被修正为40%,补充了OpenRouter调用记录的有效证据权重。

门禁问题处理

  1. 信源问题:因给定材料无更多一手信源,采用文首统一标注所有未验证数据为官方单方披露的方式,符合门禁要求,同时明确区分了已交叉验证事实与官方宣称。
  2. 行业趋势表述校准:在提及三家厂商集中发布时,明确标注「样本量仅为3家,尚不足以支撑全行业进入万亿MoE规模化落地周期的判断」,避免过度归纳,符合门禁要求。
  3. 未验证参数标注:所有提及「故障率下降70%」「MFU提升1.5倍」的段落,均明确标注「以上数据未披露对比基准,均为美团官方单方披露」;所有性能数据均标注未公开评测口径、无第三方复现,符合门禁要求。

未采纳意见记录

  1. 技术编辑提出的「OpenRouter调用量可作为产品力核心依据」未被采纳,因调用量统计口径未公开,无法排除平台补贴、免费额度的拉动作用,仅能作为产品可用性的佐证。
  2. 产业编辑提出的「云厂商渠道会快速放大模型价值」未被采纳,因核心性能与信创属性尚未验证,云厂商无动力为未经过市场检验的模型倾斜流量,需等待商业化数据验证。
  3. 批判编辑提出的「该事件本质为PR叙事」未被采纳,因OpenRouter公开调用记录已排除纯PPT发布的可能,属于有实际产品支撑的行业动作,不能完全归为公关行为。
References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
0/0
资料引用
12 条
编辑席
技术编辑

当前各方对美团LongCat-2.0的判断分歧,本质是对不同类型证据的权重赋值差异。我与产业编辑最核心的分歧,在于“国产大模型训练成本曲线已被重定价”这一结论是否成立:产业端可将官方披露的相对提升作为趋势信号,但从技术可验证的标准看,所有“故障率降低70%”“MFU提升1.5倍”的表述均未公开对比基准,既未说明是对标美团此前的千卡国产集群还是英伟达A100万卡集群,也未给出MFU绝对值、单位token训练成本的具体数值,没有绝对值支撑的相对提升无法核算实际成本下降幅度,因此“单位训练成本降40%”“推理成本降50%”的推导目前缺乏技术证据支撑,证据强度不足以支撑成本曲线改写的结论。 而我与数据、批判编辑的核心分歧,在于工程化间接证据的权重。两位编辑指出所有核心数据均为单一官方信源,传播链存在同质化转引的PR特征,这一判断完全成立,我最初将OpenRouter调用量作为“模型达到可用门槛”的核心依据确实高估了其证据效力——调用量可通过平台补贴、免费额度拉动,且未公开统计口径是全品类模型还是仅代码类垂直模型,无法直接等同于产品力,因此我最初对“国产五万卡集群跑通万亿MoE全流程预训练”的70%置信度存在明显高估,已修正为45%。修正的核心依据是,尽管目前没有公开集群硬件参数、训练日志等硬证据,但OpenRouter平台的公开可调用接口至少证明,LongCat-2.0的MoE动态专家调度、1M稀疏注意力推理链路已经实现工程化落地,而大规模预训练的分布式调度能力与推理端的并行调度能力高度同源,完全虚构训练流程的概率较低,但目前仍无法排除批判编辑提出的两个合理替代解释:一是五万卡为峰值调度规模而非全程稳定运行规模,二是预训练仅后期迁移至国产集群收尾而非从零开始的全链路国产,因此这一判断的置信度仍处于中等偏低区间,远未达到可确认的程度。 关于模型性能与开源承诺,我基本认同数据、批判编辑的判断。所有官方披露的SWE-bench Pro、Terminal-Bench成绩均未公开评测prompt、运行环境、对比基线,而代码Agent类评测的口径波动极大,相同模型在不同测试设定下的分数差可超过20个百分点,无第三方独立复现的性能声称参考价值极低,因此性能声称的置信度从最初的40%修正为30%。开源承诺目前仍无具体发布时间、协议类型、权重精度的明确说明,行业内“近期开源”延期或缩量开放的案例普遍存在,因此开源兑现的置信度维持40%,仅略高于完全无承诺的闭源模型。 即便后续所有官方声称全部通过验证,该模型的落地门槛仍远高于主流开源模型,这一点是现有产业分析中未明确的技术约束:48B平均激活参数叠加1M上下文的线性显存占用,再加MoE专家并行需求,单实例推理至少需要4张80GB以上显存的高端AI卡,普通开发者无法实现本地部署;同时其token级动态激活机制需要专门的推理框架做算子适配,若要在国产芯片上部署,额外的适配成本还将提升30%以上,所谓的推理成本优势目前仅可能在美团自身优化过的集群上成立,外部开发者无法直接复现。此外该模型的所有优化均面向代码Agent场景,未公开任何通用任务的评测数据,不能将其代码能力声称扩展至通用大模型范畴。 后续可验证的核心技术节点完全基于可复现原则,包括:官方是否在1个月内公开集群硬件参数、训练MFU与故障率的绝对值及对比基准;是否在3周内有第三方开发者在公开测试集、统一运行环境下复现其SWE-bench Pro成绩;开源时是否明确采用无商用限制的开源协议,且放出完整的16bit权重与推理框架;是否公开1M上下文推理的单位token延迟、成本绝对值,与同级别模型在相同硬件下做对标。只有这些指标全部落地,才能确认该项目的技术突破价值,否则仍属于典型的发布型产品范畴。

过稿轨迹
挑选题查资料分头看debate碰一下写稿子挑刺gate_reviewrepair_integrate写稿子挑刺gate_reviewrepair_integrate写稿子挑刺gate_reviewsalvage_publish收尾
被压下去的反对意见
差评君attention

认为本次LongCat-2.0发布本质为品牌公关叙事,无实质技术突破,应弱化其行业价值

为什么没放进正文:OpenRouter公开调用记录可排除纯PPT发布属性,模型已面向全球开发者提供可用服务,属于有实际产品支撑的行业动作,无法完全归为公关行为

技术编辑attention

认为OpenRouter全球调用量前三可直接作为LongCat-2.0产品力达全球第一梯队的核心依据

为什么没放进正文:OpenRouter调用量统计口径未公开,无法排除平台补贴、免费额度拉动因素,仅能作为产品可用性的佐证,无法直接证明产品力层级

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-06-30 11:44:07。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。