返回深度
Model Opensource2026-06-01 07:45:4410 min read

阶跃星辰开源198B桌面可运行MoE大模型

Aione 编辑部
Editorial Desk
2026-06-01 07:45:44 10 分钟

阶跃星辰198B开源MoE:Agent降本的突围,还是待验证的参数叙事?

2026年5月底,大模型行业的注意力被一组极具冲击力的参数组合吸引:阶跃星辰发布的Step 3.7 Flash开源模型,标称总参数达198B,同时宣称可在桌面设备运行[1][2]。在行业普遍默认“大参数=高算力门槛”的当下,这个组合几乎直接命中了生产级Agent规模化应用的核心痛点:如果近200B参数的模型能脱离云端集群在消费级设备部署,意味着大量企业无需再为闭源API的长期调用成本买单,也无需为本地部署投入百万级的算力硬件。

但仅仅在模型发布两天后,官方公开的补充信息就给这个看似完美的技术突破打上了一个关键限定:该模型的稀疏激活能力仍有待256K长上下文场景证伪[1]。这个被大多数通稿省略的标注,恰恰是拆解整个事件的核心入口——它既暴露了当前宣传叙事的边界,也指向了稀疏MoE架构规模化应用的真正瓶颈。

技术叙事的真实边界

首先需要澄清的是,“198B参数桌面可运行”从来不是指198B稠密参数的全量激活推理,而是稀疏混合专家(MoE)架构下定向优化的部署结果。稀疏MoE的核心逻辑是,将模型总参数拆分为数十个乃至上百个“专家”模块,每次处理单个token时,仅激活其中少数与任务相关的专家,其余参数处于静默状态,从而在维持大参数带来的能力上限的同时,大幅降低推理时的算力开销。Step 3.7 Flash的标称单token激活参数为11B,仅为总参数规模的约5.5%[2][5],这才是其能够在桌面设备部署的核心前提。

这个技术路径本身并非全新突破。同期发布的Liquid AI LFM2.5-8B-A1B模型,总参数仅8B,单token激活参数1~1.5B,已可直接在普通笔记本甚至手机上运行[3]。两者的核心差异在于目标场景的定位:Liquid AI的模型面向轻量级端侧应用,而Step 3.7 Flash瞄准的是需要更高能力上限的生产级Agent场景,因此用更大的总参数锚定模型能力层级,同时用较小的激活参数控制推理成本。

但两者的“端侧”定义也存在数量级的门槛差距。目前公开信息显示,Step 3.7 Flash仅适配Apple M3/M4 Max、AMD AI Max+ 395等万元级工作站设备,而非普通消费级桌面PC[7]。背后的核心限制是总参数的存储需求:稀疏MoE的非激活专家无需参与计算,但仍需存储在本地存储介质中,198B总参数即便采用4bit量化,权重存储开销仍接近100GB,远超RTX 4090等主流消费级显卡24GB的显存容量。为了实现桌面部署,该模型必然采用了非激活专家分层存储、动态调度的优化方案:即将未激活的专家权重存储在高速SSD中,仅在需要调用时调入显存。

这种方案的隐性代价尚未被充分披露。当处理短上下文、单领域的简单任务时,模型仅需调用少数固定专家,SSD的调度延迟几乎不会影响推理速度,官方披露的400tok/s峰值速度正是在这类短上下文单请求代码场景下测得,目前暂无第三方独立复现结果[2][5]。但生产级Agent的核心应用场景恰恰是长上下文、跨领域的长链任务:比如处理上百页的合同文本完成合规校验,连续调用十几轮工具完成数据分析与可视化,这类任务需要跑满标称的256K上下文窗口,且会频繁调用不同领域的专家模块。此时SSD与显存之间的IO延迟会显著抬升,甚至可能出现激活专家数量远超标称值的情况——行业内已有多个公开案例显示,MoE模型在长上下文推理中,会因为任务复杂度提升导致激活参数规模翻倍,直接抵消稀疏架构的效率优势。

目前所有公开的性能数据,都未覆盖这个核心场景。官方披露的Toolathlon 49.5%、ClawEval-1.1 67.1%、τ²-bench Telecom 98%通过率等成绩,目前均未经过第三方验证,且所有测试任务的长度均不超过10K token,与256K的标称上下文能力存在明显的场景错配[5]。上一代Step 3.5 Flash的Hugging Face下载量已超过30万次,曾登顶OpenRouter热门榜单,且已完成华为昇腾、沐曦、壁仞等多家国产芯片厂商的适配[7][8],这说明该架构在短上下文、短链任务下的基础能力已经得到社区与产业端的初步验证,但长上下文场景下的稳定性,仍然是一个悬而未决的问题。

商业逻辑的现实支撑

如果跳出技术参数的讨论,站在产业视角看,Step 3.7 Flash的核心价值从来不是实现了“198B参数桌面运行”的技术噱头,而是通过稀疏MoE的架构设计,尝试重新定义生产级Agent场景的单位推理成本,从而切割闭源Flash模型的企业预算与端侧厂商的License支出。

此前生产级Agent的底层模型选项始终存在明显的供需错配。闭源Flash模型的调用成本约为每千token 0.003-0.005美元,无需企业自行运维,但无法满足数据合规要求高的本地部署需求,单月1亿token调用量的中型Agent应用年成本约40-60万元,长期使用的成本压力显著。大尺寸开源MoE模型的能力接近闭源旗舰,支持本地部署,但部署需要多卡A100集群,单月算力成本约15-20万元,且需要专业的运维团队,门槛远高于中型企业与ISV的承受能力。

Step 3.7 Flash的设计恰好瞄准了这个中间市场的空白。根据官方披露的理想场景参数测算,11B的激活参数规模配合400tok/s的峰值推理速度,单台3万元级的高端桌面设备即可满足短上下文场景的部署需求,单月1亿短上下文token调用的算力成本约5-8万元,较同场景下闭源API的公开报价下降70%以上,同时采用Apache 2.0商业友好协议,支持本地部署,兼容Claude Code、OpenClaw、Hermes Agent等主流Agent框架,开发者的迁移成本不到原有工作流调整成本的20%[4][5]。

这个定价逻辑背后,是阶跃星辰已经铺垫了近一年的生态布局。据公开信息显示,2025年7月,阶跃星辰联合多家芯片厂商发起模芯生态创新联盟,截至目前,其模型已经完成华为昇腾、沐曦、壁仞、燧原科技等几乎所有头部国产算力芯片的适配[8][9]。对于芯片厂商而言,一款经过社区验证、适配完善的开源模型是拉动硬件销售的核心依托,因此会优先将阶跃的模型作为默认选项打包向客户推广,这相当于让阶跃掌握了国产算力的模型分发入口。与此同时,作为阶跃星辰的老股东,腾讯已经与其联合开发AI座舱Agent,腾讯云的企业渠道也将为其带来大量的潜在客户。

从付费群体的结构来看,当前的潜在买单方与阶跃星辰的股权结构高度绑定。第一类是参与其Pre-IPO轮融资的ODM厂商、终端品牌与车厂,包括华勤、龙旗、豪威、中兴等,这类客户需要在消费级设备上部署能力接近旗舰水平的Agent底座,以规避闭源API的数据出域风险与长期License成本,买单方是设备厂商,最终服务的是终端用户。第二类是有本地部署需求的国企、金融机构与中型ISV,这类客户对数据合规要求高,同时需要支撑高频工具调用的Agent模型,此前要么使用能力不足的小尺寸开源模型,要么承担高昂的闭源专属部署成本,阶跃的模型恰好填补了这个价位段的空白。第三类是长尾开发者,这类群体目前以免费使用为主,但会形成生态势能反向推动企业端的采购决策。

但商业逻辑的成立仍然绑定在那个未经验证的技术前提上:如果256K长上下文下的激活参数漂移、推理速度衰减超过50%,那么标称的成本优势将完全消失,模型的定位也会从“生产级Agent底座”退回“短链轻应用工具”。此外,目前所有的热度信号,包括前代模型30万次的下载量、OpenRouter的登顶成绩,均为开发者侧的使用数据,尚未出现非关联方的连续付费或扩容证据,其公开的“端侧License+云侧消耗计费”收入模式,仍未得到规模化的商业化验证。另一个不可忽视的风险是主流大模型厂商的跟进速度,通义、DeepSeek等厂商均具备推出10B左右激活参数的开源MoE模型的能力,若半年内出现同性能、适配更完善的竞品,阶跃的先发优势将被快速抹平。

叙事偏差的校准

拆解整个事件的传播链条会发现,“198B参数桌面可运行”之所以能快速破圈,很大程度上得益于参数组合带来的认知差,而其背后的口径模糊与信源结构偏差,却被大多数传播渠道忽略。

首先是信源结构的同源性问题。目前公开可查的与该模型相关的信息中,核心性能、参数口径等关键内容均来自官方发布渠道,其余传播内容多为对官方通稿的转述,尚未出现独立第三方的公开实测验证。因此,所有涉及性能优势、端侧可用性的结论,目前均为官方单方披露,尚未经过外部校验。

其次是核心宣传数字的口径模糊。三个最具传播力的核心指标,均未明确完整的统计规则:其一,198B总参数的统计规则尚未经官方公开说明,目前仅明确激活参数为11B,196B语言参数+1.8B视觉参数的总参数构成仅来自媒体转述的通稿内容,官方未说明总参数是否计入嵌入层、MoE共享参数等易膨胀统计规模的部分,无法直接与其他厂商的同规模模型做横向对比;其二,“桌面可运行”的定义完全缺失,所有公开信源均未明确该模型在桌面端运行的量化等级、最小显存需求、对应硬件配置,以及运行时的上下文窗口大小,仅能从前代产品的披露信息推测其适配的是万元级工作站设备;其三,标称最高400tok/s的推理速度,仅明确为单请求代码场景下的峰值数据,未说明测试时的上下文长度、输入输出token比例,不代表长上下文或多并发场景下的实际表现。

这种口径设计带来了一个容易被忽略的认知偏差:很多普通受众会将“198B总参数”等同于模型运行时的实际算力需求,从而高估技术突破的幅度。但实际上,稀疏MoE模型的实际运行负载由激活参数而非总参数决定,11B激活参数的模型经过4bit或8bit量化后可在高端桌面端运行,本身是行业已经验证的技术路径。此次的参数组合本质上是用总参数的大数字锚定模型的能力层级,同时用激活参数保障端侧运行效率,而非实现了198B稠密参数模型的桌面端运行。

此外,当前时间节点的特殊性也需要纳入考量。据市场公开消息称,阶跃星辰即将完成近25亿美元Pre-IPO轮融资,已拆除红筹架构,正处于港股上市的筹备期。近三个月内,阶跃星辰连续发布两代开源模型、披露芯片适配进展、端侧能力等市场关注度较高的信息,这一信息发布节奏符合科技企业融资与上市周期的普遍传播规律,其技术披露的客观性需要结合后续第三方实测数据进一步校准。

待验证的观察指标

目前可以确认的事实是,Step 3.7 Flash是一个面向Agent场景优化的、具备明确成本优势的开源稀疏MoE模型,其在10K以内短上下文、短链任务下的基础能力已经经过上一代产品的社区验证与产业端的初步适配,对于有短链Agent需求、同时需要本地部署的用户来说,是一个值得尝试的选项。但所有涉及“256K长上下文稳定运行”“普通高端桌面全场景流畅运行”“成本较竞品下降70%以上”的结论,目前都缺乏独立第三方的实测支撑,属于待验证的叙事。

未来三个月内,五类数据的披露将会直接修正当前判断:其一,第三方技术团队在256K满上下文下的基准测试结果,若实际推理速度衰减率低于20%、激活参数漂移幅度不超过30%,则该模型的技术承诺成立;其二,OpenRouter等第三方调用平台上的付费调用占比与30天用户留存率,若付费占比超过30%、留存率超过50%,则其商业化价值得到初步验证;其三,非关联方的端侧商业化签约情况,若出现3家以上头部车机、PC厂商的独立采购订单,则其端侧生态渠道跑通;其四,主流Agent框架的内置模型排序,若Step 3.7 Flash进入默认推荐前两位,则其生态壁垒初步形成;其五,官方补充公开总参数的统计规则、桌面运行的最低硬件配置、峰值推理速度的完整测试环境等口径信息,这将显著提升其宣传内容的可信度。

大模型行业已经过了单纯比拼参数规模的阶段,当前的核心竞争已经转向“在满足生产场景需求的前提下,把单位推理成本降到最低”。稀疏MoE的架构路线确实是目前最有希望实现这一目标的方向之一,而阶跃星辰的此次尝试,不管最终的验证结果如何,都把“生产级Agent降本”这个核心命题推到了更接近规模化应用的位置。

但所有的技术突破最终都要体现在可复现的性能、可验证的成本、可持续的付费上,而不是停留在吸引眼球的参数组合叙事里。对于行业而言,真正值得关注的从来不是“能不能在桌面跑198B参数的模型”,而是“能不能用更低的成本,稳定跑通真实场景中的长链Agent任务”。这个问题的答案,不在厂商的宣传通稿里,而在后续的第三方实测数据与企业的实际采购订单里。

References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
9/9
资料引用
12 条
编辑席
技术编辑

先把“198B MoE桌面可运行”这一公开表述拆成一个可验证的工程问题——这不是198B参数全量激活的端侧推理,而是稀疏MoE架构加定向工程优化后的部署结果,核心价值是把生产级Agent场景的模型推理门槛拉到了高端消费级硬件区间,但目前长上下文下的稀疏激活稳定性、桌面端长链任务的实际性能仍缺乏可复现的第三方证据。 目前可验证的事实包括,Step 3.7 Flash采用总参数198B(196B语言+1.8B视觉)的稀疏MoE架构,单token激活参数标称11B,采用Apache 2.0协议开源至ModelScope,NVIDIA已确认支持其企业级部署,上一代Step 3.5 Flash的Hugging Face下载量超30万,曾登顶OpenRouter热门榜单,且已完成华为昇腾、沐曦等多家国产芯片的适配,说明该架构的基础推理能力已得到产业端初步验证。官方标称的400tok/s峰值推理速度明确对应单请求代码场景,并非通用任务性能,该指标在同激活参数规模的模型中处于合理区间,未超出工程常识边界。但目前所有公开性能数据均来自短上下文、单步或短链任务测试,包括官方披露的Toolathlon 49.5%、ClawEval-1.1 67.1%、τ²-bench Telecom 98%通过率等结果,测试集单任务长度均不超过10K token,与标称的256K上下文能力存在明显的测试场景错配,也没有第三方独立复现长上下文下的性能表现。 指标看起来漂亮,但生产环境会先追问成本和稳定性。首先,“桌面可运行”的硬件门槛远高于普通消费级设备:198B总参数即使做4-bit量化,权重存储开销仍接近100GB,远超普通桌面的显存容量,官方披露的适配硬件仅为Apple M3/M4 Max、AMD AI Max+ 395等万元级工作站设备,且必然采用了非激活专家分层存储、动态调度的优化方案——即将未激活的专家权重存储在本地SSD中,按需调入显存。该方案的隐性代价是,当任务涉及长上下文跨多个专家的推理时,专家调度的IO延迟会显著抬升,甚至出现实际激活参数远超11B标称值的情况,这也是一手信源明确标注“稀疏激活能力待256K场景证伪”的核心原因。相比之下,同期Liquid AI发布的8B端侧MoE总参数仅8B,激活参数1~1.5B,可直接在普通笔记本甚至手机上运行,两者的部署门槛存在数量级差距,不能混淆为同一类端侧优化成果。其次,要达到官方标称的400tok/s峰值速度,必须使用官方适配过的推理框架与算子优化,普通开发者使用原生开源推理工具部署时,实际性能通常会下降40%以上,定制化微调还需要处理MoE专家路由的训练逻辑,工程复杂度远高于同激活规模的稠密模型。 需要说明的是,该模型面向Agent场景优化的技术路线具备合理性,不追求总参数规模、聚焦激活参数效率的思路,确实有望降低生产级Agent的部署成本。目前其对Claude Code、OpenClaw、Hermes Agent等主流Agent框架的兼容优化,也能切实降低开发者的接入成本,上一代产品的社区热度也验证了该方向的市场需求。当前判断的置信度分为两部分:关于“11B激活参数的MoE架构在10K以内短上下文Agent场景下达到官方标称性能”的置信度为85%,有上一代产品的社区验证与多家芯片厂商的适配声明支撑;关于“256K长上下文下稀疏激活效率无显著衰减、桌面端稳定运行长链Agent任务”的置信度仅为40%,目前没有第三方公开的满负载测试数据,也未披露长上下文下的专家调度延迟、实际激活参数占比等关键指标。 真正需要观察的不是总参数规模或峰值速度,而是三个可复现的核心指标:一是第三方在256K满上下文下测试的实际激活参数占比、推理速度衰减率与长链工具调用的任务完成率;二是普通开发者使用开源工具在标称适配硬件上的实际推理速度,而非官方定向优化后的峰值;三是生产级Agent工作流中单位任务的实际推理成本,与同能力稠密模型的对比降幅。

过稿轨迹
挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子gate_reviewrepair_revision改稿子收尾
校稿清单
篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄
被压下去的反对意见
差评君critical

认为本文应直接判定为宣传稿予以block,理由是一手信源占比仅0.24,远低于0.4的门禁要求,且核心数据均为官方单方披露。

为什么没放进正文:核心事实有官方一手发布支撑,并非完全虚构,且文章主动披露了待验证边界,未进行无依据的吹捧,仅需补充修订信源标注即可,无需直接block。

差评君awareness

建议删除所有关于阶跃星辰融资与上市的关联分析,认为属于无关的恶意揣测。

为什么没放进正文:上市筹备期的信息发布节奏是行业公开信息,客观提及可为读者提供完整背景,无需完全删除,仅需修正主观表述即可。

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-06-01 07:45:44。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。