Mellum2发布:IDE厂商自研模型的逻辑,从来不是赢参数竞赛
2026年6月1日,JetBrains在Hugging Face正式发布第二代代码专用大模型Mellum2,采用120亿总参数的混合专家(MoE)架构,延续初代针对IDE编码辅助场景优化的定位,同时以开源形式开放给开发者社区[1]。距离2024年10月初代Mellum发布已过去一年半,两代模型的架构、参数规模与适用场景均存在明显差异,当前公开传播的多数性能数据来自初代产品的生产运行结果,截至发稿尚未有针对Mellum2的独立第三方验证数据。
已确认的Mellum2基础框架
作为JetBrains第二款自研代码大模型,Mellum2的基础技术路径已有明确的官方披露信息。其核心设计目标是适配IDE实时编码场景对低延迟、高吞吐的要求,而非追求通用大模型的全场景能力[2]。
官方公开的训练流程显示,Mellum2的预训练总数据量超过10.5万亿token,分为三个阶段逐步收窄聚焦范围:第一阶段使用约6万亿token的通用Web数据训练基础能力,第二阶段使用2.8万亿token的高质量数据侧重编码能力优化,第三阶段使用1.7万亿token的最高质量数据完成最终对齐,其中第三阶段的代码类token占比超过50%[2][4]。预训练完成后,模型还经过了大规模后训练:首先使用500亿token的指令遵循数据完成有监督微调(SFT),随后在编程、数学与推理场景中,通过可验证奖励的强化学习(RLVR)进一步优化,最终适配实时代码补全的场景需求[2]。
从产品定位来看,Mellum2将同时承担两个角色:一方面作为JetBrains AI Assistant的核心模型,为自有IDE用户提供云侧代码补全服务;另一方面作为开源基础模型,开放给开发者社区进行二次开发与部署[5][9]。
已验证的场景价值:来自初代的生产闭环
当前所有经过大规模生产验证的性能数据,均属于2024年发布的初代Mellum,后者为4B参数的稠密架构模型,针对Python、Kotlin等语言做了专项微调。这些数据是判断Mellum系列价值的核心基础,但其适用边界需明确限定于JetBrains自有IDE生态内。
初代Mellum上线后,逐步替换了JetBrains AI Assistant此前采用的第三方大模型接口,官方披露的生产运行数据显示:其代码补全端到端延迟降至第三方方案的三分之一,用户对补全建议的接受率约为40%,补全建议的用户取消率较此前版本降低3至4倍[10][11][12]。与多数开源模型披露的实验室基准测试数据不同,这些指标来自JetBrains千万级付费AI Pro用户的真实使用行为统计,覆盖Java、Kotlin、Python、Go、PHP五门核心编程语言,测试场景为IDE内的实时代码补全,而非通用代码生成任务,40%的接受率也被行业普遍视为实时代码补全场景的可靠基准[10]。
初代Mellum验证的核心逻辑是:绑定IDE全量上下文数据的垂直优化模型,可以在用户体验不下降的前提下,实现比通用大模型更低的推理成本。这也是Mellum2迭代的核心出发点——将垂直场景的优化优势,从4B级别的稠密模型拓展到12B级别的MoE架构,进一步覆盖更多编程语言与更复杂的编码任务。
Mellum2的核心宣称与证据边界
JetBrains对Mellum2的核心性能宣称包括:MoE架构使其推理速度可达同规模模型的两倍,推理成本减半,支持更广泛的语言和编程任务,可用于低延迟RAG流水线等场景[2][5]。但截至发稿,这些宣称尚未有独立第三方验证支撑。
截至2026年6月发稿,关于Mellum2的公开信息中,仅一份来自Hugging Face的官方发布为独立一手信源[1],已有多家第三方科技媒体、开发者社区对其架构设计与产品定位进行了初步追踪解读[6][11],其余公开内容多为JetBrains官方多语言站点内容的转载或二次加工;目前尚无第三方研究机构、开发者社区发布针对Mellum2的基准测试、部署验证或性能复现结果。
目前核心未披露的关键信息包括:其一,MoE架构的核心设计细节,如专家数量、单请求激活参数规模、路由算法设计,而激活参数规模是判断MoE模型效率的核心指标;其二,性能对比的基线标准,包括对比对象是同总参数的稠密模型还是同激活参数的其他MoE模型,测试环境为JetBrains专属优化集群还是通用云服务器;其三,模型的具体开源许可证条款,以及训练数据的具体许可类型(是否包含具有copyleft条款的开源代码);其四,脱离JetBrains IDE上下文数据后的性能表现,即模型的通用编码能力是否达到同级别开源模型的平均水平。
自研模型的商业逻辑
以下分析为基于AI SaaS行业通用规则的推演,非JetBrains官方披露数据
在Mellum系列推出前,JetBrains AI Assistant的核心能力依赖第三方大模型的API接口。据AI SaaS行业普遍估算,AI订阅收入中约35%-45%需要支付给上游模型厂商作为推理费用,对应JetBrains AI功能的毛利水平约为20%-25%。如果Mellum2能够实现官方宣称的推理成本减半,同时保持初代的用户体验水平,那么原本支付给上游模型厂商的大部分费用将转化为JetBrains的毛利,AI功能的毛利水平有望提升至40%以上。
选择开源Mellum2的逻辑也与生态绑定高度相关:一方面可以通过社区的二次开发获取更多场景下的迭代反馈,降低自身的模型优化成本;另一方面可以培养开发者对Mellum系列的使用习惯,反哺JetBrains IDE订阅的留存与转化。
Mellum2的推出,或进一步强化JetBrains在IDE AI编码场景的竞争优势。当前AI编码赛道的玩家中,通用大模型厂商缺乏开发者工作流入口,多数工具厂商缺乏垂直模型的长期积累,开源代码模型则普遍缺乏规模化落地的真实场景。JetBrains通过“IDE入口+专属模型+场景数据”的闭环,进一步抬高了用户转向第三方AI编码工具的替代成本——其模型训练嵌入了JetBrains积累20年的IDE上下文场景特征,这种项目级的上下文感知能力是通用大模型无法通过公开数据集训练获得的。
适用场景与能力边界
Mellum2的性能优势存在明确的场景边界,不能将官方宣称的效率优势泛化到所有编码场景。
首先,其性能优势高度绑定JetBrains的IDE生态。初代Mellum的高接受率,很大程度上依赖IDE提供的项目全量上下文数据,包括依赖库版本、历史输入习惯、语法树校验结果等专属信息,这些数据是通用大模型无法通过公开数据集训练获得的。如果脱离JetBrains IDE环境,在通用代码生成场景或第三方编辑器中,Mellum2的性能可能与同规模开源模型没有显著差异。
其次,部署成本的优势仅在特定条件下成立。MoE架构需要加载全部12B的模型权重,FP16精度下至少需要24GB显存,无法在普通消费级端侧设备运行,仅能部署在云侧或高性能工作站。同时,MoE的成本优势仅在高并发场景下成立,如果单实例QPS低于10,显存利用率无法打满,单位请求的推理成本反而会高于同激活参数的稠密代码模型。
最后,Mellum2的能力边界集中在实时代码补全场景。其激活参数规模决定了它在代码重构、长链路智能体开发等复杂编码任务上的能力,无法与70B级别的稠密代码模型相比,不适用于对推理深度要求较高的复杂场景。
后续可追踪的验证指标
Mellum2的真实价值,需要通过后续公开的技术与商业数据逐步验证,核心可追踪指标分为三类: 技术维度,可关注JetBrains是否在Hugging Face放出完整的模型权重、推理脚本与基准测试配置,明确开源许可证与商用授权规则;是否有第三方开发者在通用云服务器上复现Mellum2的延迟、吞吐与编码准确率数据;官方是否披露Mellum2在HumanEval、MBPP、BigCode等通用代码基准上的完整测试结果。 商业维度,可关注JetBrains AI Pro订阅的渗透率与续费率是否出现5%以上的提升;AI功能的毛利水平是否达到40%以上;财富全球100强客户中,AI Pro的企业采购量是否出现同比增长。 生态维度,可关注开源版本Mellum2的社区调用量中,非JetBrains生态的占比是否超过30%,验证开源社区的飞轮效应是否成立。
从本质来看,Mellum2的核心价值从来不是在通用代码大模型的参数竞赛中胜出,而是JetBrains把AI编码的价值截留在自有生态的关键一步。对于开发者来说,它的意义也不是又多了一个可以刷榜的开源模型,而是IDE厂商依托长期场景积累开展垂直模型优化,来解决真实编码过程中普遍存在的延迟痛点——当然,所有这些价值,都需要等更多公开验证数据出来之后,才能真正落地。
参考资料
先把Mellum2的核心承诺拆成一个能不能跑通的问题:一款12B参数的MoE架构开源代码模型,能不能在IDE实时编码补全这个对延迟最敏感的场景里,做到比同规模模型更低的成本、更高的用户接受率。从目前公开的信息看,这个闭环在JetBrains自有IDE的生产链路里已经得到初步验证,但普适性的性能声明仍缺乏可复现的技术细节支撑。 目前可验证的支撑证据有两点:一是训练流程的针对性完全匹配场景需求,官方公布的三阶段共10.5万亿token预训练,从通用Web数据逐步收窄到代码占比超50%的高质量数据,再叠加500亿token的指令微调与基于可验证奖励的强化学习,整个路径没有追求通用能力的泛化,完全服务于编码场景下短上下文、高语法准确率、强上下文匹配度的核心要求,和IDE补全场景端到端延迟低于200ms的硬指标高度对齐。二是有大规模真实生产数据的背书,初代Mellum已经在JetBrains AI Assistant中落地,公布的补全端到端延迟降至原有第三方模型方案的三分之一、用户接受率约40%,这个数据来自千万级开发者的真实行为统计,而非实验室环境下的理想benchmark,是目前开源代码模型中少有的经过生产链路校验的用户侧指标。 问题在于,所有关于“两倍推理速度、成本减半”的普适性能声明,目前均未给出可复现的技术细节。公开资料中没有披露MoE架构的核心参数:包括专家数量、单请求激活参数规模、路由算法设计,也没有明确性能对比的基线——是和同总参数的稠密模型比,还是和同激活参数的其他MoE模型比,是在JetBrains专属优化的推理集群上的测试结果,还是通用云服务器上的公开部署数据。目前所有第三方信源均为官方口径的二次传播,没有独立开发者或机构复现其延迟、吞吐、成本数据,也没有公开BigCode、HumanEval、MBPP等标准编码基准的完整测试报告与配置说明,模型的具体开源许可证也未明确公示,这些信息的缺失直接限制了外部使用者对其性能的验证。 换到工程现场,Mellum2的性价比优势有明确的适用场景边界。中小参数MoE的核心痛点并非推理计算量,而是显存开销与部署适配成本。假设Mellum2采用代码模型常见的8专家设计,单请求激活2B参数,那么部署时需要加载全部12B的模型权重,FP16精度下至少需要24GB显存,远高于同激活参数的2B稠密模型的4GB显存需求,这意味着它无法在普通消费级端侧设备运行,只能部署在云侧或高性能工作站。更关键的是,MoE的低延迟优势高度依赖场景专属的路由优化与请求预处理:JetBrains在自有IDE链路中提前做了上下文特征提取、语法树校验、请求分流等前置处理,外部开发者如果直接将Mellum2接入通用编码工具,没有对应的路由调度逻辑适配,很容易出现专家负载不均、长尾延迟飙升的问题,实际性能会远低于官方公布的数据。同时,其强化学习阶段使用的奖励函数是基于JetBrains IDE的用户补全接受率训练的,外部部署如果没有对应的编程环境反馈闭环,模型的实际用户接受率会明显低于40%的官方数据。另外,MoE的成本优势仅在高并发场景下成立:如果单实例QPS低于10,MoE的显存利用率无法打满,单位请求的推理成本反而会高于同效果的稠密代码模型。 反过来看,对于不需要深度集成JetBrains IDE的开发者来说,Mellum2的部署门槛可能高于DeepSeek-Coder、CodeLlama等成熟的稠密代码模型,后者不需要针对MoE做专属优化,就能在普通云服务器上跑出不错的性能,尤其在低并发场景下的单位成本更低。同时Mellum2的能力边界集中在实时代码补全,对于代码重构、长链路智能体开发等复杂编码任务,其激活参数规模决定了它的推理能力无法和70B级别的稠密代码模型相比,不能将其宣传的编码能力泛化到所有编程场景。 目前对于“JetBrains自有IDE链路中,Mellum2可实现低于200ms的端到端补全延迟、40%左右的用户接受率,综合性价比优于原有第三方模型方案”这个结论,置信度为85%,核心支撑是初代模型的大规模生产数据与针对性的训练设计;对于“通用部署场景下,Mellum2比同规模模型快两倍、推理成本减半”这个结论,置信度仅为30%,核心原因是缺乏公开架构细节与第三方复现数据。后续可验证的核心指标包括:Hugging Face是否放出完整的模型权重、推理脚本与基准测试配置,是否有第三方开发者在通用云服务器上复现其延迟、吞吐与编码准确率,以及官方是否明确模型的开源许可证与商用授权规则。
建议删除所有关于JetBrains AI功能毛利的推演内容,因无官方数据支撑
为什么没放进正文:该推演已明确标注为“非官方披露的行业通用推演”,是核心商业逻辑分析的必要组成,仅需补充依据来源即可,删除会削弱文章分析价值
Reader Signal
这篇文章对你有帮助吗?
只收集预设选项,不开放评论,不公开展示个人反馈。
选择一个判断,也可以附加一个预设标签。
发布于 2026-06-02 10:41:10。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。