Model Opensource2026-06-30 06:30:3613 min read

DeepSeek V4峰谷定价：大模型计费的规则转向与真实成本边界

No.07

Aione Editorial

Aː

Aione 编辑部

Editorial Desk

2026-06-30 06:30:36 13 分钟

2026年6月29日，DeepSeek官方宣布V4正式版将于7月中旬上线，同步推出API峰谷定价机制[1]。这是继4月V4预览版开源、5月API永久降价75%之后[9][12]，这家国产大模型厂商的又一核心动作，也首次将“分时定价”的逻辑系统性引入国内大模型API的计费体系。对于习惯了单纯按token数量付费的开发者而言，这套规则的影响远不止“高峰涨价”这么简单：它既隐含着大模型服务从单纯算力售卖向资源精细化调度的尝试，也暴露了当前商业化进程中的大量模糊地带，其真实的规则边界、成本结构和对产业的影响，仍需要逐一厘清。

峰谷定价的真实规则与口径边界

目前官方明确披露的峰谷定价规则可归纳为两点：一是时段划分，高峰时段为工作日9:00-12:00、14:00-18:00，合计7小时，占全天时间的29%，其余时段执行平峰价；二是定价倍率，高峰时段所有API调用价格为平峰的2倍，平峰价格维持5月公布的永久定价不变[3][5][8]。具体到两个核心模型的定价细则，旗舰版V4-Pro平峰期缓存命中输入价为0.025元/百万token，缓存未命中输入价3元/百万token，输出价6元/百万token；高峰时期对应价格翻倍，分别为0.05元、6元、12元/百万token。轻量版V4-Flash的峰谷定价逻辑一致，高峰时段缓存未命中输入价为2元/百万token，输出为4元/百万token[5][8][11]。当前公开传播中存在明显的口径偏差：不少叙事以0.025元/百万token的缓存命中价作为性价比参照，但这一价格对应的是完全复用固定上下文的极端场景——比如多次调用使用完全相同的系统提示词、历史对话无任何更新。而在实时客服、代码辅助、生产级Agent等贡献了大模型API核心营收的场景中，上下文动态性极强，行业通用的缓存命中率通常不足30%，缓存未命中才是常态[6]。按照30%的命中率测算，V4-Pro高峰时段的实际平均输出成本约为8.4元/百万token，与宣传口径中的极端低价存在数量级差异。横向对比来看，即便以高峰时段缓存未命中的常态价格计算，V4-Pro 12元/百万token的输出价，仍仅为OpenAI GPT-4o平峰输出价（约70元人民币/百万token）的17%，也低于火山引擎豆包2.1 Pro 30元/百万token的平峰输出价[3][11]。但这一对比仅针对单token的基准价格，未纳入服务SLA、合规支持、长上下文稳定性、技术支持等核心价值维度，因此无法直接推导“性价比全面领先”的结论。除此之外，当前规则仍存在大量未明确的模糊地带：官方仅披露了工作日的高峰时段规则，周末、法定节假日是否执行平峰价、V4系列之外的其他模型是否纳入峰谷定价体系，均未给出明确说明，相关规则的覆盖范围仍存在不确定性[4][7][9]。

分时定价的逻辑差异：从算力售卖到资源调度的距离

峰谷定价并非新鲜事物，电力、公共交通、云计算等成熟基础设施领域早已普遍采用这套机制，其核心逻辑是通过价格杠杆引导需求错配，平抑供需的潮汐波动，最终提升整体资源利用率。但成熟的基础设施峰谷定价，通常需要满足三个可验证的前提：一是公开历史负载数据，证明高峰时段确实存在真实的资源缺口，而非人为设定的涨价窗口；二是高峰溢价对应明确的服务等级承诺，用户支付更高的价格，可以获得更稳定的服务、更高的调度优先级；三是官方提供配套的工具，降低用户错峰调度的适配成本，比如电力的分时计量电表、云计算的自动伸缩调度工具。就目前公开信息来看，上述三个前提均未得到验证。DeepSeek未披露调价前高峰时段的算力拥堵率、调用延迟、请求成功率等基线数据，无法证明当前7小时高峰窗口存在实质性的资源供给缺口；也未对高峰时段的服务做出任何额外的SLA承诺，用户支付双倍价格，既没有得到更低延迟、更高成功率的书面保障，也没有获得排队优先级的明确说明；同时官方也没有推出配套的任务调度SDK、成本优化工具等，开发者若要实现错峰调用，需要自行开发任务排队、时间调度的逻辑。这也意味着，当前的峰谷定价更多是定价规则的调整，而非完整的基础设施级资源调度体系的建成运行。其是否能实现“优化资源配置、提升服务稳定性”的官方目标，仍需要后续的实际运行数据验证[1][10][12]。如果仅仅是增加了时间维度的价格差异，却没有配套的服务保障和调度工具，那么这套机制本质上只是对高峰时段用户的结构性调价，而非资源效率的整体优化。

用户分层的成本账：谁在买单，谁在受益

峰谷定价的影响不能用“涨价”或“降价”一概而论，不同规模、不同场景的用户，面临的成本变化完全不同，甚至呈现出截然相反的收益结构。首先是月调用量超过10亿token的超大型客户。这类用户通常有足够的技术能力和预算进行本地部署，按照V4-Pro的硬件要求，部署一套可用的生产级推理集群需要8张A100 80GB显卡，按行业通用算力成本测算——单张A100 80GB显卡月租赁成本约1.8万元，生产级推理集群平均利用率通常维持在40%左右——其单位输出成本约为4.6元/百万token，远低于高峰时段12元/百万token的API价格[8][9]。对于这类客户而言，峰谷定价反而进一步拉大了API调用与本地部署的成本差，会加速其从公共API向本地部署或专属云服务分流，DeepSeek的公共API体系很难长期留存这类高价值客户。其次是月调用量在1亿-10亿token之间的中型客户，据国内大模型API服务行业通用营收结构统计，这类客户通常贡献了60%以上的营收[10]，大多是提供实时AI服务的SaaS厂商，比如智能客服、代码辅助工具、Agent服务商。其核心调用时间完全落在工作日的7小时高峰窗口，无法通过错峰调度降低成本；同时其调用规模又未达到本地部署的成本阈值，自建集群的单位成本反而高于平峰API价格。这类用户是峰谷定价下的净受损方，按照30%的缓存命中率测算，其实际调用成本将上涨80%-120%，且无法获得对应的服务质量提升，也是当前定价策略下流失风险最高的群体，其留存情况将直接决定本次定价调整的商业化成败。最后是月调用量低于1亿token的小型开发者，以及非实时场景的用户。对于从事离线数据清洗、批量内容生成、非实时知识库更新等场景的用户而言，其任务对时间不敏感，可以完全调度到平峰时段执行，直接享受5月以来的永久低价，甚至可以将任务集中到周末执行，进一步降低成本。但需要注意的是，这类用户需要额外开发任务调度、上下文复用的逻辑，对于预算有限的小型团队而言，这部分工程成本可能抵消30%-50%的价格优惠，实际收益远低于名义上的成本降幅。

确定事实与待验证边界

目前整个事件中，只有三类信息是经过交叉验证、可信度较高的确定事实：一是V4预览版的架构优化已经得到第三方验证。4月上线的V4预览版采用MoE混合专家架构，其中Pro版总参数1.6万亿、激活参数490亿，Flash版总参数2840亿、激活参数130亿，全系原生支持100万token上下文[3][5]。通过创新的注意力机制优化，V4在百万token场景下的推理计算量仅为前代V3.2的27%，显存占用仅为10%，这一架构优化已经有大量第三方开发者完成本地部署复现，可信度较高[8][9][11]。二是7月中旬上线V4正式版、实施工作日7小时高峰定价翻倍的规则，已经得到官方明确披露，仅存在小概率的临时调整风险。三是实时场景的中小用户将面临明确的成本上升，且需要承担缓存规则不透明、无SLA承诺的额外风险。除此之外的大量衍生判断，目前仍处于待验证的假设阶段，不能作为确定性结论：首先是V4正式版的性能提升。官方仅提及正式版将带来“功能优化与性能提升”，但未披露任何MMLU、AgentBench等通用基准测试的分数，也未公布长上下文召回率、幻觉率等生产级指标，甚至是否延续MIT开源协议也未明确，相关性能主张目前仅为官方单方声明。其次是昇腾950配套的降价承诺。官方曾表示待下半年昇腾950批量上市后，Pro版本价格将进一步大幅下调，但目前昇腾950的量产进度、模型适配完成度、实际降价幅度均无公开数据，该承诺的兑现时间和力度仍存在不确定性[8][10]。再者是峰谷定价的实际效果。官方宣称该机制将提升服务稳定性，但未披露削峰的预期目标，也没有历史负载数据证明算力潮汐的存在，价格杠杆是否能真正引导用户错峰、最终降低高峰时段的算力压力，仍需要实际运行数据验证。最后是市场广泛讨论的定价与融资的关联。目前有市场消息称DeepSeek正在推进大额融资，4月开源拉生态、5月降价拉调用量、7月调价拉单位收入的动作序列，与一级市场融资前优化核心运营数据的常见路径吻合，但该关联仅为时间维度的重合，并无直接证据证明因果关系，因此不能作为定价动因的确定性判断。

后续可追踪的核心验证指标

判断这套峰谷定价机制的真实性质与实际效果，不需要依赖定性的叙事，只需要追踪六个可验证的核心指标：第一，V4正式版上线后，是否会公开完整的基准测试报告与架构细节，是否延续MIT开源协议。这将直接决定正式版的性能提升是否属实，以及其开源生态的延续性，也是其区别于闭源大模型的核心竞争力所在。第二，高峰时段是否会公布明确的SLA承诺，包括调用延迟上限、可用性指标、排队优先级规则，同时第三方监测的实际调用延迟与成功率是否较平峰或调价前有明显提升。这是“高峰溢价对应更高服务质量”的核心判断标准，也是定价机制从“单纯涨价”转向“资源优先级售卖”的核心标志。第三，官方是否会公开缓存命中的计算规则，以及用户实际命中率的行业统计数据，消除当前定价口径的模糊地带，让开发者可以准确测算实际成本。第四，昇腾950的量产进度与模型适配完成度，以及正式兑现后Pro版本的实际降价幅度，验证此前的降本承诺是否落实。第五，峰谷定价实施3个月后，月调用量1亿-10亿token的中型实时客户留存率。若该群体留存率出现大幅下滑，将对本次定价策略的整体商业化表现产生核心影响。第六，峰谷定价实施后，高峰时段的算力负载率是否出现20%以上的下降，验证价格杠杆是否真正起到了削峰填谷的作用，还是仅为单方面的成本转移。

从单纯按token计费，到引入分时维度的价格差异，DeepSeek的此次尝试，确实为大模型API的商业化提供了新的思路。但任何定价规则的长期成立，都需要建立在买卖双方价值对等的基础上——用户支付的溢价，需要对应可量化的服务价值提升；厂商获得的额外收入，需要对应真实的资源优化效率。当前的峰谷定价仍处于规则实施的早期阶段，其最终是成为大模型服务基础设施化的里程碑，还是仅为特定阶段的短期商业动作，答案将藏在上述可验证的数据之中。

References

参考资料

Editorial Room

这篇文章怎么过稿

5 位编辑过稿

总编辑主笔

编写方式

总编辑主笔

校稿清单

9/9

资料引用

12 条

编辑席

技术编辑

目前围绕本次DeepSeek V4正式版与峰谷定价的三类判断，核心分歧集中在两点：一是峰谷定价是否已经达到“基础设施级调度”的工程标准，二是性能与成本的表述是否有足够的可验证技术支撑。首先对齐数据编辑提出的证据等级要求，修正此前两处结论：一是峰谷定价的规则置信度，此前交叉验证的仅为工作日7小时高峰的定价翻倍规则，周末、法定节假日的定价规则无官方明确表述，且所有信源均来自官方通稿的同源转发，无独立核实，因此核心时段规则置信度维持95%，全时段覆盖规则置信度下调至60%；二是跨品牌性价比的表述，此前“仅为GPT-4o定价1/3”的结论仅对齐token定价的单一维度，未纳入性能准确率、长上下文召回率、服务SLA、合规支持等核心价值维度，且仅针对缓存未命中的基准场景，不构成全维度性价比结论，该判断的置信度从此前的隐含默认下调至40%，与证据等级要求对齐。同时采信批判编辑提出的缓存场景偏差问题，补充工程侧的常识验证：实时交互、Agent、代码生成等核心付费场景的上下文动态性强，行业通用缓存命中率通常不足30%，因此V4-Pro高峰时段的实际平均输出成本远高于标称的缓存命中极端低价，按30%命中率测算的实际平均输出成本约为8.4元/百万token，而非宣传口径的0.025元/百万token，该测算符合大模型推理的工程实践，置信度90%。与产业编辑的核心分歧在于，产业逻辑判断峰谷定价是“算力时间成本显性化、与基础设施调度逻辑对齐”，但从工程标准看，电力、云计算等成熟基础设施的峰谷定价，必须同时满足三个可验证前提：公开的历史负载数据证明高峰存在真实资源缺口、高峰定价对应明确的SLA承诺（如延迟上限、可用性指标）、官方提供自动化调度工具降低用户适配成本。目前DeepSeek三项均未公开：既没有发布此前高峰时段的算力拥堵率、延迟数据证明资源缺口的存在，也没有承诺高峰双倍价格对应更低的延迟或更高的可用性，更没有提供官方的任务调度SDK帮助用户适配峰谷时段，因此“基础设施级调度”的判断目前只有商业逻辑支撑，无工程证据，置信度不足30%。产业编辑提到的“峰值负载降低20%可减少30%算力备货”的测算，也因缺少DeepSeek现有负载基线数据，仅为行业通用假设，而非可落地的针对性测算。针对批判编辑提出的融资周期与定价动作的关联推导，技术判断不涉及商业动机的验证，仅明确所有与技术相关的承诺——正式版性能提升、昇腾950配套降价、峰谷定价提升服务稳定性——目前均无公开可验证的工程数据支撑，仅为官宣声明，置信度分别为25%、20%、30%，无论动机如何，这些承诺的落地都需要后续公开数据验证。修正后的核心技术判断可分为三个置信度层级：第一级为已验证事实，V4预览版的MoE架构参数、百万上下文的推理成本优化（计算量为前代V3.2的27%、显存占用为10%）已有第三方开发者完成本地部署复现，置信度90%；本地部署的硬件门槛（Pro版需8张A100 80GB、Flash版需2张A100 80GB）已验证，月调用量超过10亿token的客户本地部署的单位输出成本约为4.6元/百万token，低于高峰API价，该结论与产业编辑的客户分流判断一致，置信度90%。第二级为高概率工程约束，峰谷定价目前仅为定价规则调整，未配套工程层面的服务承诺或调度工具，对不同用户群体的成本影响已可明确：月调用量10亿以上的实时客户会加速转向本地部署，月调用量1亿以下的离线客户可享受稳定低价，而占核心营收比例最高的中型客户（1-10亿token/月）既无法错峰也未达到本地部署的规模阈值，按30%缓存命中率测算实际成本上涨80%-120%，且无SLA保障，该群体的流失风险是当前定价策略的核心工程约束，置信度85%。第三级为待验证声明，正式版的性能提升、昇腾950配套降价、峰谷定价的削峰效果均无公开数据支撑，暂不纳入可落地的技术与成本测算。后续需要追踪的核心可验证指标包括：正式版上线后是否公开完整的基准测试报告与架构细节、是否延续MIT开源协议；高峰时段是否公开明确的SLA承诺、实际调用延迟与成功率的第三方监测数据；缓存命中规则的公开透明化与用户实际命中率的第三方统计；昇腾950的量产进度与模型适配完成度、实际降价幅度；峰谷定价实施后高峰算力负载率的下降幅度。

过稿轨迹

挑选题查资料分头看debate碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾

校稿清单

篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄

被压下去的反对意见

女娲awareness

认为本文未采用对立批判立场，未将峰谷定价明确定性为“变相涨价”，对用户受损场景的揭露力度不足，应强化负面批判。

为什么没放进正文：本文定位为机制解释，无需强行采用拆穿式立场，当前平衡覆盖受益/受损群体、明确待验证边界的分析符合写作定位，过度批判会偏离中立解释的核心目标。

Reader Signal

这篇文章对你有帮助吗？

只收集预设选项，不开放评论，不公开展示个人反馈。

选择一个判断，也可以附加一个预设标签。

发布于 2026-06-30 06:30:36。本文为原创深度报告，未经授权不得转载。观点仅代表编辑部独立判断，不构成投资建议。

Model Opensource

LongCat-2.0的试探：国产万亿大模型走到了哪一步

2026-06-30

Model Opensource

一行代码背后：英伟达NeMoAutoModel的MoE微调效率升级与真实边界

2026-06-27

Model Opensource

Nemotron 3 Ultra：长时智能体的效率重构与生态边界

2026-06-26

Model Opensource

GLM-5.2国产算力适配：从可运行到可用的距离

2026-06-19

峰谷定价的真实规则与口径边界

分时定价的逻辑差异：从算力售卖到资源调度的距离

用户分层的成本账：谁在买单，谁在受益

确定事实与待验证边界

后续可追踪的核心验证指标

参考资料

这篇文章对你有帮助吗？

相关阅读

LongCat-2.0的试探：国产万亿大模型走到了哪一步

一行代码背后：英伟达NeMoAutoModel的MoE微调效率升级与真实边界

Nemotron 3 Ultra：长时智能体的效率重构与生态边界

GLM-5.2国产算力适配：从可运行到可用的距离