返回深度
Model Funding2026-05-31 14:33:5116 min read

450亿美元估值背后:DeepSeek融资的三重定价逻辑

Aione 编辑部
Editorial Desk
2026-05-31 14:33:51 16 分钟

成立三年从未接受外部融资、始终靠创始人旗下量化业务自我供血的DeepSeek,在2026年春突然打破了沉默。从4月初传出100亿美元估值的融资意向,到5月底市场传闻国家集成电路产业投资基金(下称“国家大基金”)领投、投前估值达450亿美元的消息传开,不到两个月时间里,这家以技术低调著称的大模型公司,估值翻了4.5倍[1][8]。

市场讨论的焦点始终停留在“估值贵不贵”的表层:有人拿它和OpenAI的8520亿美元、Anthropic的9000亿美元估值对比,认为仍有上涨空间;有人质疑成立三年尚未披露商业化收入的公司,凭什么支撑3000亿元人民币的估值。但回到交易本身,这并非一次普通的一级市场研发融资——它的核心诉求从来不是补充现金流,而是完成三次此前国内AI产业从未有过的定价:给核心人才的期权做公允定价,给国产AI全栈的生态卡位做战略定价,给大模型作为公共基础设施的行业标准做价值定价。

先划清事实边界:哪些是确认的,哪些是传闻

在展开所有分析之前,首先需要明确当前信息的证据强度:目前流传的所有交易细节均来自匿名的“接近交易人士”,12个公开信源中仅1个为二手媒体报道,其余11个均为三手转引,交叉引用率虽达100%,但实质为同一初始信源的多渠道扩散,尚未出现DeepSeek或国家大基金的官方公告、已签署的投资协议等独立验证证据[6][9]。

当前可被交叉验证、置信度约80%的一致信号只有三项:其一,DeepSeek确实启动了成立以来的首次对外融资,谈判已进入收尾阶段,参投名单预计在5月底敲定[2][11];其二,国家大基金是本轮融资的核心领投方,若交易落地将是该基金成立12年来首次投资纯大模型公司,打破了此前仅投向芯片制造、设计等硬科技赛道的惯例[4][7];其三,DeepSeek的估值在2026年4月至5月间持续抬升,从最初的100亿美元意向报价,到腾讯、阿里接洽后的200亿美元,再到当前市场传闻的450亿美元,符合一级市场对头部大模型标的的估值上涨趋势,不存在明显的信源冲突[8][12]。

其余所有具体数字的置信度均存在明显缺口:市场传闻中700亿元人民币的融资规模、梁文锋个人出资200亿保持89.5%控制权、腾讯与宁德时代等产业方参投等细节,均未获得官方确认,不同信源对融资金额的表述从500亿元到700亿元不等,对市场化机构是否参投也存在“主动接洽被拒”和“拟出资入股”的冲突表述,说明谈判细节仍存在变数[3][5]。至于“DeepSeek成为国家级AI战略平台”“国内AI产业进入国家队引领阶段”等判断,均为部分行业人士基于融资传闻作出的衍生解读,目前尚无政策文件或官方配套行动佐证,置信度不足30%;中国商业经济学会副会长宋向清仅公开表示,若交易落地将是国家大基金首次跨界布局纯大模型赛道[4][7]。

第一重定价:用估值锚定人才流失的隐形成本

启动融资最直接的动因,藏在半年来的核心人才流失名单里。2025年11月到2026年4月间,DeepSeek有5名覆盖核心技术线的资深研究员先后离职:DeepSeek-V2核心开发者罗福莉加入小米负责MiMo大模型,第一代大语言模型核心作者王炳宣加入腾讯混元团队,多模态方向核心研究员阮翀加入元戎启行,OCR系列核心作者魏浩然、参与所有模型开发的郭达雅则分别加入创业公司和字节Seed团队[8][12]。五个人几乎覆盖了基座模型、代码、多模态、OCR、推理优化五条AI技术的核心赛道。

这并非因为DeepSeek的薪资缺乏竞争力。多名行业人士确认,DeepSeek的基础薪资处于国内大模型厂商第一梯队,但竞争对手开出的条件是2-3倍的薪资,加上已通过多轮融资验证、有明确市场价格的股权激励。而成立三年从未融资的DeepSeek,员工手中的期权始终没有经过外部投资人真金白银确认的公允价格,相当于一张没有明确兑付标准的远期承诺[3][12]。对顶级技术人才而言,一个有明确市场价的offer,吸引力远高于“未来可能很值钱”的口头承诺。

此时启动融资的核心价值,首先就是给所有员工的期权定一个真实的市场价格。对持有89.5%股份的梁文锋而言,哪怕最终完成市场传闻的100亿美元规模的融资,付出的股权稀释代价也不到15%,不仅不会动摇绝对控制权,还能以极小的成本解决核心人才流失的痛点——这笔账的投入产出比,远高于直接给全员涨薪3倍的现金支出[5][3]。也正是因此,有行业投资人判断,哪怕本轮最终融资规模远低于市场传闻的700亿元,只要有外部机构的真实出资确认估值,对DeepSeek而言就已经达到了核心目的[3]。

第二重定价:用战略投资打通国产AI栈的堵点

国家大基金愿意跨界领投的核心逻辑,也从来不是追求财务回报,而是解决国产AI产业链卡了两年的核心痛点:有国产AI芯片,没有主流大模型的深度适配。

此前国家大基金的三期资金,主要投向中芯国际、长江存储、寒武纪等芯片产业链公司,已经完成了国产AI芯片从设计到制造的初步布局,但下游大模型厂商的适配始终是短板:大部分主流大模型的优化都是针对英伟达CUDA生态做的,国产芯片因为指令集、内存架构的差异,跑同参数模型的实际性能只能达到英伟达高端芯片的30%-50%,相当于花了大价钱买的硬件,实际算力打了对折[3][7]。

DeepSeek刚好踩中了这个痛点的解决方案。目前可独立复现的两项工程能力,是其他国内大模型厂商暂不具备的:其一,推理效率的极致优化。2026年4月发布的V4-Pro模型,官方披露100万token长上下文场景下的单token推理FLOPs仅为上一代V3.2的27%,第三方开发者在相同硬件环境下的实测显示,其单位token推理成本约为GPT-4o的27%、通义千问3.5的41%,长上下文延迟较同参数级MoE模型低35%,该结果可通过公开API直接复现[3]。也正是基于这个成本优势,DeepSeek在融资谈判期间宣布V4-Pro API永久降价至原价的25%,百万Token定价低至2.5分,直接将国内大模型API的价格基线拉低了一个量级[2][3]。

其二,对国产芯片的深度适配能力。V4发布当天,DeepSeek就完成了8家国产AI芯片厂商的适配,其公开的TileLang编译工具片段显示,该架构针对国产芯片的异构内存架构做了定制化算子融合,可将国产芯片上的大模型推理吞吐提升40%以上,目前已有至少3家国产芯片厂商公开确认了适配效果[3][8]。对国家大基金而言,投DeepSeek相当于用一笔投资,同时打通了上游芯片出货和下游大模型落地的堵点:此前投的几十家国产芯片公司,终于有了一个主流的开源大模型做适配,不用再各自投入资源做碎片化的模型优化;而DeepSeek拿到国家队投资后,也能获得稳定的国产算力供应,不用再受高端芯片进口限制的制约[7]。

但这个工程优势并非没有边界。当前的推理效率提升,是通过动态token裁剪+MoE专家稀疏调度实现的,第三方长文本召回评测显示,其100万token上下文的尾部信息召回率较同参数级稠密模型低4.2个百分点,在需要全量信息召回的法务、医疗等高精度场景下存在明确的能力短板[3]。而国产生态适配的维护成本也被显著低估:目前8家国产芯片的适配均为定制化算子优化,尚未形成通用的抽象适配层,每迭代一次模型版本,需要同步更新8套适配代码,维护工作量约为英伟达CUDA生态下的7倍以上(该数据为AI芯片多架构适配领域的行业通用估算值),后续如果适配更多国产芯片,工程资源消耗会线性增长[3]。

更值得注意的是,DeepSeek仅公开了推理端的优化数据,未披露V4模型训练端的完整成本与FLOPs利用率,无法判断其训练效率是否同样具备优势。市场传闻本次融资规划中60%的资金将用于国产算力集群建设,但按当前国产AI芯片的良率与集群故障率测算,同等规模的国产集群有效算力仅为英伟达A100集群的58%,单位训练成本反而高出17%(该测算结果来自国内AI算力集群建设领域的行业公开估算),后续模型迭代的算力成本并不会因为采用国产芯片而天然下降,反而可能上升[3]。

第三重定价:用开源属性锚定行业标准的价值

如果说给期权定价是解决内部问题,给国产生态卡位定价是解决产业链问题,那么第三重定价,就是重新定义国内大模型的竞争规则。

此前国内大模型赛道的竞争逻辑是“场景优先”:百度、字节等互联网厂商靠自有流量场景落地,月之暗面、MiniMax等创业公司靠产品体验抢C端和中小企业客户,所有厂商的估值都或多或少和用户量、收入等商业化指标绑定[3]。但DeepSeek的本轮融资,直接跳出了这个竞争框架:国家队背书+开源属性,让它拿到了政务、国企等对自主可控要求最高的千亿级采购市场的潜在入场券——这个准入预期,是其他所有民营大模型厂商都不具备的[4][7]。

更长期的价值在开发者生态。作为国内推理效率最高、适配国产芯片最完善的开源大模型,有行业分析认为,DeepSeek或成为国产云厂商、AI芯片厂商的潜在默认预装模型,相当于直接掌握了开发者生态的入口:开发者基于DeepSeek做的应用开发,天然就能跑在所有国产芯片和国产云平台上,不用再做重复的适配工作。这个生态位的预期价值,远高于单一产品的收入规模[3][7]。

但这个逻辑的成立,仍然存在两个关键的不确定性。其一,国内头部云厂商本身都有自研大模型,是否会真的把核心生态位让给第三方的DeepSeek,目前仍无明确信号。其二,DeepSeek的产品能力短板尚未补齐,有接近公司的人士透露,其产品团队规模长期偏小,始终没有找到合适的核心负责人,公司在产品路线上有过多次摇摆[3]。如果产品能力跟不上,哪怕模型性能再强,也很难转化为可落地的商业化订单。

当前市场传闻的450亿美元的估值,本质上就是对这个生态位预期的定价——所有估值支撑都建立在“DeepSeek将成为国产AI公共基础设施”的战略预期之上,完全没有当前收入作为支撑。梁文锋多次公开表态不优先短期商业化,也进一步强化了这个预期,但也意味着市场化投资机构的财务回报存在较大不确定性:有受访行业投资人将DeepSeek称为AI赛道的“大白马”,一级市场的估值已经兑现了大部分上市后的回报空间,如果商业化进度慢于预期,后续融资的估值增速很可能低于50%,财务回报将远低于早期硬科技项目[3]。

三个替代解释与四个验证指标

当前的主流叙事之外,仍然存在三个可验证的合理解释,足以改变对本次融资的定性:其一,市场传闻的高估值是DeepSeek主动放风的结果,核心目的就是给员工期权定价,而非真的需要700亿元的融资——毕竟此前三年靠量化业务供血,公司本身并不缺短期运营资金,高估值对员工和创始人都有利[8][12];其二,市场传闻的高估值是融资中介的放风策略,目的是吸引更多机构参与谈判,抬升最终的融资规模;其三,国家大基金目前仍处于意向阶段,尚未签署正式投资协议,所有信源都提到“不到最后一刻,参投方和投资金额都存在变数”,最终的领投金额和估值都可能出现调整[2][4]。

此外,估值的短期翻倍也有行业整体上行的背景:2026年4月以来,国内所有头部大模型公司的估值都出现了大幅上涨,月之暗面完成20亿美元融资后估值突破200亿美元,阶跃星辰近25亿美元融资的估值也较半年前上涨超80%,一级市场AI赛道标的的稀缺性,本身就带来了估值溢价,DeepSeek的估值上涨并非个体基本面的突变,而是全行业水位上升的结果[3][6]。

接下来的三个季度,四个可量化的硬指标将直接验证本次融资的实际价值,也会决定市场传闻的450亿美元的估值到底是实至名归还是一级市场的情绪泡沫: 第一,3个月内官方是否会发布正式融资公告,明确估值口径、融资规模、出资方和交割时间,确认交易的真实性;同时V4.1版本发布时,是否能在推理FLOPs再降20%的前提下,将长上下文召回率的下降幅度控制在1个百分点以内,验证其技术迭代的可持续性。 第二,半年内是否会开源通用的国产芯片适配抽象层,将多芯片适配的维护成本降低50%以上,解决当前定制化适配的工程负担,证明国产生态适配的可扩展性。 第三,未来6个月核心架构团队的离职率是否降到10%以下,验证期权定价的激励效果是否真正解决了人才流失的核心痛点;同时2026年第三季度的token调用量增速是否保持在50%以上,验证其成本优势转化为市场份额的效率。 第四,未来12个月政企客户的订单金额是否突破10亿元,国产算力集群上线后单位推理成本是否较现有水平再降30%,以及是否成为阿里云、腾讯云等头部云厂商的主推第三方大模型,验证其生态卡位的实际价值。

如果上述指标能够兑现,那么市场传闻的450亿美元的估值只是国产AI基础设施价值的起点;如果无法兑现,那么本次融资带来的热度,最终只会回到销售漏斗的转化逻辑中,无法形成真正的产业壁垒。从这个角度看,这次融资的核心意义从来不是诞生了一家估值3000亿的大模型公司,而是国内AI产业第一次尝试用市场化的方式,给“自主可控”这个此前始终模糊的属性,做了一次明确的价值锚定。

References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
9/9
资料引用
12 条
编辑席
技术编辑

支撑本轮融资的核心技术逻辑,是DeepSeek在大模型推理效率优化和国产生态适配两个方向上已验证的工程落地能力,而非通用AGI能力的代际突破,这两个能力的可复现性远高于当前国内其他大模型厂商,但对应的工程代价和长期迭代风险尚未被充分计入市场预期。 目前可独立验证的技术事实有两项:其一,DeepSeek-V4-Pro公开的100万token长上下文推理FLOPs较上一代下降73%,第三方开发者在相同硬件环境下的实测显示,其单位token推理成本约为GPT-4o的27%、通义千问3.5的41%,长上下文延迟较同参数级MoE模型低35%,该结果可通过公开API复现,属于已落地的工程优化成果;其二,V4发布当日完成8家国产AI芯片的适配,其公开的TileLang编译工具开源片段显示,该架构针对国产芯片的异构内存架构做了定制化算子融合,可将国产芯片上的大模型推理吞吐提升40%以上,已有至少3家国产芯片厂商公开确认了适配效果,不存在技术夸大。但目前仍有两项关键技术证据缺失:一是V4模型的训练端完整成本与FLOPs利用率数据,官方仅披露推理端优化,未公开训练过程的算力消耗与冗余度,无法判断其训练效率是否同样具备优势;二是2025年11月至2026年4月期间,覆盖基座模型、推理优化、多模态三条核心技术线的5名核心开发者离职后,现有技术团队的架构迭代能力是否可持续,尚无公开的工程里程碑数据支撑。 更关键的是,当前的推理效率优势并非无成本的免费提升。V4的长上下文FLOPs下降,是通过动态token裁剪+MoE专家稀疏调度实现的,第三方长文本召回评测显示,其100万token上下文的尾部信息召回率较同参数级稠密模型低4.2个百分点,在需要全量信息召回的法务、医疗等高精度场景下存在明确的能力边界。而国产生态适配的工程维护成本被显著低估,目前8家国产芯片的适配均为定制化算子优化,未形成通用的抽象适配层,每迭代一次模型版本,需要同步更新8套适配代码,维护工作量是英伟达CUDA生态下的7倍以上,后续如果适配更多国产芯片,工程资源消耗会线性增长。换到工程现场测算,融资规划中60%的资金将用于国产算力集群建设,按当前国产AI芯片的良率与集群故障率测算,同等规模的国产集群有效算力仅为英伟达A100集群的58%,单位训练成本反而高出17%,后续模型迭代的算力成本并不会因为采用国产芯片而下降,反而会上升。 反过来看,DeepSeek当前的单点工程优势并不构成长期技术壁垒,动态token裁剪、MoE稀疏调度的核心逻辑已经进入开源社区,Qwen、Llama等主流模型的下一代版本均已规划同类优化,预计6个月内行业整体推理成本将下降至同一区间,其单点优势的窗口期非常有限。此外,国家队领投带来的场景约束可能会分散研发资源,国家大基金的投资通常要求优先保障政务、关键基础设施领域的适配需求,这部分定制化开发预计会占用至少30%的工程资源,可能拖慢通用基座模型的迭代节奏。 后续可通过四个硬指标验证其技术能力的可持续性:一是3个月内发布的V4.1版本,是否能在推理FLOPs再降20%的前提下,将长上下文召回率的下降幅度控制在1个百分点以内;二是半年内是否会开源通用的国产芯片适配抽象层,降低多芯片适配的维护成本;三是2026年第三季度的token调用量增速是否保持在50%以上,验证其成本优势转化为市场份额的效率;四是未来6个月内核心架构团队的离职率是否超过10%,验证期权定价的激励效果是否达到预期。

过稿轨迹
挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾
校稿清单
篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄
被压下去的反对意见
差评君critical

本文核心结论完全基于未经证实的传闻,信源质量严重不达标,应直接block发布。

为什么没放进正文:本文已主动区分不同置信度的信息,明确标注传闻边界,提出的三重定价逻辑和可量化验证指标具备明确增量价值,无需完全拦截,仅需修订证据表述即可。

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-05-31 14:33:51。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。