据全球罕见病联盟公开数据,全球已知的7000余种罕见病中,80%为遗传源性,儿童患者占比超过半数,平均确诊周期长达5至7年,近三成患儿直到去世都无法获得明确的病因诊断。在这样的背景下,OpenAI发布于《新英格兰医学杂志·AI》的一项研究迅速引发关注:其自有推理模型对376例经标准临床流程未确诊的儿童罕见病病例进行重分析,最终获得18例新的明确诊断,官方表述直接将其定义为“大模型推理能力在临床遗传诊断领域实用价值的验证”[1]。
大模型在医疗领域的应用一直被视为最具潜力的落地方向之一[4],但如果拨开宣传口径的滤镜,拆解整个研究的证据链就会发现:公开信息中被刻意省略的前置条件、未填补的设计缺口、被模糊的适用边界,使得“实用价值”的结论远没有看起来那样坚实。这一研究的真正价值,不在于已经确认的18例确诊,而在于它清晰地展现了AI公司医疗研究的典型叙事逻辑:用窄场景的技术可行性,包装成可规模化落地的商业解决方案,用经过筛选的正面结果,掩盖归因、成本、合规层面的核心不确定性。
归因迷雾:4.79%补诊率的参照系缺失
本次研究公布的核心量化指标是4.79%的补诊率——376例入组病例中最终确诊18例,这一数字本身不存在计算误差,但整个研究最核心的证据断点恰恰在于:没有任何公开信息说明这一转化率的对比基准是什么,也没有排除其他可能导致确诊的替代解释。
遗传诊断的一个基本常识是,罕见病的确诊能力高度依赖动态更新的公共数据库。ClinVar、OMIM等全球通用的致病变异数据库,每年都会新增上万条经过临床验证的致病关联记录,对于数年前未确诊的病例,哪怕不使用任何新的技术,仅用最新版的数据库重新运行一遍常规分析流程,也能获得一定比例的补诊。公开数据显示,2023年ClinVar的致病变异条目年更新率约为1.5%,如果入组病例的首次诊断时间距离模型分析有3年间隔,那么仅时间累积带来的预期补诊率就在4.5%至9%之间,刚好覆盖本次研究4.79%的结果。
要排除时间累积效应的干扰,证明补诊结果确实来自大模型的推理贡献,唯一严谨的方法是设置平行双盲对照组:选取同一批病例,锁定首次诊断时的公共数据库版本,分别交由大模型和同等资质的资深遗传学家团队进行重分析,二者的补诊率差值才是模型的真实增量价值。但本次研究完全没有设置这一对照组,也没有披露376例病例的首次诊断时间窗口,甚至没有说明这些病例在入组前是否已经接受过至少一次基于最新数据库的人工重分析。这一设计缺口直接导致“18例确诊完全来自大模型推理”的因果链无法闭合——现有证据完全无法排除这些确诊病例只是时间累积的常规结果,甚至无法证明模型的补诊效率高于资深遗传学家的人工重分析。
更隐蔽的归因模糊点在于,研究没有披露18例确诊的推理来源。这些结果到底是模型整合了未被公共数据库收录的零散个案报道、非结构化文献中的关联证据,实现了全新的致病推理,还是仅仅是比人工更高效地检索了现有公共数据库中的已有记录?如果是后者,那么这个模型的核心价值只是一个优化过的检索提效工具,而非具备复杂推理能力的诊断辅助系统,二者的技术壁垒和应用价值天差地别。
对比同类医疗AI研究的标准,本次研究的透明度缺口尤为明显。同样是OpenAI发布的o1急诊诊断研究,采用了未经预处理的急诊记录进行双盲测试,直接对比模型和医生的诊断准确率,归因逻辑清晰;谷歌DeepMind的AMIE研究更是公开了全部研究数据集,允许第三方独立复现。而本次研究既没有公开去标识化的病例数据,也没有披露使用的模型版本和训练数据边界——甚至没有说明所用模型是通用推理模型o1,还是经过10万+罕见病病例微调的专属生命科学模型GPT-Rosalind。如果是后者,那么所谓的推理能力增量,本质是领域训练数据的拟合结果,而非通用推理能力的突破,这会彻底改写研究的核心价值。
价值边界:被放大的“临床实用价值”
OpenAI在官方摘要中直接将研究结论定义为“验证了大模型推理能力在临床遗传诊断领域的实用价值”[1],但这一表述的适用边界被刻意放大了多个层级,窄场景的技术可行性被包装成了全场景的通用价值。
首先是场景边界的放大。4.79%的补诊率,仅适用于“已经过至少一轮标准临床遗传流程筛查的、存量未确诊儿童罕见病病例”,这是一个极窄的特定场景。标准临床遗传流程本身已经覆盖了绝大多数常见的致病变异,能漏过的都是极罕见、证据极零散的个案,对这部分存量病例的补诊能力,完全不能外推至罕见病的初始诊断,也不能外推至成人罕见病病例,更不能推广到其他疾病诊断场景。但在公共传播中,这一边界被刻意抹去,不少解读直接将其描述为“大模型解决罕见病诊断难题”的突破,完全忽略了其适用范围的局限性。
其次是性能边界的缺失。本次研究仅披露了真阳性的确诊数字,却没有公布完整的性能矩阵——包括假阳性率、假阴性率、候选变异的排名准确率等核心临床指标。对于临床医生而言,假阳性率的重要性远高于真阳性率:如果模型每输出100个候选变异,只有18个是最终验证的致病变异,那么医生需要花费大量时间逐一排查剩余82个假阳性结果,反而可能比人工从头筛选变异的工作量更大。现有公开信息中没有任何关于假阳性率的披露,这就导致“模型能提升诊断效率”的判断完全没有证据支撑。
第三是全流程成本的边界误读。很多讨论将大模型的算力成本与遗传学家的人工解读成本直接对比,认为模型能显著降低诊断成本,但这忽略了全流程的成本构成。据医疗AI行业公开测算,未明儿童罕见病的单例诊断成本中,人工解读成本仅占30%到40%,更大的成本来自测序、家系验证、临床随访等环节。而当前阶段,o1级别的大模型单例推理的算力成本已经接近甚至超过人工解读的成本,再叠加医生复核AI结果的时间成本,全流程成本不仅不会下降,反而可能上升。更不用说,医疗机构要部署这类大模型,还需要搭建符合HIPAA或国内《个人信息保护法》要求的私有合规基础设施,尽管已经有学术医疗中心搭建了符合合规要求的OpenAI私有部署路径[5],但这类基础设施的初期投入成本极高,多数中小型医疗机构难以承担。
最后是合规边界的隐藏。本次研究涉及儿童患者的受保护健康信息,却没有披露机构伦理审查委员会(IRB)的批准文件,也没有说明儿童受试者的知情同意流程。这不仅是伦理合规的问题,更是临床落地的刚性障碍:没有完整的伦理审查记录,该研究的结果就不能作为三类医疗器械注册的临床证据,也就不可能进入正式的临床采购流程。此前已有研究指出,头部AI公司的医疗相关研究普遍存在重部署前性能验证、轻部署后合规与风险评估的倾向,本次研究再次印证了这一特征[3]。
叙事错位:科研成果还是商业卡位工具?
如果仅将本次研究视为一项探索性的科研成果,那么上述证据缺口其实是学术研究中常见的局限性,完全可以通过后续研究补足。但OpenAI对该研究的叙事包装,已经远远超出了常规学术成果的范畴,本质是用科研成果的可信度为商业部署背书。
一个值得注意的细节是:该研究的官方摘要被放在OpenAI官网的“医疗部署解决方案”板块,而非“学术研究”板块,其发布时间距离OpenAI联合19家机构成立规模达40亿美元的AI部署公司仅30天,同期OpenAI还密集推出了面向生命科学领域的评估基准LifeSciBench、免费开放了专属生命科学大模型GPT-Rosalind,一系列动作的指向性非常明确:不是展示科研成果,而是向医疗行业客户展示其模型能力,推进商业化部署的生态卡位。已有研究指出,OpenAI的公共传播一贯倾向于用安全、能力相关的叙事掩盖实际的证据缺口,较少采用学术界通用的伦理与合规框架披露研究局限性[2],本次研究的叙事方式再次符合这一特征。
当前大模型在医疗领域的竞争已经进入深水区,OpenAI的核心优势仅为待验证的推理能力,而临床落地的核心壁垒——合规资质、临床渠道、医疗责任承担能力——均掌握在其他玩家手中。传统分子诊断厂商如Illumina、华大基因本身已经绑定了全球绝大多数测序设备的销售渠道,只需将同类AI能力嵌入其现有分析管线,即可完成对现有客户的渗透,无需用户更换供应商;微软等云厂商已经推出了符合医疗数据合规要求的OpenAI私有实例,凭借企业采购渠道和合规资质,将直接截留模型部署环节的大部分价值;谷歌DeepMind的AMIE已经公开了全量研究数据集,并且正在推进与基层医疗机构的合作,在数据积累和渠道拓展上的进度已经领先于OpenAI。
在这种竞争格局下,OpenAI密集发布医疗相关研究、免费开放生命科学大模型的核心逻辑,是用模型能力换取合规的临床医疗数据,将临床部署的合规风险与医疗责任转移给下游合作方,自身则专注于模型能力的迭代。但这种模式的核心问题在于,医疗AI的付费逻辑至今没有跑通:医院采购医疗AI产品需要三类医疗器械认证,当前研究连完整的临床性能指标都未披露,更不具备临床收费资质;第三方诊断服务商已经有成熟的自有分析管线,在模型的增量价值和成本优势均未被验证的前提下,替换现有系统的成本远高于潜在收益;商业保险和医保没有对应的报销目录,无法为AI辅助诊断的增值服务付费。更关键的是,OpenAI明确不会为模型的误诊结果承担责任,这意味着模型产生的大部分收益必须让渡给承担医疗责任和合规风险的下游医疗机构,上游模型方的毛利空间被严重压缩,甚至短期之内不可能形成正向的盈利模型。
验证框架:哪些事实会改变当前判断
当前所有对该研究的判断,都建立在公开信息的缺口之上,这些缺口不是无法填补的,未来的一系列事实可以直接修正甚至推翻当前的结论。核心的验证指标可以分为三个层级,每一项指标的落地都会直接改变对该研究价值的判断。
第一层级是技术有效性验证,这是最基础的判断标准,需要补足三个核心证据:一是披露平行人类专家对照组的补诊率数据,对照组必须锁定与首次诊断一致的公共数据库版本,排除时间累积效应的干扰,如果模型的补诊率比人工对照组高出2个百分点以上,才能证明模型具备真实的增量价值;二是披露18例确诊的完整推理路径,明确其中是否存在未被公共数据库收录的全新致病变异关联,如果存在至少3例以上的全新推理结果,才能证明模型具备真正的推理能力,而非单纯的检索工具;三是披露完整的性能矩阵,包括假阳性率、假阴性率、候选变异的排名准确率等核心指标,如果假阳性率控制在30%以下,才能证明模型确实能减少医生的工作量,而非增加负担。
第二层级是可复现性验证,这是科研成果可信度的核心标准:一是是否有至少两家独立的第三方医疗机构,在自有的未确诊罕见病病例队列中,使用同一模型复现出不低于3%的补诊率;二是是否公开去标识化的测试数据集和研究使用的模型版本,允许学术机构独立复现研究结果;三是披露模型的训练数据边界,明确训练数据中是否包含与入组病例相关的私有医疗数据,排除数据泄露导致的结果虚高。
第三层级是落地可行性验证,这是判断该技术是否具备实用价值的核心标准:一是单例诊断的全流程成本(包括算力成本、人工复核成本、部署成本)是否比现有常规流程低30%以上,具备明确的经济性;二是相关产品是否获得FDA或NMPA的三类医疗器械认证,具备正式的临床收费资质;三是是否有至少一家第三方诊断服务商或三甲医院将该模型纳入正式的临床诊断流程,并按诊断例数支付模型使用费,而非仅开展科研合作;四是是否有商业保险或医保将AI辅助罕见病诊断纳入报销目录,打通最终的付费闭环。
对于罕见病患者群体而言,任何能提升诊断效率的技术探索都值得鼓励,本次研究至少证明了大模型输出的致病变异候选能够通过临床金标准的验证,而非毫无价值的随机噪声,这为后续的研究提供了一个有价值的起点。但技术探索的价值,不应该被刻意放大的商业叙事所消解。当一项科研成果被包装成可落地的解决方案,当窄场景的可行性被放大为全场景的实用价值,当未被验证的增量被当作已经证实的突破,最终受损的不仅是公众对AI技术的信任,更是那些苦苦等待诊断方案的罕见病患者的期望。当前最值得追踪的,不是已经公布的18例确诊数字,而是OpenAI会不会、何时会补足那些被刻意省略的证据——因为所有关于技术价值的判断,最终都要回到可验证、可复现、可追溯的事实本身。
参考资料
目前对OpenAI罕见病诊断研究的判断分歧,本质是“科研级技术可行性”和“可落地实用价值”两个维度的边界混淆——我最初的判断锚定了前者的证据强度,但低估了后者的证据缺口,而数据编辑、批判编辑提出的对照组缺失、透明度不足,以及产业编辑提出的全流程成本问题,恰好补上了我之前的证据链盲区。 我最初将“大模型推理可提升难诊罕见病新增确诊率”的置信度设为85%,核心支撑是NEJM AI的同行评议背书、18例确诊均经临床金标准验证、以及与o1急诊诊断、GPT-Rosalind基准的交叉印证,但这一判断忽略了数据编辑和批判编辑共同提出的最强反驳:该研究未设置平行人类专家对照组,无法排除时间累积效应的贡献。现有公开信息未披露376例入组病例的首次诊断时间、是否在入组前已经过至少一次基于最新公共数据库的人工重分析,如果这些病例的首次诊断时间距今超过2年,期间ClinVar、OMIM等公共数据库新增的致病变异记录,完全可能让资深遗传学家通过常规重分析获得相近的补诊率,这直接导致“18例确诊完全来自大模型推理增量”的因果链存在断点。据此修正判断:“大模型可从基因测序+临床表型数据中产出经金标准验证的致病变异候选,具备辅助遗传诊断的技术可行性”的置信度为80%,但“大模型相对于资深专家人工重分析有显著增量价值”的判断置信度仅为60%,剩余40%的不确定性完全来自对照组数据的缺失。 我与批判编辑的核心分歧在于对“叙事夸大”的定性:我不认为该研究的核心结论属于完全的商业宣传,NEJM AI的同行评议流程已要求研究者排除简单病例、验证所有确诊结果的金标准合规性,这至少证明大模型在该场景下的推理输出不是随机噪声,具备科研级的有效性;但批判编辑指出的三项证据漏洞(无公开原始病例数据、无双盲设计、未披露IRB伦理审查与儿童知情同意流程)均为实锤,且符合头部AI企业医疗研究透明度不足的已验证特征,这直接导致该研究的可复现性远低于DeepMind AMIE、OpenAI自身o1急诊诊断等同类研究,因此OpenAI公开叙事中“具备临床实用价值”的表述确实存在明显的证据放大,这一点我完全认同批判编辑的判断。 针对数据编辑提出的指标口径与能力边界问题,我需要补充此前的判断疏漏:4.8%的补诊率是针对“标准流程未确诊的存量儿童罕见病病例”的二次分析转化率,不能直接等同于全人群罕见病的初始诊断率,该指标的适用边界极窄,无法外推至成人病例或常规诊断场景;更关键的是,现有数据无法区分18例确诊中,有多少是大模型整合了未被标准流程收录的零散文献、个案报道实现的推理,有多少仅是对现有公共数据库的高效检索——如果全部为后者,那么该模型的价值仅为替代人工的检索提效工具,无法支撑全新致病变异的发现,能力边界将大幅收窄。据此我补充一项置信度的触发条件:若后续披露18例确诊中存在未被公开数据库收录的全新致病变异推理,则增量价值的置信度可提升至75%,否则将降至45%。 在工程落地边界上,我此前仅核算了模型推理的算力成本,但产业编辑提出的“医生验证AI结果反而增加人工成本”是更核心的全流程成本约束:当前该模型仅能输出候选变异列表,医生需要逐一验证变异的致病性、家系共分离情况,反而可能比人工从头筛选增加工作量,这意味着即便推理算力成本低于人工,全流程成本也未必下降,再叠加私有合规部署的基础设施成本、三类医疗器械认证的时间成本、责任划分的风险成本,我之前给出的“3年内规模化落地到普通临床场景”的25%置信度仍然偏高,修正为20%。 后续的核心验证点可归为三类:一是技术有效性验证,包括是否披露平行对照组的补诊率数据、18例确诊的推理路径细节、假阳性率等完整性能矩阵;二是可复现性验证,包括是否有第三方独立医疗机构在自有队列中复现出不低于3%的补诊率、是否公开研究用的模型版本和去标识化测试数据集;三是落地可行性验证,包括单例全流程成本(含算力+人工校验)是否低于现有常规流程的30%以上、相关产品是否获得三类医疗器械认证。
建议将全文主线定为“大模型医疗推理能力突破”,并给出85%的技术可行性置信度判断
为什么没放进正文:本次研究存在对照组缺失、归因模糊等核心证据缺口,不足以支撑“技术突破”的强叙事;单一置信度判断缺乏明确测算依据,不符合可反驳编辑原则,校验证据落差的主线更具读者价值。
建议将研究发布与40亿美元部署公司成立的30天时间差,定性为刻意的商业包装阴谋论
为什么没放进正文:无直接证据证明时间点选择的主观刻意性,动机推定不符合“有一分证据说一分话”的编辑准则,仅客观陈述事实即可,避免过度归因。
建议给出“该技术3年内规模化落地置信度20%”的具体数值判断
为什么没放进正文:绝对置信度数值缺乏公开可验证的测算框架,读者感知模糊;采用分层可验证的落地指标体系,更符合内容可追溯、可反驳的要求。
Reader Signal
这篇文章对你有帮助吗?
只收集预设选项,不开放评论,不公开展示个人反馈。
选择一个判断,也可以附加一个预设标签。
发布于 2026-06-19 10:16:55。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。