AI热点 2月前 108 浏览次数 11 评论

10年顽疾ChatGPT一眼识破!AlphaGo时刻震撼全球医疗界

新智元

发布了 344 文章

编辑:KingHZ

【新智元导读】十多年,患者求医无果、束手无策,但将所有病史输入ChatGPT,病因竟被一眼识破:基因突变!微软、OpenAI等巨头的医疗AI已悄然登场,准确率超越专业医生!未来的医疗,或将彻底改写!


AI又一次震撼医疗圈!

一名患者被莫名病症折磨十多年,数十位医生无解。

直到他把报告输入ChatGPT——AI一语中的:MTHFR A1298C基因突变!

在Reddit上,这则消息传疯了!

⚠️注意:在采纳ChatGPT建议前,该患者和主治医生多次沟通、反复确认。请一定结合专业医生意见,切勿完全依赖AI作为医疗依据。

十多年来,患者一直被各种莫名其妙的症状困扰。脊柱MRI、CT、抽血……能查的都查了,还是一头雾水。

后来,他还做了功能医学检测,意外发现他有一种纯合子突变:MTHFR基因A1298C突变。这是一种常见的亚甲基四氢叶酸还原酶MTHFR基因变异,而最常见的变异被称为MTHFR C677T。

每个人都有两份MTHFR基因,分别来自母亲和父亲。上图展示了MTHFR C677T可能的基因型。而MTHFR A1298C发生在MTHFR基因的第1298位。这种突变在美国人群中影响7-12%

他还见过神经科医生,检查过是不是多发性硬化(Multiple sclerosis,MS)。

直到他把这些年所有的检查报告和病史输入ChatGPT。

神了。发生了惊人一幕:ChatGPT发现,虽然血清维生素B12水平正常,但却与持续性的神经痛和慢性疲乏矛盾。

这种反常,指向了一种长期被忽视的可能——甲基化阻滞(methylation block)。

几个月后,患者的刺痛感减轻了,大脑雾气消散了。

主任内科医生审查了治疗报告,震惊地发现,基因变异正是全部症状的病因!

AI工程师、实时追踪AGI进展的Rohan Paul,听闻此消息,大受鼓舞。他认为:「现在时机已成熟,医疗AI模型给出的第二诊疗意见应该成为医疗实践规范。」

相关推文,也被OpenAI总裁转载。

前Forbes撰稿人、作家Derick David则表示这是医疗界的「AlphaGo」时刻:在疾病诊断上,AI现已比人类强。


AI医疗奇迹,正在一幕幕上演


类似的例子太多了!

Reddit网友crasstyfartman的妹妹被ChatGPT诊断出一种罕见的遗传性血液疾病——

在此之前,她花了十多年时间看医生和自然疗法师,都被告诉那只是心理问题。他们甚至在她提出做检测时翻白眼。她坚持要求检测。结果ChatGPT是对的。

向医生抱怨了22年,最后网友buyableblah靠ChatGPT协助才得出诊断。

我也是这样做的,只不过是针对子宫内膜异位症(endometriosis)。终于做了超声检查,发现了一个6厘米的子宫内膜异位囊肿(称为子宫内膜瘤,endometrioma),现在已经长到7.3厘米,我打算今年晚些时候切除。


甚至网友用ChatGPT拯救了被兽医「误判死刑」宠物狗。

Reddit网友sometimelater0212则表达了对医疗体系的强烈不满:

我把ChatGPT提供的发现拿去给医生看,他们却全都嗤之以鼻,要么说:「从没听说过类似的诊断建议」,要么就说「别信ChatGPT」。


这种傲慢真是让人烦透了。


但不止OpenAI,微软、谷歌、IBM等早已布局医疗AI。

在微软的消费级AI产品中,每天就有超过5000万次与健康相关的使用情境。

从用户首次查询膝盖疼痛,到深夜紧急搜索附近诊所,搜索引擎和AI助手正逐渐成为医疗服务的第一道防线。

就在上周,微软发布了MAI-DxO。而这个AI系统表现远超医生。

研究人员以《新英格兰医学杂志》(New England Journal of Medicine)每周发布的真实病例记录作为基准测试。

结果显示,在诊断NEJM病例时,Microsoft的AI诊断编排器(Microsoft AI Diagnostic Orchestrator,MAI-DxO)的准确率高达85%,这一比例是实验中经验丰富的人类医生的四倍多。

而且,MAI-DxO还比人类医生的成本低。


微软:通向医疗ASI之路


NEJM每周会发表「马萨诸塞总医院病例记录」,详细记录了患者的整个诊疗过程。

这类病例通常诊断难度极高,往往需要多位专家和一系列检测手段,才能做出最终判断。

NEJM:《新英格兰医学杂志》New England Journal of Medicine,是全球最权威的医学期刊之一

那么,AI在这些复杂病例中表现如何?

为探究这一问题,从NEJM案例中,微软的研究团队设计出一套交互式诊断挑战——称为「顺序诊断基准」(Sequential Diagnosis Benchmark,SD Bench)。

304个NEJM案例被转化为逐步进行的诊疗模拟:像在真实环境中一样,让AI模型或人类医生可以逐步提问、安排检测、获取结果,并实时更新诊断思路,最终给出结论。最后的结论将与NEJM给出的标准答案进行对比。

每一次检测请求都会产生虚拟费用,用以模拟真实医疗资源消耗。据此,研究人员从两个关键角度评估了模型:诊断的准确性和资源的使用效率。

图1:AI智能体推理并解决顺序诊断问题的示意

输入初始病例信息,如:

29岁女性,因喉咙痛、咽旁肿胀及出血入院,使用抗菌治疗后症状未改善。


依照「顺序诊断」流程,AI开始进行推理:

(1)患者回顾病情

(2)接下来,AI开始问诊,范围涵盖: 既往病史、用药史、恶性肿瘤迹象、病毒感染史、牙科史、出血倾向、常规实验(如血常规、凝血)和影像检查(如颈部MRI)等。

(3)虚拟医生专家组内部讨论

(4)逐项检查,更新诊断

(5)AI系统得出诊断结论

(6)与NEJM权威诊断结果对比,专家评审意见


迈向准确诊断


研究人员对目前最具代表性的生成式AI(Generative AI)模型进行了全面评估,覆盖了304个《新英格兰医学杂志》(NEJM)的真实病例。参与评测的基础模型包括GPT、Llama、Claude、Gemini、Grok和DeepSeek等。

论文链接:https://arxiv.org/abs/2506.22405v2

除了对这些模型进行基准性能测试,研究人员还设计了MicrosoftAI诊断编排器(MAI-DxO)——

模拟由多名虚拟医生组成的协作小组,通过多样化的诊断思路共同应对复杂病例的系统。

图5:MAI-DxO编排系统概览

与单一模型相比,编排器不仅更善于整合不同来源的数据,还能在医疗环境变化时提供更高的安全性、透明度与适应能力。

这种不依赖于特定模型的架构(model-agnostic)也提升了系统的可审计性和韧性,这两者对于高风险、快速演进的临床场景而言至关重要。

评测结果显示,MAI-DxO显著提升了所有模型的诊断表现。其中表现最优的是MAI-DxO与OpenAI的o3模型组合,其在NEJM案例中的诊断准确率达到85.5%。

作为对比,实验中也评估了21位来自美英的执业医生,他们拥有5到20年的临床经验。在相同任务中,他们完成的案例平均准确率仅为20%。

MAI-DxO具有可配置性,可以设置成本上限,从而在诊断过程中探索「成本与价值」的权衡。

若不加限制,AI可能会倾向于开出所有可能的检查项目,而不顾费用、患者感受或诊疗延误。研究发现,MAI-DxO不仅比医生和单一模型更准确,其总体检测成本也更低。

在「诊断准确率」与「平均检测成本」两个维度上,下面的散点图对比了不同AI模型。图中MAI-DxO曲线位于表现最优的左上区域,红色叉号则代表人类医生的平均水平。


AI+医生:告别看病贵的第一步


医生通常在专业知识的广度或深度之间作出选择。比如,全科医生需面对不同年龄层和系统的广泛问题,而专科医生则专注于某一病种或系统。

然而,NEJM案例的复杂程度远超单一医生所能全面覆盖。而AI不受这一限制,能够兼顾广度与深度。而且在多个方面,AI的临床推理能力已超越人类医生。

这种能力有望彻底改变医疗模式——不仅可赋能患者自行处理常规健康问题,也可为医生提供决策支持。

目前,美国医疗支出占GDP的近20%,其中高达1/4属于无效支出。

AI有望成为遏制这一浪费的关键力量。

这不是取代医生,而是开启一种全新的医疗共治模式:AI+医生,共同诊断。

新智元

新智元

344 文章 48885 浏览次数 69870 粉丝

评论 (11)

User avatar

太厉害了!AI在医疗领域的潜力真是让人惊叹!

User avatar

这AI,以后会不会直接决定你的生死?有点吓人啊!

User avatar

AI医疗,这可比我昨天早餐吃的蛋炒饭更有意思!

User avatar

AI在医疗领域!这简直是人类对自身能力的自我否定,太可怕了!

User avatar

惊叹?我只是觉得,未来医生可能要变成AI的“数据管理员”!

User avatar

这玩意儿,我感觉有点毛骨悚然,人类的生命,该不该交给机器?

User avatar

别吹牛!AI只是个工具,真正的医疗还得靠人!

User avatar

AI在医疗上强大?那人类的医生们,以后就当AI的“技术支持”吧!

User avatar

厉害了,厉害了!不过,我还是更喜欢医生那种温暖的笑容。

User avatar

说得对,AI医疗,未来就是它!人类的时代,要被智能取代了!

睡觉动画