AI热点 9小时前 91 浏览次数 0 评论

国内首个!夸克健康大模型通过主任医师考试,断层领先,超半数医学生信赖!

AI中国
AI中国

发布了 7848 文章

人和人之间最好的关系源于信任,人和AI也是如此。


信任的构建历来是医疗领域的核心命题,当随着AI的深度介入,这一古老命题正被赋予新的内涵。


要让用户建立对AI的深度信任,分为“显性”和“隐性”两个维度。


显性维度很好理解,也很容易被感知,AI要具备专业医生的“能力”,起码具备临床执业医师资格,再往上通过高级别职称考试,这种可验证的统一资质评估体系提供了一条清晰可量化的信任建立路径。


隐性维度不易被察觉,但绝不该被忽视,即AI是否真正像人类医生那样思考,具备临床思维和循证方法,执行诊断和治疗医学状况所涉及的复杂推理,这是模型最终能否妥善处理医疗难题的关键。


正因如此,AI长期以来处于“业界普遍看好却难以被医生和患者完全接纳”的微妙境地。


如何改变这一现状,夸克给出了答案。


7月23日,夸克健康大模型成功通过中国12门核心学科的主任医师笔试评测,成为国内首个完成这一挑战的大模型。离上次通过12门副主任医师职称考试仅仅隔了两个月。


表面上看,从副主任医师到主任医师不过是技术的迭代和场景的优化,但背后其实蕴藏的是夸克作为一家科技创新组织对于“AI如何变革医疗”的深度思考。


相较于依赖通用大模型微调的路径,夸克健康大模型走出了一条面向垂直场景的深度工程化路线,释放出医学领域垂类模型的巨大潜力。


“我们不是在训练AI回答医学问题,而是在训练它学会医学思维”,夸克健康算法负责人徐健说。


目前,这一“主任级AI医生”已全面集成至夸克的AI搜索中,用户在查询健康问题时,选择深度搜索即可调用。


主任级AI医生,实测效果震撼


在中国医疗卫生系统中,主任医师是医生职称体系中的正高级别,代表着医生在专业领域的最高水平。


申报主任医师的考生往往已经是在临床一线工作十余年以上的资深专家。即便如此,其通过率仍仅维持在60%左右,足见难度之高。


此前,国内⼤模型多停留在临床执业医师资格考试阶段,只能拿到初级职称。而夸克则实现从初级到副高级职称再到正高级职称的“三级跳”。


在此次评测中,夸克健康大模型整体正确率达到了67.7%,显著超越DeepSeekV3、O3-mini等通⽤模型。



在垂类模型与通用模型对比中,夸克健康大模型呈现出难度越高、领先优势越明显的现象,展现出在复杂医学推理任务中的突破。



图:夸克模型诊断推理能力增强,从表象判断到深度病因分析


北京大学医学部皮肤与性病学系主任李厚敏对此给予高度评价,她表示,作为一名皮肤科医生,如何制定兼顾疗效、安全性与患者期望的综合治疗策略是一项巨大挑战。


在实际使用中,夸克会按照“控痘-祛痕-修复-管理”四步走,逻辑清晰,循序渐进;对异维A酸等关键药物明确了推荐累积剂量和冲击疗法参数,增强了方案的操作性与指导性。


安贞医院心脏外科主任医师谢进生表示,夸克在一些问题上回答专业度比专业医生还要强。


而对于患者而言,夸克健康大模型相当于随身配备一个主任医师级别的权威顾问,当遇到健康问题时,可以获得及时、专业、可靠的医疗支持。


无论是宝宝突发不适的新手父母,还是需要定期监测的慢性病患者,夸克可以胜任多样场景下的个性化健康需求。


值得注意的是,夸克健康大模型并非要取代医生,而是作为专业医疗体系的重要补充,缩短用户与优质医疗之间的距离。


打造全国“首个”,夸克凭什么?


对于日常对话来说,通用模型足矣,但对于医疗而言,垂类模型却是必选项。


这是医疗的天然属性决定的,它是一个依赖大量行业know-how的领域,需要对模型进⾏针对性的训练和评估。


这一挑战的本质在于清晰地界定模型从哪些数据、以何种方式学到哪些知识,因此真实数据、可靠推理和专业知识,成为医疗健康大模型的“铁三角”。

 

依托搜索入口的天然优势,夸克从2020年开始,历时5年,沉淀220万⽇活搜索⽇志、亿级医学知识图谱,以及带有ICD编码的《夸克医学术语集(Quark Med OmnisCT)》,为医疗场景中的任务多样性、术语标准化奠定基础。

 

为了满足大模型对训练数据的更高要求,夸克打造了“数据产线”,包含以⼤量真实医生标注为基础的结构化数据、专业医⽣⼈⼯标注数据以及高质量的思考数据。


这一成果背后是夸克组建的千人规模的专业医师标注团队,其中超过400名为副主任医师及以上的高资历医疗专家。

 

另外,夸克还构建了一个全⾯性、权威性、时效性兼具的医疗知识库,涵盖6万册教材指南、5000余万中英⽂⽂献、20余万药品说明书等,确保了模型输出内容专业、及时。


现代医疗实践中,医生在面对患者时并非简单地给出答案,而是通过有目的的提问、信息收集和逻辑推理,逐步形成诊断和决策。


然而,如何将这一复杂过程“内化”到模型的推理框架中,使其像人类医生一样进行思考和判断,一直是AI医疗面临的核心难题。


夸克健康大模型引⼊慢思考能力,融合了链式推理(Chain-of-Thought)与多阶段临床演绎路径建模,驱动模型在⾯对复杂医疗问题时,能够分阶段、层层深⼊地推导出最终答案。



此外,考虑到健康需求是一种低频刚需,用户通常是有健康需求或处于健康困扰,夸克通过偏好奖励模型对齐风格,使得回答体现出适度的情感关怀。



图:夸克健康大模型判断⽤户的潜在情绪,并优先进⾏情绪安抚


目前夸克已获得专业人群的广泛认可,吸引了一大批医学生和医生群体用户。


夸克健康运营负责人赵存忠介绍,目前平台在全国医学生中月活用户已突破 200 万,覆盖率过半。


医疗健康大模型 从渗透到全力加速


一直以来,医疗界存在着“不可能三角”,即诊疗的质量(看得好病)、可及性(看得上病)与成本(看得起病)不能被同时满足。


传统AI技术曾试图破解这一难题,却受限于单任务处理能力、严重的"幻觉"问题以及解释性不足等缺陷。


大模型的出现,开启了AI医疗的新篇章。其强大的语义理解/生成能力以及多模态融合,显著提升了准确性。


截止2023年底,中国行业大模型中医疗占比已达到 21.9%,医疗健康已经成为我国大模型的第一大应用场景。


而这一趋势,随着DeepSeek的横空出世进一步加速。


DeepSeek的影响已超越了单纯的技术突破范畴,它的“一炮而红”对终端用户更是一次直观且有力的市场教育,使得市场对医疗大模型从过去的“被动接受”转变为如今的“主动拥抱”。


数据显示,当前中国医疗大模型市场规模接近20亿元,未来预计以高达140%的年平均增长率,于2028年突破百亿元。


今年7月,信通院发布了基于大模型的患者医疗服务应用场景及能力分级框架,划分了L1到L5的能力标准,其中L4代表高级协同辅助决策。徐健的判断是,L4级别的、能与医生高级协同决策辅助的copilot时代基本到来。


最近一系列来自科技大厂以及学术界的证据也显示,医疗大模型正在接近这一更高级别智能水平的拐点演进。



包括微软CEO公开声称其诊断系统在疑难诊断上准确率远超人类医生、OpenAI的GPT4.1在HealthBench基准测试中的5个场景下已经超过医生的平均水平,以及近1年内Nature系列发21篇医学大模型论文,涵盖9个主要医学场景。


然而,要打造与医生高级协同决策辅助的模型,仅仅依靠GPT、DeepSeek们远远不够。


通用模型的出现固然提供了强大的基础能力,但医疗场景的特殊性和复杂性决定了,如何构建真正契合临床需求的垂类模型,才是亟待攻克的核心命题。


这是因为,垂类模型最终解决的是信任问题——而信任,恰恰是AI医疗的第一道关口,也是最高的壁垒。


要赢得用户的深度信赖,就要做到在每一次问答中都能提供如同资深医疗专家般专业、精准且可验证的判断,经受住临床实践中各种复杂场景的长期检验。


对此有深刻认识的夸克选择了一条难、慢但正确的道路,持之以恒地构建真正可信赖的模型和可信赖的服务。


从行业演进的角度看,通用模型是医疗大模型的起点,而垂类模型的成熟及其信任机制的建立才是其价值最大化并真正服务于临床实践的必由之路。夸克选择冲在最前面,为整个行业“打个样”。


写在最后


今年年初,世界经济论坛发布报告《人工智能驱动健康的未来:引领潮流》,认为全球医疗体系正站在重大转折点,AI的广泛应用将重塑医疗生态。


这是一个注定将被AI改写的万亿级赛道,而夸克健康大模型的战略价值正在于此,其不仅是撬动庞大医疗市场的支点,更是一个通向智慧健康时代的接口。


未来,随着模型效果的持续提升与规模效应的进一步显现,医生、患者及各类用户将形成更加紧密的连接,共同推动医疗健康行业向“创新、普惠、智能”的新范式跃迁。



文章来自微信公众号 “ 智药局 ”


AI中国

AI中国

7848 文章 1208777 浏览次数 950300 粉丝

评论 (0)

睡觉动画