为什么使用AI诊断癌症如此困难？

透视人体并诊断癌症的关键在于“模式识别”。放射科医生通过 X 射线和磁共振成像技术发现肿瘤，而病理学家则使用显微镜观察来自肾脏、肝脏等部位的组织，寻找那些能够揭示癌症严重程度、特定治疗效果以及恶性肿瘤可能转移路径的模式。

理论上讲，其实 AI 在这一领域大有可为。“我们的工作本质上就是模式识别。”梅奥诊所数字病理学平台的病理学家兼医学主任 Andrew Norgan 表示，“我们通过观察组织切片来提取那些已被证明具有重要意义的信息片段。”

自从 15 年前首批图像识别模型问世以来，AI 在视觉分析领域的能力已经取得了显著进步。尽管目前还没有任何模型能够做到完美，但我们可以想象，未来某天一个强大的算法或许能够发现人类病理学家可能忽略的细节，或者加速诊断过程。

事实上我们已经看到多个尝试构建此类模型的研究，仅在去年就有至少七项，然而这些模型目前仍然处于实验阶段。那么怎样才能让这些模型足够成熟并真正应用于临床呢？

本月早些时候，人工智能健康公司 Aignostics 与梅奥诊所合作开发的一个新模型发表在 arXiv 上。虽然该论文尚未经过同行评审，但它揭示了将此类工具应用于实际临床环境所面临的一系列挑战。

这个模型名为“Atlas”，它在来自 49 万例病例的 120 万份组织样本上进行了训练。研究人员将其与其他六种领先的 AI 病理模型进行了对比测试，例如分类乳腺癌图像或对肿瘤进行分级，将模型的预测结果与人类病理学家的正确答案相对比。结果显示，Atlas 在九项测试中有六项表现优于竞争对手，特别是在对结直肠癌组织的分类中，它达到了人类病理学家诊断一致性的 97.1%；然而在另一项任务中，Atlas 对前列腺癌活检中的肿瘤分类虽然得分超过了其他模型，但也仅为 70.5%。整体来看，在九项基准测试中的平均表现，它与人类专家相同的答案的占比为 84.6%。

就目前而言，了解癌变组织细胞状况的最佳方法仍然是由病理学家检查组织样本，因此 AI 模型的性能是以此为标准衡量的。尽管在某些检测任务中，最好的 AI 模型已经接近人类的水平，但在许多任务中仍然不及人类。那么，一个模型需要多高的准确性才能在临床上真正有用？

“ 90% 的准确率可能还不够，需要更高的水平。” Providence Genomics 的首席医疗官、GigaPath 联合创始人 Carlo Bifulco 表示。GigaPath 也是梅奥诊所研究中分析的其他 AI 病理模型之一。然而，Bifulco 指出，“即使 AI 模型未达到理想的准确性，在短期内仍可能带来帮助，比如协助病理学家加速诊断过程。”

那么挑战主要有哪些呢？首先是训练数据匮乏。

“美国只有不到 10% 的病理学样本实现了数字化。”Norgan 表示。这意味着组织样本通常被放在玻片上，通过显微镜分析，然后存储在庞大的档案中，而从未被数字化记录。虽然欧洲的病理样本数字化程度更高，并且已经在努力创建共享的组织样本数据集来供 AI 模型训练，但仍然没有太多可供使用的多样化数据。

缺乏多样化的数据会导致 AI 模型难以识别那些人类病理学家已经掌握的各种异常情况，这尤其影响罕见疾病的识别。Aignostics 的联合创始人兼首席技术官 Maximilian Alber 指出，“对于这些罕见疾病的组织样本，在公开数据库中可能十年内只能找到 20 个样本，显然这远远不足以用来训练 AI 模型。”他说。

事实上，2022 年梅奥诊所就意识到训练数据不足可能成为 AI 发展的重大障碍。因此，他们决定将所有病理样本进行数字化，并将其档案中数十年来积累的 1200 万张经过患者同意的样本切片进行数字化。为此，他们还专门聘请了一家公司研发了一台机器人对这些组织样本拍摄高分辨率照片（每月能够处理多达一百万个样本）。通过这些努力，团队最终收集到了用于训练“Mayo 模型”的 120 万份高质量样数据。

这又引出了 AI 癌症诊断的第二个问题。活检组织样本的直径通常只有几毫米，但在显微镜下放大后，数字图像的像素数量可达到超过 140 亿，这使得这些样本的图像大小比目前用于训练最佳 AI 图像识别模型的普通图像大约大了 287,000 倍。

“显然，这意味着巨大的存储成本等问题。”微软 AI 研究员 Hoifung Poon 表示。他与Bifulco 合作开发了 GigaPath，这款模型的相关研究于去年发表在了 Nature 上。但这些技术挑战也迫使研究人员做出重要选择，包括如何确定图像的哪些部分应用于训练 AI 模型，以及哪些细胞可能因此被忽略。为了创建 Atlas，梅奥诊所采用了一种称为“切片”的技术，基本上是从同一个样本中生成大量快照输入 AI 模型。而如何选择这些切片既是一门艺术，也是一门科学，但目前仍不清楚采用哪种方式能够带来最佳结果。

第三个问题则是针对癌症检测的 AI 模型应该以哪些基准作为评价标准。Atlas 的研究人员在复杂的分子相关基准上测试了他们的模型，其中包括尝试从样本组织图像中寻找线索，从而推测分子层面发生的情况。例如，身体的错配修复基因在癌症发生和发展过程中扮演重要角色，这些基因负责修复 DNA 复制过程中出现的错误，但如果这些错误未被修复就可能加速癌症恶化。

“有些病理学家可能会告诉你，当他们观察到某些特定的组织外观时，会直觉性地想到错配修复缺陷。” Norgan 说道。不过，病理学家通常不会仅凭直觉得出结论，而是依赖分子测试来获取明确的答案。Norgan 进一步指出，如果 AI 能够预测分子层面的变化呢？这种实验背后的关键问题是，AI 是否能够发现人类肉眼无法捕捉的潜在分子变化，如果能够实现，那将显著提升病理诊断效率和精准度。

事实证明，答案是否定的，至少目前如此。在分子测试中，Atlas 的平均准确率仅为 44.9%。尽管这是迄今为止 AI 在该领域的最佳表现，但这一结果也意味着这项技术距离成熟和实际应用还有很长的路要走。

Bifulco 表示，尽管 Atlas 只代表了渐进式的进展，但这确实是在进步。他坦言：“遗憾的是，我感觉大家都在同一个水平上停滞不前，如果要实现显著的进展，我们需要在模型上有不同的突破，并且需要更大的数据集来训练这些模型。