Nature观点，人工智能在医学中的测试一片混乱，应该怎么做？

2024年8月26日修改

机器之心 ScienceAI｜阅读原文

转载请联系原作者取得授权

common.docs_name - LarkCCM_Docs_Menu_Image

编辑 | ScienceAI

基于有限的临床数据，数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具，以及如何最好地进行测试。​

当 Devin Singh 还是一名儿科住院医师时，他曾在急诊室照顾过一个因长时间等待救治而心脏骤停的儿童。「我记得，当时我给这个病人做心肺复苏，感觉那个孩子快要死了。」他说。Singh 对孩子的死感到十分伤心，他曾想过，如果能缩短等待时间，是否就能避免这种情况。​

经历了这件事，他想，如果将自己的儿科专业知识与计算机科学结合起来，看看 人工智能 (AI) 是否有助于缩短等待时间。Singh 利用自己目前工作的加拿大多伦多儿童医院 (SickKids) 的急诊室分诊数据，他和同事们建立了一系列 人工智能 模型，这些模型可以提供潜在的诊断，并指出可能需要进行哪些测试。​

「例如，如果我们能够预测一个病人很可能患有阑尾炎，需要进行腹部超声检查，那么我们就可以在患者到达后几乎立即自动安排检查，而不是让他们等待 6-10 小时才能就诊。」他说。​

一项研究使用 SickKids 77000 多次就诊的回顾性数据，表明这些模型将加快 22.3% 的就诊速度，将每位需要进行医学检查的患者的结果处理速度加快近 3 小时。然而， 人工智能 算法在此类研究中的成功只是验证此类干预措施是否会在现实生活中帮助人们的第一步。​

利用机器学习医疗指令（MLMD）在急诊科（ED）自主订购测试的方法。（来源：jamanetwork.com）

正确测试用于医疗环境的 AI 系统是一个复杂的多阶段过程。但发布此类分析结果的开发人员相对较少。一项综述显示，2020 年至 2022 年期间仅发表了 65 项 AI 干预的随机对照试验。与此同时，美国食品药品监督管理局 (FDA) 等监管机构已批准数百种 AI 驱动的医疗设备供医院和诊所使用。​

「医疗保健机构发现许多获批的设备没有经过临床验证。」加利福尼亚州洛杉矶西达赛奈医疗中心 (Cedars-Sinai Medical Center) 的心脏病专家 David Ouyang 说。一些医院选择自己测试此类设备。​

尽管研究人员知道理想的 AI 干预临床试验应该是什么样的，但在实践中，测试这些技术具有挑战性。实施取决于医疗保健专业人员与算法的互动程度：如果人类忽略了它的建议，一个完美的工具也会失败。AI 程序对它们所训练的人群和它们旨在帮助的人群之间的差异特别敏感。此外，目前还不清楚如何最好地向患者及其家属介绍这些技术，并征求他们的同意使用他们的数据来测试这些设备。​

一些医院和医疗保健系统正在试验在医学中使用和评估 AI 系统的方法。随着越来越多的 AI 工具和公司进入市场，各组织正在聚集在一起，就哪种评估最有效、最严格达成共识。​

谁在测试医疗 AI 系统？

基于 AI 的医疗应用，例如 Singh 正在开发的应用，通常被药品监管机构视为医疗设备，包括美国 FDA 和英国药品和保健产品监管局。因此，审查和授权使用的标准通常不如药物标准严格。只有一小部分设备（可能对患者构成高风险的设备）需要临床试验数据才能获得批准。​

许多人认为门槛太低了。当费城宾夕法尼亚大学的重症监护医生 Gary Weissman 审查其领域内 FDA 批准的 AI 设备时，他发现，在他确定的十种设备中，只有三种在授权中引用了已发布的数据。只有四个提到了安全评估，没有一个包括偏见评估，该评估分析该工具的结果是否对不同患者群体公平。「令人担忧的是，这些设备确实可以并且确实会影响床边护理。」他说，「患者的生命可能取决于这些决定。」​

缺乏数据使得医院和医疗系统在决定是否使用这些技术时处于困境。在某些情况下，财务激励措施会发挥作用。例如，在美国，健康保险计划已经为医院使用某些医疗 AI 设备提供报销，这使得它们在经济上具有吸引力。这些机构也可能倾向于采用承诺节省成本的 AI 工具，即使它们不一定能改善患者护理。​

Ouyang 说，这些激励措施可能会阻止 AI 公司投资临床试验。「对于许多商业企业来说，你可以想象，他们会更加努力地确保他们的 AI 工具可以报销。」他说。​

不同市场的情况可能有所不同。例如，在英国，由政府资助的全国性健康计划可能会在医疗中心购买特定产品之前设置更高的证据门槛，英国伯明翰大学研究 人工智能 负责任创新的临床研究员 Xiaoxuan Liu 说，「这样，企业就有动力进行临床试验。」​

一旦医院购买了 人工智能 产品，他们就不需要进行进一步的测试，可以像使用其他软件一样立即使用它。然而，一些机构认识到，监管部门的批准并不能保证该设备真正有益。所以他们选择自己测试。Ouyang 说，目前许多这样的努力都是由学术医疗中心进行和资助的。​

阿姆斯特丹大学医学中心重症监护医学主任 Alexander Vlaar 和同一机构的麻醉师 Denise Veelo 于 2017 年开始了一项这样的尝试。他们的目标是测试一种旨在预测手术期间低血压发生的算法。这种被称为术中低血压的状况可能导致危及生命的并发症，如心肌损伤、心脏病发作和急性肾衰竭，甚至死亡。​

该算法由位于加利福尼亚州的 Edwards Lifesciences 公司开发，使用动脉波形数据——急诊科或重症监护室监视器上显示的带有波峰和波谷的红线。该方法可以在低血压发生前几分钟预测到它，从而实现早期干预。​

Nature观点，人工智能在医学中的测试一片混乱，应该怎么做？​

Nature观点，人工智能在医学中的测试一片混乱，应该怎么做？