专栏名称: 解螺旋
解螺旋——医生科研最好的帮手。无论你是科研零基础,抑或初窥门径,你都可以在解螺旋获得极大的提升,从而面对基金、论文、实验游刃有余。解螺旋课堂是所有热爱科研技能学习的医生聚集地,解螺旋会员是医生科研全方位的贴心助手,加入我们,体验改变。
目录
相关文章推荐
Clinic門诊新视野  ·  探索|LVAD技术进展——应对挑战,塑造MC ... ·  2 天前  
医学影像沙龙  ·  不典型肺结核有哪些特点?怎么诊断? ·  4 天前  
医学影像沙龙  ·  全身各系统常见病MRI诊断... ·  4 天前  
51好读  ›  专栏  ›  解螺旋

58分Nature顶级子刊重磅综述来袭!为你细数AI大爆炸时代,人工智能在医学中的应用!

解螺旋  · 公众号  · 医学  · 2025-02-03 17:30

正文

解螺旋设为星标  ⭐,才能准时收到推送哦~


解螺旋公众号·陪伴你科研的第3936天

AI对医学的影响

目前人工智能在医学中的大多数应用都是使用一种数据模式来解决小范围内的任务,例如计算机断层 (CT) 扫描或视网膜照片。但临床医生会综合多源、多模态的数据,进行诊断、预后评估和制定治疗方案。在这篇综述中,作者探索了多模态数据集在医疗健康中的应用,以及面临的关键挑战和有希望的策略

2022年9月15日,来自哈佛医学院的Pranav Rajpurka教授及其团队给大家带来的题为“Multimodal biomedical AI”的文章,发表在《nature medicine》(IF=82.9)杂志上,文中提到了多模态生物医学人工智能,让我们一起来瞧一瞧吧。



摘要


来自大型生物资料库(Biobanks)、电子健康记录(Electronic Health Record, EHR)、医学成像、可穿戴和环境生物传感器的生物医学数据日益增加,同时基因组和微生物组测序成本越来越低,这些都为开发多模态人工智能解决方案奠定了基础,进而对人类复杂的健康和疾病状态加以了解。在这一综述中,我们概述了现有的关键应用程序,以及技术和分析面临的挑战。也探索了在个性化医疗、数字临床试验、远程监测和护理、流行病学监测、数字孪生技术和虚拟健康助手方面的机遇。此外,我们还调研了在数据、建模和隐私保护等方面无法避免的困难,以发挥多模态人工智能在健康领域的全部潜力。


正文


尽管人工智能 (AI) 工具已经改变了许多领域(如,文本翻译、语音识别和自然图像识别),但在医学领域却较为落后。部分原因是数据的复杂性和高维性——换句话说,数据中包含大量特有的特征或信号——导致在开发和验证能够推广到不同人群的解决方案方面面临着技术上的严峻挑战。如今,随着基因组测序和相关“组学”技术成本的降低,可穿戴传感器的广泛使用,数据采集、聚合和分析能力也得到大幅提高。总的来说,这些技术的发展为新工具的产生奠定了基础也产生了需求。新工具可以综合处理多源的数据,并在生物医学发现、诊断、预后、治疗和疾病预防等方面提供帮助。

目前人工智能在医学中的大多数应用都是使用一种数据模式来解决小范围内的任务,例如计算机断层 (CT) 扫描或视网膜照片。但临床医生会综合多源、多模态的数据,进行诊断、预后评估和制定治疗方案。此外,当前的 AI 评估通常是基于执行评估时刻的瞬时判断,忽略了身体状态的连续性。然而理论上,人工智能模型应该能够纳入临床医生可用的所有数据源,甚至考虑医生无法使用的数据源(例如,大多数临床医生对基因组医学了解不深)。多模态 AI 模型的开发包含跨模态的数据——如生物传感器、遗传学、表观遗传学、蛋白质组学、微生物组学、代谢组学、图像数据、文本数据、临床信息、社会因素和环境数据等——有望部分弥补这一差距并实现个体化医疗、集成流行病监测、数字临床试验、虚拟健康助手等应用(图 1)。本文我们探讨了这种多模态数据集在医疗健康中的应用;接着我们讨论了面临的关键挑战和有希望的策略。本文不会讨论人工智能和机器学习的基本概念,但可参见其他综述文章。


图1.

Data modalities and opportunities for multimodal biomedical AI.


利用多模态数据的可能


1

个性化“组学”数据实现精准医疗


随着过去 20 年测序技术的长足发展,使用新技术测得的细粒度生物数据的数量发生了革命性的变化。这些数据统称为“组”,包括基因组、蛋白质组、转录组、免疫组、表观基因组、代谢组和微生物组等。这些组学数据可以在样本(Bulk)或单细胞水平上进行分析。而许多医学问题(如癌症)在组织水平上是异质(heterogeneous)的,并且大部分都具有生物学上细胞和组织的特异性。


各种组学在不同的临床和研究环境中都有重要价值。恶性肿瘤基因和分子标志物的检测已被纳入临床实践, FDA也批准了几种诊断设备和核酸检测方法。例如,Foundation Medicine and Oncotype IQ提供全面的基因组分析,针对基因组的主要变化(alteration)类别量身定制,最终目标是寻找可能的治疗靶点。除了分子标记物以外,液体活检样本(如血液和尿液等易于获取的体液)正在成为精准肿瘤学分析中广泛使用的工具,其中一些基于循环肿瘤细胞(circulating tumor cells)和循环肿瘤 DNA 的测试已获得 FDA 批准。在过去 15 年中,肿瘤领域以外的遗传数据的可用性和数据共享发展迅速,这使得进行全基因组关联研究(GWAS)和人类复杂条件下遗传结构的表征(characterization of the genetic architecture of complex human conditions)成为可能。这提高了我们对生物通路的理解,并产生了能捕获个体对复杂性状的总体遗传倾向的多基因风险评分(polygenic risk scores)等工具,并且可能有助于风险分级、个性化治疗以及在临床研究中筛选出最有可能从干预措施中受益的参与者,以促进相关实验被试者的招募。


将这些差异巨大的不同数据综合分析仍具有挑战。当然,克服这一挑战有至关重要的意义,即将电子健康记录 (EHR) 和影像数据、组学数据的整合有望进一步加强我们对人类健康的理解,并实现精准、个性化的预防、诊断和制定治疗策略。目前已经有数种方法将多组学数据整合用于精准医疗。例如图神经网络(Graph Neural Networks),这是处理计算图(一种常用的数据结构,包括节点和边,分别表示概念或实体和节点之间的连接或关系)的深度学习模型架构——从而帮助科学家解释多组学数据的关联结构,以提高模型的性能。另一种方法是降维,包括 PHATE 和 MultiscalePHATE 等新方法,它们可以在不同粒度下表示生物和临床数据的低维表示法,这些方法已在新冠肺炎疫情中被证明可以预测临床预后。


在癌症方面,克服与数据获取、共享和准确标记相关的挑战,可能会带来有效的工具,利用个性化多组学数据与组织病理学、影像学和临床数据结合来提供更为准确的临床轨迹并改善患者预后。组织病理学、形态学数据与转录组学数据的结合,产生了空间转录组学,构成了一种新颖且有前景的方法学进展,这允许研究者在空间视角中对基因表达进行更细粒度的研究。值得注意的是,研究人员引用深度学习方法仅利用组织病理学图像来预测空间水平下基因表达情况,且这些图像中的形态特征不是由专家人为识别的,这可能会提高这种技术的实用性并降低成本。


基因数据的成本越来越低,且同一个体仅需一次检测,但仅基因组数据本身的预测能力相对有限。将基因组学数据与其他组学数据相结合,可以捕获更多实时动态的信息,了解对象遗传背景和环境暴露的特定组合间的相互作用以评估连续可量化的健康状况(quantifiable continuum health status)。例如,Kellogg 等进行了个体多组学(N-of-1)研究,进行全基因组测序 (WGS) 和其他组学(转录组、蛋白质组、代谢组、抗体和临床生物标志物)的定期测量;多基因风险评分结果可以提示 II 型糖尿病的风险增加,而对其他组学数据的综合分析能够早期探测和剖析从健康到疾病的变化中信号传导网络的变化。


随着技术的发展,WGS 性价比逐渐提高,促进了临床生物标志物数据与现有基因数据的结合,从而快速诊断以前难以检测的疾病。最终,我们期待有能力开发包含多组学数据的多模态人工智能工具,实现对个体进行深表型分析(deep phenotyping);换句话说,真正了解每个人的生物特异性和其对健康的影响。


2

数字临床试验


随机临床试验是临床中针对新的诊断、预后和治疗干预措施,研究其因果关系并提供证据支持的金标准。不幸的是,计划和执行高质量的临床试验不仅耗时(通常需要很多年才能招募足够的志愿者并及时跟进试验),而且会产生高昂的经济成本。此外,地理、社会文化和经济差异会导致这些研究中各组的代表性(representation)较弱。这会对结果的普遍性产生影响,并导致生物医学研究中普遍存在的代表性不足进一步加剧了临床试验的差异。数字化临床试验可以通过减少志愿者注册和跟进的障碍,促进志愿者参与、优化试验测量方法和干预措施,为克服上述限制提供前所未有的帮助。同时,使用数字技术可以优化志愿者提供信息的粒度,从而提高研究的价值。


来自可穿戴技术的数据(包括心率、睡眠、身体活动、心电图、氧饱和度和血糖监测)和智能手机自主问卷可用于监测临床试验患者、识别不良事件和确定试验结果。此外,最近的研究强调了来自可穿戴传感器的数据在预测实验室结果方面的潜能。因此,引入了数字设备的研究在过去几年迅速增长,复合年增长率约为34%。这些研究大多使用来自单个可穿戴设备的数据。一项开创性的试验使用了“创可贴” ——用于检测心房颤动的贴片传感器;远程注册的志愿者可以通过邮寄方式收到试验传感器,而无需前往线下试验点,这为数字化临床试验奠定了基础。在新冠肺炎疫情期间开展了许多使用可穿戴设备检测新冠病毒的远程试验。


有效地将来自不同可穿戴传感器的数据与临床数据相结合,既是挑战也是机遇。数字临床试验可以利用志愿者的多源数据实现自动表型化(automatic phenotyping)和亚组分析,对于适应性临床试验(adaptive clinical trial)来说,数字临床试验有利于根据持续试验结果实时对试验进行设计。未来,我们期待数据可用性的提高和创新多模态学习技术(multimodal learning techniques)将促进数字临床试验的发展。值得注意的是,谷歌最近在时间序列分析中的成果证明了基于注意力机制(attention-based)的模型架构有望结合静态数据和时序输入来实现可解释的时间序列预测。这里提出一种假设,这种模型可以自行决定其关注的特征,如关注静态特征(如遗传背景)、已知的时序特征(如一天中的时间),亦或测量得到的特征(如当前血糖水平),以预测未来发生低血糖或高血糖的风险。最近有人提出,图神经网络可以通过利用传感器间信息的连接特性来解决多个健康传感器的数据丢失或数据采样不规则的问题。


临床试验中针对患者必要的招募和跟进至关重要但仍然是一个挑战。在这种情况下,人们逐渐倾向于使用合成对照方法(synthetic control methods),即使用外部数据实现对照。尽管合成对照试验仍相对新颖,但 FDA 已经根据历史对照批准了一些药物,并使用实际产生的数据开发了一个框架。利用来自多模态数据的 AI 模型可能有助于识别或生成最优化的合成对照组。


3

远程监控:“家中医院”


随着生物传感器、持续性监测和分析设备的发展,在家中模拟医院环境变成了可能。这种十分具有前景的预想可以显著降低医疗成本,减少对医疗人员的工作压力,避免医院感染和医疗事故的发生,以及与家人在一起的舒适、便捷和情感支持。


在这种环境下,可穿戴传感器在远程患者监护中发挥着至关重要的作用。类似智能手表或手环等能够准确测量多种生理指标的平价非侵入性设备大量出现。将这些数据与来自 EHR 的数据结合起来——使用诸如快速医疗互操作性资源(Fast Healthcare Interoperability Resources)等标准,来查询患者潜在疾病风险信息,可以为患者和护理人员创造更加个性化的远程监控模式。环境无线传感器也可以收集有价值的数据。环境传感器是环境集成设备,如房间、墙壁或镜子,主要形式为摄像机、麦克风、深度摄像机和无线电信号等。这些环境传感器可能会改进家庭和医疗机构的远程护理系统。


来自多模态数据和传感器收集的数据相整合使得远程监测患者状态的可行性大大提高,并且有研究证明多模态数据在这些场景中的潜力。例如,环境传感器(如深度摄像头和麦克风)与可穿戴设备数据(测量身体活动的加速度计)的结合可以提高跌倒检测系统的可靠性,保持较低的误报率,并改善步态分析性能。通过洗澡、穿衣和进食等日常活动及早发现身体功能损害对于提供及时的临床护理非常重要,而利用可穿戴设备和环境传感器的多模态数据可能有助于对这些行为进行准确检测和分类。


除了管理慢性或退行性疾病外,多模态远程患者监测(multimodal remote patient monitoring)也可用于急性疾病。MayoClinic 最近开展的项目展示了远程监测 COVID-19 患者的可行性和安全性。家中医院应用的远程患者监测尚未得到验证,其需要将基于多模态 AI 的远程监控模式与住院治疗模式进行随机对照试验,以证实其安全性。我们需要能够预料随时恶化的病情并进行系统性干预,而这些尚无法实现。

4

传染病监测和防控


当前新冠肺炎疫情突出了以国家和州为单位对传染病进行有效监测的必要性。一些国家顺利地整合了来自轨迹图、手机信号和健康服务数据的多模态数据,以预测疫情传播并定位密接人群和可能的感染者。

也有研究证明了利用可穿戴设备跟踪静息心率和睡眠时间可以改善美国对流感样疾病的监测。这一案例演变为早期控制和治疗 (Digital Engagement and Tracking for Early Control and Treatment, DETECT) 健康研究,该研究由Scripps Research Translational Institute发起,作为一种基于应用程序的研究项目,旨在分析来自可穿戴设备的各种数据集,以便快速检测出现流感、冠状病毒和其他快速传播的病毒性疾病。该计划的一项后续研究表明,相对于单一监测模式,综合分析参与者自述的症状和传感器指标数据有更好的分类COVID-19患者阳性的准确率(ROC曲线下面积为0.80,95% 置信区间为0.73-0.86)。

多模态 AI 模型在疫情防控中的其他多个应用经过测试取得了可喜的结果,但仍需要进一步验证和重复这些结果。


5

数字孪生


目前,我们依靠临床试验作为评估是否成功干预的最佳证据。在100名被试中可能仅有10人成功的措施也会被认为是有效的,尽管其他90人的干预结果无法证实有效。一种称为“数字孪生”的方法可以填补知识的空白。这种方法通过利用大数据生成模型并准确预测某种干预对特定患者产生何种有益或有害的结果。


数字孪生技术是由工程学衍生的概念,其使用计算模型对复杂系统(例如,一座城市、一架飞机或一名患者)来开发和测试不同的策略或方法,这会比在实际场景中进行测试更快、更划算。在医疗健康领域,数字孪生技术对药物靶点检测十分有前景。


在精准肿瘤学(Precision Oncology)和心血管健康中已经提出了使用AI工具整合来自多个来源的数据以开发数字孪生模型的报道。目前也有开源模块化的框架(open-source modular framework)来开发应用于医学的数字孪生模型。从商业角度来看,Unlearn.AI 开发并测试了一种利用不同的临床数据集构建数字孪生模型,来增强阿兹海默症和多发性硬化症(multiple sclerosis)的临床试验。


考虑到人体的复杂性,发展准确实用的医学数字孪生技术需要汇总多组学数据、生理传感器数据、临床信息和社会人口学数据(sociodemographic data)等。这需要公共卫生体系、研究人员和各类企业之间的广泛合作,如瑞典数字孪生联盟(Digital Twins Consortium)。美国临床肿瘤学会(American Societyof Clinical Oncology)通过其子公司 CancerLinQ 开发了一个可以通过癌症患者数据,指导并改善治疗方案的平台。因此开发具有从多模态数据中进行有效学习并进行实时预测的 AI 模型至关重要。

6

虚拟健康助手


过去几年,超过三分之一的美国消费者购买了智能音箱。然而,虚拟健康助手,即可以为人们的健康需求提供建议的数字人工智能管家,迄今为止尚未得到广泛开发,目前市场上的虚拟健康助手通常仅应用于特定场景。此外,根据最近对健康类语音助手应用程序的综述研究发现,其中大多数应用依赖于设定好的应答规则和预先设定的程序主导的对话。

尽管目前的虚拟健康助手大多不是基于多模态人工智能的狭义虚拟健康助手,目前最受欢迎的应用之一是糖尿病护理助手。Verily(Alphabet) 的 Virta health、Accolade 和 Onduo 都开发了旨在针对糖尿病控制的应用程序,其中一些应用程序表明遵循这些程序的个体血红蛋白 A1c 水平得到改善。其中许多公司已经或正在扩展到其他应用场景,例如高血压和肥胖。虚拟健康助手也可以应用于偏头痛、哮喘和慢阻肺(COPD)等常见疾病。不幸的是,这些应用多数仅进行了小规模观察性测试,仍需包括随机临床试验等深入研究,来评估它们的益处。


展望未来,在人工智能模型中集成多个数据源将促进广泛关注的个性化虚拟健康助手的发展。虚拟健康助手可以利用基于基因组测序、其他组学、持续监测的血液生物标志物和代谢物、生物传感器和其他相关生物医学数据的个性化配置文件——以改善患者行为、回应健康咨询问题、症状分类或适时与医护人员沟通。但重要的是,这些虚拟健康助手需要通过随机试验证明对临床结果的积极影响,以在医学领域获得更为广泛的认可。由于这些应用程序中的大多数都侧重于提供更为健康的行为选项,因此它们需要提供这些选择能够影响健康的证据,这是大多数干预措施成功转化的最终途径。


要充分发挥集成多模态数据人工智能的虚拟健康助手的潜力,我们还有很长的路要走,包括下面即将讨论的技术挑战、数据挑战和隐私挑战。鉴于对话式 AI的快速发展,以及日益精妙的多模态学习方法的发展,我们期待数字健康应用未来与AI相结合,提供精准和个性化的健康指导。


收集多模态数据


开发数据驱动的多模态应用程序的首要要求是收集、整理具有表型和注释的数据集,因为无论何种复杂的技术都只能从数据中获得信息。在过去 20 年中,许多国际研究为促进精准医疗收集了多模态数据(如表 1)。在英国,UK Biobank 于 2006 年开放注册,最终参与者超过 500,000人,并计划在注册后跟踪参与者至少 30 年。这个大型生物库从参与者处收集了多方面的数据,包括社会人口学信息、生活方式、物理测量、生物样本、12导联心电图和EHR数据。此外,几乎所有参与者都进行了全基因组阵列基因分型(genome-wide array genotyping),最近还进行了蛋白质组、全外显子组测序和全基因组测序(WGS)。一部分人还接受了脑磁共振成像 (MRI)、心脏 MRI、腹部 MRI、颈动脉超声和双能 X 射线吸收测定(dual-energy X-ray absorptiometry),并包括至少两个时间点的重复成像。


表1
Examples of studies with multimodal data available.

其他国家也开展了类似的研究,例如中国Kadoorie Biobank和Biobank Japan。在美国,退伍军人事务部于 2011 年启动了百万退伍军人计划,旨在招募 100 万名退伍军人为科学发现做出贡献。美国国立卫生研究院 (NIH) 资助的两项重要工作包括 Trans-Omics for Precision Medicine (TOPMed) 计划和 All of Us Research计划。TOPMed收集 WGS 并将这些遗传信息与其他组学数据整合。All of Us 研究计划是 NIH 的另一项新颖且雄心勃勃的计划,该计划已在美国招募了约 400,000 名不同的参与者并计划在美国招募一百万人。同时这一项目主要招募那些来自被广泛定义为代表性不足的群体的志愿者来参与生物医学研究,这在医学 AI中尤为重要。

除了这些大型的国家级工程之外,多方机构也在少数群体中建立了深入的、多模态的数据资源。由 Verily 资助并与斯坦福大学、杜克大学和加州健康与长寿研究所合作管理的 Project Baseline Health 研究旨在招募至少 10,000 人(最初由 2,500 名参与者开始启动),收集广泛的多模态数据,最终目标是演变成一个综合的虚拟面对面(virtual-in-person)研究。另一个例子是,美国肠道计划从几个国家的自选(self-selected)参与者处收集微生物组数据。这些参与者还完成了关于健康状况、疾病史、生活方式数据和饮食频率的调查。由麻省理工学院组织的重症监护医疗信息集市 (Medical Information Mart for Intensive Care, MIMIC) 数据库则是多维数据收集和整合的另一个例子,目前已发布第四版。MIMIC 是一个开源数据库,其中包含来自贝斯以色列女执事医疗中心重症监护病房的数千名患者的脱敏数据(de-identified data),包括人口统计信息、EHR 数据(例如,诊断、药物使用和住院情况及实验室数据和生理数据,例如血压或颅内压值等)、影像数据(例如胸片),在某些版本中,还包括自然语言文本,例如放射检查报告和医疗记录。这种数据粒度对数据科学和机器学习的发展很有帮助,MIMIC 已成为人工智能模型的基准数据集之一,旨在预测肾衰竭等临床事件的发展及生存率和再入院等结果。


这些数据集包含的多模态数据可能有助于在一系列不同任务中实现更好的诊断性能。例如最近的工作表明,影像数据和 EHR 数据的组合在识别肺栓塞和区分急性呼吸衰竭的常见原因(如心力衰竭、肺炎或COPD)方面优于单独使用一种数据。密歇根州的健康预测活动和临床轨迹 (MIPACT) 研究构成了另一个例子,参与者提供了来自可穿戴设备、生理数据(血压)、临床信息(EHR 和调查)和实验室的数据。北美 Prodrome 纵向研究是另一个例子。这个多中心计划招募了许多被试个体,并收集了人口学、临床信息和血液生物标志物数据,目的是了解精神病的前驱(prodromal)阶段症状。如用于早期精神病管理的个性化预后工具等其他专注于精神疾病的研究也收集了多种类型的数据,并为多模态机器学习工作流程的开发提供了帮助。

技术挑战


1

实施和建模挑战


健康数据实质上是多模态的。我们的健康状况受许多复杂的社会、生物和环境因素影响。此外,这些因素都是层次化的,数据从宏观层面(例如,疾病存在或不存在)抽象到深入的微观层面(例如,生物标志物、蛋白质组学和基因组学)。此外,当前的医保系统添加了多模态数据:如尽管病情在 EHR 中以自然语言和表格数据记录,系统可以将放射影像数据和病理学图像与来自其各自报告的自然语言数据相匹配。

多模态机器学习(也称为多模态学习)是机器学习的一个子领域,核心是模型的开发与训练,这些模型可以利用多种不同类型的数据,并学习如何将这些多模态数据关联或组合起来,以提高预测性能。一种大有前景的方法是学习和不同模态数据相似的准确表示(例如,苹果的图片可用单词“apple”类似地表示)。2021 年初,OpenAI 发布了一种称为对比语言图像预训练 (Contrastive Language Image Pretraining, CLIP) 的架构,该架构在对数百万个“图像-文本对”进行训练时,无需微调参数,即可与具有竞争力的全监督模型性能相媲美。CLIP 的灵感来自医学成像领域开发的一种类似方法,称为从文本中学习的对比视觉表示 (Contrastive Visual Representation Learning from Text, ConVIRT)。使用ConVIRT,图像编码器和文本编码器被训练以通过学习正确配对的图像和文本示例的最大相似性和错误配对示例的最小化相似性来生成图像和文本表示——这称为对比学习。这种用于配对图像-文本协同学习的方法最近已被用于胸部 X 光片及其相关文本报告的模型训练,结果优于其他自监督和全监督的方法。其他集成来自图像、音频和文本多模态数据的架构也陆续被开发公布,如 Video-Audio-Text Transformer,它使用视频来获得配对的多模态图像、文本和音频,并训练准确的多模态表示,能够在许多任务中进行有效泛化——例如识别视频中的动作、对音频事件进行分类、对图像进行分类以及为输入文本选择最合适的视频。

多模态学习框架的另一个理想特性是能够在同一框架下学习不同模态的数据特征。理想情况下,一个统一的多模态模型将包含不同类型的数据(图像、生物传感器数据以及结构化和非结构化文本数据等),以灵活和稀疏的方式对这些不同类型的数据信息进行编码(即特定任务与特定模块相对应),对跨模态的相似概念进行配准,如狗的图片和单词“狗”应该具有相似的模型内部表示, 并根据需求提供任意模态的输出。

在过去的几年里,已经从具有强烈特定模态偏差的架构,如用于图像分析的卷积神经网络(CNN),或用于文本和生理信号的递归神经网络(RNN),逐渐转变产生了Transformer架构,该架构在多个领域对多种输入输出方式都有出色的表现。Transformer的关键创新在于能够动态判断每一个模块的重要程度(译注, 即在神经网络的基础上引入attention机制,通过Q, K, V矩阵实现动态加权判断)。Transformer最初是为自然语言处理提出的,因此提供了一种通过关注输入句子的其他单词来预测每个单词的上下文的方法,该架构目前已成功扩展到其他模态。

在自然语言处理中的每个输入标记(input token),即处理的最小单元,对应一个特定的单词,而其他模态通常使用图像或视频片段的片段作为输入标记。Transformer 架构允许我们集成多模态学习,但可能仍需要依赖于特定模态的标记化和编码方式。Meta AI (Meta Platforms) 最近的一项研究提出了一个统一的自监督学习框架,该框架中关注的模态是相互独立的,但仍需要基于特定模态进行预处理和训练。自监督多模态学习的基准(benchmarks)使我们能够衡量跨模态方法的进展:例如,最近提出的自监督学习的领域无关基准 (Domain-Agnostic Benchmark for Self-supervised learning, DABS)包括胸部X射线、传感器数据、自然图像和文本数据等。

DeepMind (Alphabet)的最新进展,包括 Perceiver和 Perceiver IO,提出了一个具有相同的主干架构的跨模态学习框架。重要的是,Perceiver 架构的输入是与模态无关的(modality-agnostic)字节数组,通过注意力机制瓶颈限制来压缩输入信息以避免内存消耗,即限制信息流的架构特征为字节数组,迫使模型选择数据中最相关的因素(图 2a)。处理输入数据后,Perceiver可以将表征馈送到最终的分类器层(classification layer)以获得每个输出类别的概率,而Perceiver  IO 可以通过指定Query向量(译注,Transformer模型中表示查询向量,类似搜索引擎输入的关键字)将这些信息解码为指定模态的输出,例如像素文件、原始音频和分类标签等。例如,除了治愈的概率外,该模型还可以预测脑肿瘤发病的影像数据。


图2

Simplified illustration of the novel technical concepts in multimodal AI.


Transformer框架的另一个前景在于能够使用无标记的数据,这在生物医学 AI 中至关重要,因为获得高质量标注所需的资源有限且昂贵。上文提到的许多方法都需要来自不同模态的配对(aligned)数据如图像-文本对等。DeepMind 的一项研究表明,管理更高质量的图像-文本数据集可能比生成大型单模态数据集以及算法开发和训练更重要。然而,这些配对数据在生物医学 AI中可能并不容易获得。这一问题的一种解决方案是利用一个模态的数据来辅助与另一个模态学习即一种多模态学习方式——“共同学习”(co-learning)。例如,一些研究表明,在未标记语言数据上预训练的Transformer模型可以很好地泛化到其他多种任务中。在医学领域中,一种称为“CycleGANs”的模型架构,经过非配对对比(unpaired contrast)和非对比(non-contrast) CT 扫描的训练,已被用于生成合成的非对比或对比 CT 扫描数据,这种方法在 COVID-19 诊断中得到改进。虽然很有希望,这种方法尚未在生物医学环境中得到广泛测试,需要进一步探索。


在建模中另一个重要的挑战与多模态健康数据的高维度有关,统称为“维度诅咒”(the curse of dimensionality)。随着维度(即数据集中包含的变量或特征)的增加,携带这些特征的某些特定组合的人数减少甚至消失,导致产生“数据集盲点”(dataset blind spots),即没有观察到的特征空间(特征或变量的所有可能组合的集合)。这些数据集盲点可能会降低模型在应用中的预测性能,因此应将维度选择纳入模型开发和评估过程的早期考虑。目前有几种策略可以缓解维度过高的问题,请参考其他文章中的详细描述。简而言之,这些包括使用最高性能的方式收集数据(例如,用马达控制的快速敲击代替手指采样,而非在日常运动中被动收集的数据),确保样本量大且具有多样化(即,与模型临床部署时的预期条件相匹配),使用领域先验知识指导特征工程和特征选择(重点关注特征的可重复性),适当的模型训练和正则化,严格的模型验证和全面的模型监控(包括监控训练集数据和部署后发现的数据分布之间的差异)。展望未来,开发能够整合先验知识(例如,已知的基因调控通路和蛋白质相互作用)的模型可能是克服维度诅咒的另一种有前景的方法。沿着这些思路在最近的研究中表明,通过从大型数据库中检索信息来增强模型的性能优于在大型数据集上训练的大型模型,即前者有效地利用了现有信息并获得了如模型可解释性等的额外收益。


多模态学习中越来越多使用的方法是融合来自不同模态的数据,取代过去简单地将几个模态数据分别输入到模型中的方法,以提高预测性能——这种过程称为“多模态融合”(multimodal fusion)。不同数据模态的融合可以在不同阶段进行。最简单的方法是在任何处理之前将输入数据的特征相关联,即早期融合。这种方法虽然简单,但不适用于许多复杂的数据模态。一种更精巧的方法是在训练过程期间组合,共同学习这些不同模态的特征,允许特定模态的预处理后捕捉模态间的交叉特征,即联合融合(joint fusion)。最后,另一种方法是为每种模态训练单独的模型并组合输出概率,即后期融合。这是一种简单而稳健的方法,但代价是损失了所有模态交叉信息。早期的融合工作侧重于引入时间序列模型,利用来自结构化的协变量的信息来完成如预测骨关节炎进展和预测脑瘫患者的手术预后等任务。作为融合的另一个例子,DeepMind 的研究人员使用包含 620,000 个维度的高维 EHR 数据集,投影到只有 800 个维度的连续嵌入空间(continuous embedding space)中,在 6 小时的范围内解析患者信息,并建立了一个RNN模型来预测随时间推移的急性肾损伤情况。许多研究已经可以使用双模态融合(bimodal fusion)来提高预测性能。如融合影像学数据和基于 EHR 的数据以改善肺栓塞的检测,实验表明效果优于单模态模型。另一项双模态研究融合了胸部 X 射线的成像特征与临床信息,提高了HIV患者结核病的诊断性能。也有将光学相干断层扫描和红外反射视盘成像相结合以预测视野图的研究报道。


多模式融合是一个总体概念,可以应用任意架构实现。虽然我们可以借鉴一些生物医学领域以外的AI影像工作;如 DALL-E 和 GLIDE等现代引导图像生成模型(Modern guided image generation models)通常将来自不同模态的信息输入到同一个编码器中。这种方法在最近一项由 DeepMind 使用 Gato展开的研究中证明是成功的,该研究表明,连接从文本、图像和按钮等创建的各种标签(token),可以使模型学习执行多个不同的任务,范围包括从字幕图像、雅达利游戏到用机械臂堆叠积木(图2b)。重要的是,最近一项名为 Align Before Fuse 的研究表明,在融合多模态数据之前先进行配准,可能会在下游任务中有更好的表现,例如为图像创建文本说明。Google Research 最近的一项研究提出使用注意力瓶颈进行多模态融合,从而限制跨模态信息的流动以强制模型跨模态共享最相关的信息,进而提高计算性能。


另一种双模态分析的范例是对数据进行 “翻译”。在许多情况下,一种模态的数据可能与临床结果密切相关,但价格难以承担、难以获得或需要专门的设备测量或需要进行侵入性操作。深度学习的计算机视觉算法目前表明可以捕获以往需要更高精度的人工注释才可以获得的信息。例如,一项卷积神经网络的研究使用超声心动图(echocardiogram)视频来预测实验室测量值,如心脏生物标志物(肌钙蛋白 I 和脑利钠肽)和其他常见的生物标志物。结果表明该模型与传统的实验室测试相比预测结果准确,甚至对心衰入院的预后表现优于传统方法。深度学习在癌症病理学中也得到了广泛的研究,模型仅需要输入病理图像,已超越了以往病理学家对 H&E 染色的解释能力,并具有多种应用,如预测基因型和基因表达情况、对治疗的反馈和生存情况。


多模态模型架构在其他方面也面临重要挑战。如对于三维成像数据,即使仅使用单个时间点的模型也需要较高的计算能力,因此大规模组学和文本数据模型是对实现大规模并行计算能力的挑战。尽管多模态学习在过去几年中发展迅速,然而据我们预测现有的方法并不足以克服上述所有挑战。因此,未来仍需不断创新以使用高效的多模态人工智能模型。

2

数据挑战


在多维基础健康数据的收集、链接和注释方面仍存在广泛的挑战。





请到「今天看啥」查看全文