专栏名称: 计算机视觉深度学习和自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

医疗保健领域具身智能的综述：技术、应用和机遇

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-21 00:10

正文

25年1月来自中南大学、UIUC、UPenn、上海AI实验室、新加坡国立、西湖大学和香港科技大学广州分校的论文“A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities”。

全球医疗保健系统在效率、可访问性和个性化方面面临着持续的挑战。现代人工智能 (AI) 已显示出通过精确的预测模型解决这些问题的前景；然而，由于其与临床工作流程的有限整合，其影响仍然受到限制。在多模态大型语言模型和世界模型等现代人工智能技术的推动下，具身人工智能 (EmAI) 代表一个变革性前沿，提供增强的自主性和与物理世界交互的能力以应对这些挑战。作为一个跨学科且快速发展的研究领域，“医疗保健中的 EmAI”涵盖算法、机器人和生物医学等不同领域。这种复杂性凸显及时审查和分析以跟踪进展、应对挑战和促进跨学科合作的重要性。本文全面概述医疗保健领域 EmAI 的“大脑”，其中介绍感知、驱动、规划和记忆的基础 AI 算法，并重点介绍涵盖临床干预、日常护理和陪伴、基础设施支持和生物医学研究的医疗保健应用。这些重大进步有可能实现个性化护理、提高诊断准确性并优化治疗结果。尽管前景光明，但医疗保健领域 EmAI 的发展受到关键挑战的阻碍，例如安全问题、模拟平台与实际应用之间的差距、缺乏标准化基准以及跨学科领域进展不均衡。讨论技术障碍并探讨道德考虑，为医疗保健领域 EmAI 的未来提供前瞻性的视角。还介绍 EmAI 系统智能分级的框架，以指导进一步的发展。通过提供系统的见解，这项工作旨在激发创新和实际应用，为以患者为中心的智能医疗保健新时代铺平道路。

医疗服务在人类福祉中发挥着根本性作用，但它也面临着持续的挑战，包括医疗机会不平等 [1]、医疗服务提供效率低下 [2]，以及对治疗复杂疾病的个性化解决方案日益增长的需求 [3],[4]。这些问题主要源于医疗资源有限且分布不均 [5]，以及治疗方法不够先进 [6]，常常导致治疗延误、治疗不充分甚至过度，从而加剧患者的病情 [7]。在当前临床工作流程的范围内——很大程度上依赖于有限的临床基础设施、人类医疗专业人员和护理人员——这些挑战仍然难以完全克服。为了解决这些问题，人们已经采取各种措施，例如远程医疗服务 [8],[9]、自动分诊系统 [10],[11]、人工智能辅助医疗监控 [12] 和医学图像分析 [13],[14]，这些措施提高医疗服务的精准度和效率，同时也促进医疗格局的持续转型。然而，它们仍然无法在现有的临床工作流程中提供直接支持。

人工智能 (AI) 技术，尤其是深度学习方法，正在为医疗实践引入新的劳动力，推动医疗格局的持续转型 [15]–[21]。这些方法从跨多个中心、设备、场景、患者和时间点收集的大量医疗数据中学习医疗和诊断知识，利用电子健康记录 (EHR)、基因组序列、健康监测信号和医学图像进行高级临床预测建模 [22]，[23]。这使得早期诊断 [24]、个性化治疗建议 [25]、识别超出人类辨别能力的细微疾病表现 [26] 和生物医学研究 [27] 成为可能，从而共同提高医疗服务的效率和质量。

然而，将现代人工智能技术转化为切实的临床效益仍然受到至少四个基本挑战的制约：

(I) 多模态处理不足。目前的人工智能系统主要依赖于一种或多种常见模态，如视觉、语言和听觉，但往往缺乏处理触觉和嗅觉的能力，而这些模式在医疗保健中更为复杂和关键。缺乏对这些较少探索的模态整合，限制人工智能在解决临床任务和患者护理多面性方面的有效性。
（II）开发和部署之间的分离。目前的深度学习框架的特点是开发阶段和推理阶段之间有明显的分离，这阻碍它们在现实临床环境中的持续发展。这种严格的分离延迟系统对动态临床需求和不断变化环境的适应，最终限制系统持续自我改进的能力。
（III）人机交互功能不足。与患者和医疗保健专业人员的有效互动对于增强患者体验甚至改善治疗结果至关重要。虽然 ChatGPT 和 GPT-4 等尖端对话式 AI 系统表现出卓越的交互能力，但它们往往无法与治疗目标保持一致，也无法超越口头交流而涵盖行为交互。这种互动需要高级推理、强大的记忆力以及基于经验的适应能力。尽管最近的研究强调语言在治疗环境中的变革潜力 [28]，但 AI 系统的语言和交互行为如何对临床结果产生积极影响（特别是在心理健康治疗等领域）的机制仍未得到充分探索 [29]，[30]。
（IV）缺乏从决策到行动执行的途径。如果没有机器人或辅助设备的体现，AI 系统无法直接减轻医疗专业人员和护理人员的工作量。虽然当前的深度学习模型可以提供准确的诊断和决策支持，但它们很少将这些见解转化为可操作的诊断或治疗干预措施。此外，确保此类干预期间的安全性并在既定的临床工作流程中保持无缝集成仍然是需要紧急解决的关键挑战。

具身人工智能（EmAI）正在成为解决医疗场景中这些挑战的一种有前途方法 [31]– [36]。通过将人工智能算法，特别是多模态大型语言模型（MLLM）和世界模型，与机器人技术、机电一体化、人机交互和传感器技术的创新相结合，EmAI 为人工智能算法配备物理“身体”或有形媒介，从而实现与世界的直接交互 [37]。人工智能算法负责执行感知、动作控制、决策和记忆处理，确保 EmAI 系统的无缝运行。人工智能算法最近的一些突破极大地推动EmAI 的发展。例如，无监督学习使人工智能能够在没有人工监督的情况下从海量数据中提取基础知识 [38]–[42]；交互式感知学习 [43] 使 EmAI 系统能够理解目标的因果关系并评估与各种目标互动的可能性和可行性 [44]；跨模态融合技术已得到广泛发展，用于整合和利用来自不同来源的互补信息 [45]、[46]；深度强化学习使人工智能系统能够通过环境反馈学习最佳行为 [47]–[52]；大语言模型 (LLM) [53]–[57]、多模态大语言模型（MLLM） [58]–[63]、视觉-语言-动作 (VLA) 模型 [64]–[67] 甚至世界模型（WM） [68]–[70] 的进步为人工智能系统提供了增强的通信能力、推理能力和行动规划能力，特别是对于导航和操作等任务 [71]、[72]。得益于这些成就，“EmAI 大脑”的开发和可用性得到显著提升，使更复杂、适应性更强、上下文-觉察能力更强的 EmAI 系统能够在动态医疗环境中发挥作用。

EmAI 的进步正在推动各个领域的变革性应用，其中医疗保健正成为一个领先领域，约占该领域工作的 35% [27], [74]，如图（a）所示。值得注意的例子包括手术机器人 [75] 和陪伴机器人 [76]，它们正变得越来越普遍。图（b）突出显示 EmAI 研究在关键医疗保健领域的显著增长，包括生物医学研究、基础设施支持、日常护理和陪伴以及临床干预。值得注意的是，2024 年的出版物总数几乎是 2019 年的七倍，其中临床干预研究显示出最快的增长速度，同时在这些领域保持相当大的份额。这些成就的基础是多学科见解的整合。如关键字共现网络（图（c））所示，跨领域的密集互连突出显示一个领域的进步如何催化其他领域的进步，强调跨学科合作在医疗保健革命中的关键作用。显著的贡献源于基础模型、大语言模型、计算机视觉、认知科学、社会学和机器人技术的突破，共同塑造了 EmAI 在医疗保健领域应用的未来。基于这些研究成果，EmAI 通过提高患者护理和运营效率，深刻地改变医疗保健领域。它实现机器人诊断 [77]、精准手术干预 [78] 和个性化康复治疗 [79]，不仅简化医疗工作流程，而且还改善健康结果并缩短康复时间 [80]。除了临床应用之外，EmAI 还提供有意义的陪伴 [81] 和情感支持 [82]，为儿童、老年人、残疾人或慢性病患者等弱势群体提供特殊福利，从而减轻医疗服务提供者的负担。此外，EmAI 正在通过自动化实验过程和分析大规模数据集重新定义生物医学研究，使研究人员能够以前所未有的速度产生见解并开展实验。这些进步加速医疗机制 [83]–[85]、治疗目标 [86]、[87] 和疾病预防策略 [88]、[89] 的发现，推动整个生物医学领域的创新。

尽管取得重大进展 [35]、[90]–[96]，但医疗领域 EmAI 的发展仍处于起步阶段，面临多重挑战。当前的努力通常集中在 EmAI 的孤立组件 [80]、[97]、[98] 上，例如开发高级算法 [99]、[100]、改进工作流程 [101]、[102] 或整理数据集 [103]、[104]，而没有实现集成到综合系统中。为了充分发挥 EmAI 的潜力，跨学科合作对于弥合这些分散的贡献并构建有凝聚力的端到端解决方案至关重要。此外，研究主要集中在备受瞩目的应用上，例如手术机器人 [77]、[78]、[105]–[110]，而其他有前景的领域，包括心理健康干预 [91]、[92]，仍未得到充分探索。这种注意力的不均衡分布限制 EmAI 对各种医疗保健需求的更广泛影响。此外，虽然陪伴机器人已经显示出潜力，但大多数都是被动的而不是主动的 [81]，限制了它们自主预测和满足患者需求的能力 [111]、[112]。同样，生物医学研究机器人在医学研究固有复杂和动态的环境中也面临着保持精确性和可靠性的困难。

此外，医疗保健领域 EmAI 的开发继续面临重大的技术挑战。首先，EmAI 开发通常是在模拟平台上进行的，而模拟平台往往无法准确复制真实世界的环境。这种差异对弥合模拟与现实世界应用之间的差距提出重大挑战。此外，由于 EmAI 系统可能直接与现实世界互动，确保安全变得更加关键，尤其是在医疗任务中 [113]–[115]。其次，尽管 EmAI 系统依赖于大型数据集，但隐私法规和复杂的临床工作流程阻碍医疗保健领域获取大型、符合道德规范、特定领域的现实世界数据集，为医疗保健特定 EmAI 的发展设置重大障碍。其他挑战，如道德考虑 [116]–[119] 以及经济和社会影响 [120]、[121]，也有望得到解决。

得益于多个领域的进步，尤其是人工智能领域的突破，EmAI 的发展势头强劲。为了最终在现实世界中复制类似人类的行为 [126]，一个全面的 EmAI“大脑”应该包含多个模块来执行感知、动作控制、决策和记忆。与人脑类似，人脑由几个专门但相互关联的功能区域组成（见图（a）），这些集成的功能使 EmAI 系统能够与复杂的现实世界环境交互并适应它 [124]，[127]–[129]，如图（b）所示。

本文概述支持这些功能的关键方法，分为具身感知、低级驱动、高级规划和记忆处理，以及它们的详细细分，如图所示。

具身感知

感知是 EmAI 系统解释来自其环境感官数据的核心机制。此过程涉及处理来自传感器（如摄像头、麦克风和触觉设备）的高维、多模态且通常有噪声的输入。对具身感知进行分类：感官感知、跨模态感知和交互式感知。感官感知构成了其他系统功能的基础，并直接与现有的单模态基础模型集成 [54]、[55]、[80]、[130]–[136]。为了更深入地了解环境，多模态 AI 算法 [137]–[140] 实现跨模态信息集成，与现实世界固有的多模态性质相一致。来自不同设备的多模态数据集成使机器人能够结合视觉、触觉和语音等感官输入来做出更明智的决策 [141]。交互式感知进一步学习目标的 affordance，是连接感知和行动的关键一步，凸显其作为 EmAI 感知的下一个前沿领域的重要性。

跨模态感知整合多种模态的信息以实现整体理解。为了有效地聚合和对齐多模态信息，当前的预训练模型建立基础的跨模态表示，使下游多模态任务可以重新表述为视觉-语言导航 (VLN) 和具身视觉问答 (VQA) 等挑战。最近的研究 [142]–[149] 主要采用三种主要的架构范式来实现有效的跨模态感知：独立编码器、共享编码器和组合架构。

交互式感知涉及物理动作（例如操纵目标、改变视点或探测环境），以解决歧义、学习物体属性并细化多模态表示 [183]–[185]。通过利用探索性行动，EmAI 系统可以增强或扩展其在目标识别 [185]、场景理解 [186] 或在动态和非结构化环境中进行操作 [183] 等方面的感知能力。在机器人操作中，交互式感知通过探索收集数据，以识别目标的潜在可操作区域并了解其功能可能性。这个过程，又称 affordance 学习，通过指导和优化 EmAI 系统未来的交互，进一步使其受益。

通过 affordance 学习，可以通过两种主要方法指定行动规划：从人类演示中进行监督学习[187]，[188]，以及从机器人反复试验交互中进行强化学习[189]，[190]。

低层驱动

低层驱动是 EmAI 系统的一个基本组成部分，它利用各种动作控制策略根据感知确定实时运动控制 [235]。将低级驱动过程分为两个核心阶段：控制策略表征和控制策略学习。策略表示阶段展示编码机器人行为的框架，确保策略具有足够的表现力来捕捉复杂的动作，同时保持计算效率并适应不同的场景。在此基础上，策略学习阶段侧重于机器人如何通过强化学习、模仿学习和混合策略等高级算法来选择和优化这些行为。这两个阶段共同构成一个有凝聚力的框架，使机器人能够自主行动并实现预定义的目标。下表总结有代表性的低级控制策略。

当前的 EmAI 系统中广泛使用三种类型的策略表征。i）显式策略[194]、[195]；ii）隐式策略[203]、[239]；iii）扩散策略。

策略表征是策略学习的基础，可以对机器人可以执行的行为进行编码。基于策略表征，可以采用各种学习算法来迭代调整和优化策略，例如强化学习 [243]–[245]、模仿学习 [224]、[236]、[246] 以及两者相结合的混合方法 [232]、[233]。结合 RL 和 IL 的混合方法，充分利用两者的优势。

高级规划

低层驱动只能满足简单、反应性任务的需求，但它难以处理具有多个子任务长期任务规划的复杂性。为了解决这一限制，高级规划算法已经开发出来。经典的规划算法，如 A* 算法 [257]–[260]、Dijkstra 算法 [261]–[263] 和概率路线图 (PRM) 方法 [264]–[267]，是该领域的基础方法。尽管这些算法在结构化环境中具有重大影响力和有效性，但它们在现实世界场景中遇到巨大的挑战，特别是在高维状态空间和部分可观测条件下。最近的研究将 LLM 用作具身系统中的高级规划器，通过将抽象指令转化为可操作的机器人任务来连接认知推理和物理任务执行 [65], [268]。下表总结不同高级规划方法的代表性方法。

基于 LLM 的任务规划器通常将高级目标分解为一系列可执行的子任务 [293]–[295]。通常有两种主要范式：基于代码的规划器和基于语言的规划器，如图所示。基于代码的规划器 [269], [272], [275] 通过从一组预定义的模块化技能或功能中进行选择，通过 API 调用它们来逐步执行任务。基于语言的规划器 [277], [279], [280] 无需使用预定义函数即可表现出更好的灵活性。在创造性解决问题、客户支持或不确定环境中的规划等开放式领域，基于语言的规划器可以使用上下文线索来实时细化和调整其指令。

端到端具身大型模型进行规划。这些算法通过将高级指令直接映射到低级动作而脱颖而出，将感知、规划和控制无缝集成到统一系统中。最近的研究表明，这些系统利用深度强化学习和模仿学习来简化复杂环境中的规划和决策，通常在适应性和鲁棒性方面超越模块化流水线 [310]，[311]。诸如 SayCan [283]、PaLM-E [284] 和 EmbodiedGPT [287] 等著名框架旨在将视觉编码器嵌入与 LLM 中的规划数据相结合，直接为机器人策略提供即时行动的信息。然而，训练具身端到端系统通常需要大规模数据集。为了满足这一需求，模拟数据因其效率和安全性而被广泛使用，尽管物理、传感器和现实世界复杂性的差异带来了挑战。为了增强适应性，缩小模拟与现实之间的差距，改善现实世界的表现，人们开发了域随机化 [312]、域自适应 [313] 和混合方法 [314] 等策略。此外，设计基准来评估不同 LLM 之间的具体决策能力也很重要 [315]。

记忆处理

记忆是过去经验和知识的储存库，使系统能够从历史数据中学习，适应新情况，并根据积累的见解做出明智的决策 [316]。EmAI 系统中的记忆通常分为短期记忆和长期记忆，两者发挥着互补的作用。

短期记忆采用 LLM 中的上下文提示 [283]、[317]、[318] 和潜在嵌入 [319]、[320] 等机制来管理交互过程中的即时数据需求。这种类型的记忆，通常保存来自正在进行的交互数据，在涉及对话和环境反馈的环境中至关重要。例如，聊天机器人会保留对话历史记录以促进正在进行的交流，而 EmAI 系统可能会使用环境反馈的文本表示作为短期记忆的一种形式，帮助完成即时推理任务 [280]。这使得 EmAI 系统能够暂时优先考虑新信息而不是旧信息，并利用最近学到的知识适应新情况。

长期记忆是基础组成部分，它存储着影响 EmAI 系统行为及其对世界理解的重要事实知识 [27]。长期记忆的整合使 LLM 能够在推理过程中利用过去的经验，从而增强其自我进化能力和处理复杂任务的能力 [321]–[323]。长期记忆分为内部和外部系统：内部记忆通过模型权重嵌入到 AI 模型自身的架构中，从而能够快速、直接地零样本应用学习到的信息 [324]，[325]，而外部记忆存储在单独的数据库或知识图谱中，需要主动检索和集成才能使用 [326]–[331]。为了保持最新状态，存储在模型中的长期记忆可以通过微调技术进行动态更新，例如监督微调 (SFT) [332]、指令微调 (IFT) [333] 和参数高效微调（例如，LoRA）[334]，[335]，而外部记忆则通过直接改进外部数据库来更新。

协同整合

上述四个关键功能通常最初是独立开发的，但必须有效集成才能构建全面的 EmAI 系统。诸如 MemoRAG [336] 和 Reflexion [337] 之类的集成方法，通过从记忆模块中检索相关信息 [338]–[340] 或总结过去的经验 [341], [342] 来增强高级规划过程。这些方法提高对动态环境的适应性，并实现更合理的决策。闭环方法，包括 RoboGolf [343]、LyRN [344] 和 AlphaBlock [345]，集成感知和驱动模块，利用反馈来改进观察并动态更新控制信号。这种集成有助于精确调整动作并支持有效的多步骤规划。此外，主动交互式感知系统 [44]、[185]、[346] 更进一步，通过实时交互来探索目标属性、更新环境上下文并根据即时结果改进决策。由此产生的动作和观察结果存储在 EmAI 记忆中，可用于构建集成物理属性、概念、affordance 和意图的多模态知识图谱以供将来使用 [347]。现代 AI 对齐方法 [350]、[351] 结合模块 [348]、[349] 和涵盖这些模块所有功能的基础模型，也正在被广泛研究，被视为有前景的领域 [352]、[353]。然而，仍然缺乏一个能够集成各种开发模块的高度兼容、高效和有效的统一架构。实现这些模块之间的对齐和无缝集成，同时最大限度地减少开发（例如，微调），仍然是一个悬而未决的挑战。

EmAI 系统的医疗保健应用和产品包括四个关键领域：临床干预、日常护理和陪伴、基础设施支持和生物医学研究：

• 临床干预涉及针对性行动来治疗或管理医疗状况，而 EmAI 系统可以提供机器人辅助诊断 [77]、精准干预 [354] 和个性化术后康复 [355]。
• 日常护理和陪伴依靠人工智能驱动的机器人来帮助老年人和残疾人，监测健康状况、帮助行动、提供情感支持，提高生活质量并减轻护理人员的负担。
• 基础设施支持受益于 EmAI 系统，该系统通过紧急响应、药品分发、环境消毒和病人运输等任务提高效率和安全性。
• 生物医学研究利用 EmAI 系统通过自动化实验、进行高通量分析和解释复杂的生物数据来加速发现。

临床干预

EmAI 系统已广泛应用于临床干预，涵盖术前干预、术中干预和术后干预阶段 [77]、[354]、[355]。它们的主要作用，如图所示。

术前干预阶段

用于术前干预诊断和评估的 EmAI 相关技术，最新改进正在塑造智能医院中新的 AI-临床医生协作 [356]– [358]。EmAI 在此背景下发挥着各种作用，减少临床医生的工作量并加快诊断工作流程。

虚拟分诊护士。在现代智能医疗系统中，基于 EmAI 的虚拟分诊护士取代人类护士，通过将患者引导到最合适的临床科室，在简化患者管理方面发挥着关键作用。这些 EmAI 系统分析患者报告的症状，并根据症状描述进行科室排名 [359]–[361]。除了基于症状的分类之外，先进的分诊系统还集成可穿戴健康数据和 EHR，以提供对病情的整体评估 [362]–[364]。在紧急护理环境中，这些系统甚至可以预测患者的结果并推荐干预途径，从而显着缩短危急情况下的响应时间 [365]– [368]。随着医疗保健系统的互联互通日益紧密，智能分诊系统日益成为未来基础设施的有效工具 [364]、[369]，实现初级保健、专科咨询和医院入院之间的无缝协调。

交互式医疗顾问。最近，一些基于 LLM 的聊天机器人（如 DISC-MedLLM [370] 和 HealAI [371]）用于对医疗咨询提供即时、可靠和针对具体情况的响应，帮助患者更好地了解他们的症状、治疗方案或后续护理 [372]，[372]，[373]。它们还可以解释医疗状况，提供个性化建议 [374]，[375]，并解释放射学报告 [376]。通过弥合患者与复杂医学知识之间的差距，交互式医疗聊天机器人不仅使个人能够做出明智的决策，而且还减轻医疗专业人员的工作量 [377]，[378]。随着 LLM 推理的进步 [379]，这些系统正在成为以患者为中心智能医疗解决方案的重要组成部分。除了回答医疗问题外，这些聊天机器人还可以指导患者完成行政流程，例如预约 [380]、[381] 或管理处方 [382]、[383]，从而减轻医护人员的负担 [384]、[385]。凭借其全天候运行的能力，这些系统提高了医疗过程的可及性和信任度。

影像分析师。另一个代表性领域是机器人辅助医学成像，它不仅提高诊断过程的准确性，而且扩展医学成像在复杂解剖评估中的能力。已有许多研究专注于使用 AI 技术进行医学图像分析 [386]–[388]，但要支持机器人手术和术前机器人诊断，除了高精度之外，还需要其他要求，包括实时处理 [389]、3D 空间理解 [390] 和安全合规性 [391]。在包括超声检查、放射学和内窥镜检查在内的医学成像技术中，EmAI 以不同的方式增强它们的能力。

目前已经开发出全自动超声系统 [110]、以人为本的放射学助手 [433] 和灵活的机器人内窥镜系统 [434]，这些系统能够在最少的人为监督下导航和调整诊断检查，实现更高水平的智能化和自主性。与人工检查相比，它们可以优化工作流程，提高患者护理质量，并确保所有参与手术的人员拥有更安全的环境。此外，这些系统还可以作为更全面的 EmAI 系统（如手术机器人）中的模块，展示出扩展其应用的机会。

术中干预阶段

EmAI 系统不断融入介入程序，促进各个领域的进步，包括外科实践、心理健康干预等。其中，外科实践已成为迄今为止研究和开发最广泛的应用。这些系统可自动执行特定的外科手术任务并提供关键的术中反馈，从而改善手术的执行 [435]–[437] 和外科训练的分析 [438]–[440]。如图显示用于自动化操作的代表性分层 EmAI 系统。

传统的机器人手术主要侧重于为缝合 [442]–[444]、组织操作 [445]、[446] 和纱布切割 [447] 等外科手术动作制定特定于任务的策略。LLM 和 VLA 的快速发展进一步增强它们的智能性和多功能性。

手术规划师。在传统的临床环境中，外科医生在手术的初始阶段制定细致的手术计划。借助 EmAI，可以自动简化此过程。新兴的 VLA 模型已应用于该领域，以生成可行的手术计划 [448]。它们使机器人能够理解自然语言中的视觉提示和指令，从而实现更直观、更灵活的任务执行 [123]、[449]。此外，一些 VLA 模型有助于有效的模仿学习，从视觉演示中学习复杂的动作。通过解释人类演示视频，EmAI 系统能够识别细粒度的视觉概念，包括仪器、动词和目标 [450]，并为手术环境中的机器人系统创建可操作的任务计划 [451]。

手术操作员。熟练的操作员是每项外科手术的核心，精准和及时干预至关重要。由于手术的复杂性和专家操作员的有限性，经常会出现挑战，这可能导致患者护理出现瓶颈。为了增强这一点，机器人手术已成为一种有希望的趋势，它为常见的外科手术提供更高的精准度、灵活性和微创方法，从而改善患者的治疗效果[464]。在医疗保健领域，专用机器人通常更实用、更可靠，并且已在各种环境中进行广泛研究，并显示出总体临床益处[465]。例如，在腹腔镜手术中，机器人系统可以在人工监督下自主进行肠吻合术[466]和直肠癌切除术[467]。在视网膜显微外科手术中，已经开发出综合的 EmAI 系统 [468]、[469]，将实时手术目标跟踪、分割和模型预测控制结合起来，用于在精度至关重要的精细显微外科手术环境中进行术中导航。

智能外科医生-机器人界面。直观的用户界面和先进的响应系统可以显著缩小外科医生和机器人工具之间的差距，降低外科医生-机器人协作的难度，并作为“翻译”促进沟通和控制。探索了两种直观控制和感官反馈方法。一种使用 Whisper 语音识别技术的手术机器人新型语音控制界面 [475] 允许外科医生口头指挥机器人。可以将自然的手部动作转化为控制机器人工具的感官手套 [476] 力求提供在手术过程中至关重要但在机器人操作中经常缺失的触觉反馈。此外，人机交互学习系统 [477]、[478] 涉及人机交互以指导和改进 AI 模型的学习过程。这些方法确保 EmAI 不断改进，通过结合人类的专业知识和反馈来做出更好的决策，这在知识密集型的手术环境中尤其有效和直观。允许外科医生在手术过程中指导机器人学习过程的交互式系统可以通过降低错误率而更加可靠，同时自动化程度也会降低。

手术导航器。术中导航系统通过提高工具定位的精度、优化手术路径、提供实时反馈和降低手术风险，显著增强了手术程序。这些系统使外科医生能够以更高的精度和控制力执行复杂的手术，最大限度地减少对周围健康组织的损伤，并改善整体手术效果。新兴的 VLN 技术 [479]、[480] 进一步使机器人能够适应不同的手术环境、响应口头命令并自主导航。研究人员已经开发出集成空间感知和任务特定知识的模型，以增强机器人对自然语言指令的响应能力 [481]、[482]。

手术导航器有两个核心组成部分：一个是理解和情境化视觉场景的能力，另一个是安全导向的路径规划和避障。手术环境拥挤，任务需要高精度，因此人工智能必须正确识别解剖标志、手术工具和其他视觉线索。先进的 VLN 模型结合视觉Transformer和 LLM，可以从视觉和文本输入中进行情境理解 [123]。此外，在手术环境中，导航系统必须把安全放在首位。人工智能驱动的机器人需要在狭小空间内导航，同时避开障碍物，如手术器械、医务人员或敏感的患者组织。

具身人工智能不仅可以协助执行手术任务，还可以通过精确的反馈和全面的分析，增强术中的决策。

实时手术顾问。现代手术环境通常涉及处理大量实时信息。复杂的手术会产生大量的视觉和背景数据，例如实时视频、腹腔镜图像和机器人手术镜头，必须在高压条件下快速解释这些数据。同时，即使是经验丰富的外科医生也可能会遇到超出其专业知识范围的情况，仅依靠人类判断可能会导致效率低下或错误。为了弥补这些差距，能够解释手术背景并提供准确及时答案的人工智能问答方法是一项必不可少的创新。一些能够根据手术环境中的视觉数据回答问题的 EmAI 系统已经出现 [488]–[490]。这些功能通常由 VQA 和图像字幕方法实现，最近的进展 [449]、[454]、[491]–[495] 在特定于手术的 VQA 和图像字幕任务中采用了新视觉语言预训练 (VLP) 技术，进一步增强EmAI 系统的功能，其中预先训练的多模态模型通过特定于手术的 VQA 数据集进行微调。

外科手术教练。外科手术程序日益复杂，再加上年轻学员经验丰富的导师有限，为新手外科医生提供足够的教育带来了重大挑战。这种培训缺口加剧全球熟练外科专业人员的短缺。机器人外科手术教练与先进的 EmAI 算法相结合，为这一紧迫问题提供一个有希望的解决方案。研究人员已经开发出能够实时识别和预测手术手势和轨迹的 EmAI 模型 [496]–[500]。为了全面了解手术环境，对手术活动进行多粒度分析至关重要。这包括长期任务，例如识别手术阶段和步骤，以及短期任务，例如分割手术器械和检测原子视觉动作[501]。通过这些进步，外科手术教练可以分析复杂的手术活动序列，对手术技能进行客观评估[502]–[507]。这些评估提供了建设性的反馈，使受训者能够改进他们的技术并加速他们的学习曲线。

患者数字孪生。患者数字孪生代表患者生物系统或其一部分（例如解剖学）的详细动态模型，使用全面而准确的医学数据（例如影像学研究、生理测量和诊断结果）创建[114]。它通常与先进的可视化设备（例如 VR/AR）相结合，提供交互式观察，外科医生可以在此基础上规划、模拟和优化手术路径 [508], [509]。基于人工智能的数字孪生创建技术，有助于识别手术模式 [438]、预测并发症或手术结果 [509] 以及生成医学报告 [510], [511]。该技术通常用于加速新手外科医生的学习曲线，帮助他们熟悉解剖结构、手术程序背景和疾病进展 [512]– [516]。此外，多种下游应用也受益于手术数字化过程 [517]。临床医生可以使用数字化手术平台 [518] 练习手术技巧并探索人体解剖结构，而无需依赖真实的解剖模型，从而克服高成本和训练样本稀缺的限制。它还为机器人提供数字化和精确的训练平台，提高实际手术部署前的安全性和可靠性[519]。另一种方法涉及逼真的手术图像[520]和视频[521]合成，以有利于EmAI系统的训练过程，减轻与获取手术数据的高成本和伦理问题相关的挑战。

心理治疗师。EmAI驱动的系统利用先进的情绪识别、语音分析和行为模式检测来实时评估心理健康状况[522]，[523]。由人工智能驱动的虚拟治疗师提供个性化的认知行为疗法(CBT) 、细心训练和情绪咨询，使心理健康支持更容易被服务不足的人群获得[524]–[528]。除了数字治疗平台之外，EmAI 还被融入到沉浸式环境中，例如基于 VR 的恐惧症或创伤后应激障碍（PTSD）暴露疗法[529]–[533]，根据心率或眼动追踪等生理反馈对治疗进行动态调整。

术后干预阶段

术后康复领域对于提高患者在手术干预或疾病治疗后的恢复和生活质量至关重要。传统方法虽然有效，但往往需要大量人力资源，而且不能总是提供定制治疗。EmAI 为康复护理提供了一种有前途的解决方案，提供持续、适应性强、以患者为中心的护理 [538]。

智能外骨骼。新兴的 EmAI 系统 [539], [540] 旨在帮助患者在物理康复期间恢复活动能力和力量，为行动不便的个人提供指导性锻炼、精确运动辅助和自适应反馈。例如，外骨骼机器人帮助患者进行步态训练 [541], [542]，手部康复机器人帮助恢复手部功能 [543]。上肢康复机器人旨在在日常活动中支撑患者的手臂，促进神经可塑性和功能恢复 [544]–[546]。这些技术对中风或偏瘫幸存者以及脊髓损伤患者特别有益，为他们提供提高独立性和改善生活质量的潜力 [547]。这些应用通常采用精细控制方法和交互策略开发 [548], [549]。

定制康复教练。对于躯干康复机器人上的平衡练习，EmAI 系统 [550], [551] 已显示出自动捕捉实时运动和评估患者状况的能力。它们根据每个患者的个人能力和需求调整控制器并优化训练强度，从而增强个性化康复课程。此外，具有持续学习能力的 EmAI 系统可以从患者过去的行为和反应中发展，提高其适应性和对患者特定治疗需求的响应能力 [552], [553]。此外，EmAI 系统可以提供和更新安全、个性化的康复训练方案。特别是，它们可以预测关键的康复指标 [554]，更准确地评估患者的康复情况，并根据对患者运动表现和生理反馈的实时监测 [459]–[461] 推荐优化的术后康复计划 [555], [556]。

药物控制器。智能药物输送系统与实时监测设备相结合，可根据血糖水平、血压或神经活动等生理反馈动态调整药物剂量 [557]、[558]。配备 EmAI 的机器人系统正被用于精确管理复杂的疗法，如化疗或胰岛素输送，以最大限度地减少错误并改善患者的治疗效果 [559]–[562]。此外，智能驱动的药物依从工具，包括智能药丸分配器和跟踪应用程序，可确保患者遵循处方方案，降低漏服或用药过量的风险 [563]–[566]。借助预测分析，EmAI 系统还可以识别潜在的不良药物相互作用或实时建议调整，提供安全、高效和个性化的药物治疗。

健康监测可穿戴设备。智能可穿戴设备越来越多地与 EmAI 系统集成，利用 MLLM 功能 [567]，实现对心率、血氧饱和度和皮肤电活动等重要健康指标的实时跟踪 [568]–[570]。这些设备可以根据个体患者独特的生理特征进行动态调整，提供量身定制的健康见解和警报 [571]。通过持续学习算法，EmAI 系统不断发展，以更好地预测患者特定的健康事件，例如检测感染、帕金森病或心血管问题的早期迹象 [572]，[573]。此外，这些可穿戴设备可以与医疗保健提供者沟通，以确保及时干预，提高患者安全性和康复效果 [574]。通过利用实时数据和 EmAI，这些可穿戴设备不仅可以监测，还可以主动管理术后护理，优化康复轨迹。

认知康复工具。在术后认知恢复领域，配备 EmAI 的工具可以根据对患者表现和进展的实时分析，定制认知练习 [574]、[575]。通过集成传感器和交互式软件，EmAI 系统提供一个响应平台，可根据认知负荷和患者能力，调整任务 [576]。持续的适应有助于制定高效的康复课程，可以更准确地解决特定的认知缺陷 [577]。此外，EmAI 工具可以预测和监测认知恢复轨迹，提供指导进一步治疗调整的见解 [578]。这类工具不仅支持更快的认知康复，而且还确保它具有吸引力并与患者的特定治疗需求保持一致。

神经假体。前沿研究还探索脑机接口 (BCI) 的集成，以增强运动意象 (MI) 训练和康复。在 MI 训练中，患者想象特定的动作，然后 BCI 通过信号分析（如 EEG [579] 或虚拟环境 [581] 中的功能性大脑连接 [580] 或通过外部机器人设备 [582] 将这些意图转化为动作。该方法已被证明可以促进神经重塑并增强中风幸存者的运动功能。

日常护理与陪伴

辅助机器人

EmAI 与医疗保健的结合促进了辅助机器人的发展，这些机器人可增强患者的日常护理和支持。以下包括三个关键应用：社会援助、日常生活援助和行动援助。

社会指南。在当代社会，患有自闭症谱系障碍 (ASD) 、双相情感障碍或其他社会挑战的个人在获得足够的社会支持方面往往面临重大障碍。EmAI 系统的进步，尤其是由 LLM 驱动的系统进步，促进了旨在满足这些需求的创新解决方案开发 [583]、[584]。NAO 机器人和 QTrobot 已被用于增强面部识别和改善眼神交流，作为自闭症年轻人的治疗介质，帮助他们学会与他人互动 [585]–[588]。通过结构化的互动，儿童可以练习社交技能，如模仿、轮流、参与和同理心 [589]。研究表明，自闭症儿童通常对机器人辅助治疗反应积极，在治疗过程中参与度增加，焦虑感减少 [590]–[592]。除了心理障碍之外，像 ZORA 机器人这样的 EmAI 系统 [593]–[595] 还帮助患有严重身体残疾的儿童实现治疗和教育目标，并帮助痴呆症患者优化沟通。如图所示一个支持患有社交障碍儿童的 EmAI 系统的流程。

日常帮手。对于面临独立生活挑战的患者，EmAI 的进步促成各种辅助机器人的开发，旨在支持基本日常活动。这些机器人协助完成特定任务，如进食、穿衣、个人卫生和药物管理。例如，喂食机器人已经被开发出来帮助严重残疾的患者自行进食 [597]，[598]。这些系统集成红外传感器，可根据用户的体型和头部位置实现精确的勺子控制，并根据需要自动调整 [599]–[601]。这种适应性使用户可以独立选择食物，从而提高就餐体验和整体生活质量。此外，像 ARI [583]、[584] 这样的机器人旨在协助康复计划。这些机器人可以演示锻炼，提供实时指导并提供鼓励，从而提高患者参与度和遵守治疗方案的程度 [602]。这种整体方法不仅支持身体康复，还支持患者的情感和社会健康，使这些辅助技术成为康复和独立生活中的宝贵工具。

运动助手。EmAI 为身体有障碍的人士提供显著的行动和康复辅助，提供恢复功能的创新解决方案并在康复期间为个人提供支持 [603]。例如，外骨骼（如由 Ekso Bionics 开发的外骨骼）使脊髓损伤患者能够站立和行走，促进康复并提高行动能力 [604]。同样，ReWalk [605] 使瘫痪者能够行走和爬楼梯，有效地弥补身体缺陷并带来积极的结果。智能轮椅展示 EmAI 如何增强移动性。它们使用人工智能算法来预测运动并帮助有严重运动或认知障碍的用户 [606]，[607]。这些系统分析过去的动作，检测障碍物，并实现安全的实时导航，帮助用户直观地穿越复杂环境 [608]，[609]。此外，基于 EmAI 的轮椅以其成本效益而著称，这是通过优化控制参数以最大限度地降低能耗并延长电池寿命来实现的 [610]。对于移动平衡辅助机器人，它们正在开发中，以帮助个人在日常活动中保持平衡并防止跌倒 [611]。一些机器人，如 SoloWalk [612]，在患者行走时提供重量支撑，进一步帮助康复过程。脑机接口控制的机器人，包括安装在轮椅上的机械臂 [613] 和机器人假肢，也在增强瘫痪或肢体丧失者的功能方面发挥着至关重要的作用，使他们能够执行操纵任务并重新获得独立性。

陪伴机器人

由 EmAI 系统驱动的陪伴机器人在几个关键场景中为医疗保健提供支持：心理健康的情感支持 [92]、[111]、[112]、[614]、儿童福祉的发展支持 [615]–[621] 以及老年人护理的疾病监测支持 [622]–[626]。在心理健康方面，这些机器人通过与用户交谈、提供同理心和培养陪伴感来提供情感支持，这对感到孤独或焦虑的个人尤其有益。在儿童护理方面，这些机器人让年轻用户参与教育活动、社交互动和游戏，在安全、受监控的环境中支持认知和社会发展。在老年人和慢性病护理方面，陪伴机器人协助日常活动、药物提醒和身体监测，帮助提高生活质量并使老年人保持独立。它们还可以检测健康状况的变化，以便及时干预。通过这些应用，陪伴机器人可以增强身心健康，为个人护理和更广泛的支持网络做出有意义的贡献。

情感伴侣。用于情感支持（心理健康）的陪伴机器人，通常通过两种主要途径运作：虚拟 EmAI 智体 [627] 和临床使用的先进 AI 机器人创新 [628]。虚拟具身智体（例如聊天机器人或对话系统）通过让用户参与实时、富有同理心的对话来提供可访问的情感支持，这些对话有助于缓解孤独、焦虑或压力 [92]、[111]。这些虚拟伴侣易于访问，并为寻求支持的人提供即时、低障碍的互动。在临床环境中，集成 AI 的物理机器人通过与用户面对面互动、识别身体和情感线索并调整反应以提供个性化的舒适感、社交参与和治疗活动，将心理健康支持更进一步 [629]。这些虚拟和物理 AI 进步共同形成一个全面的支持系统，既能满足即时的对话需求，又能在临床环境中提供深入的情感支持。

儿童健康守护者。人工智能机器人和可穿戴设备有助于诊断发育障碍、监测生命体征，并让儿童参与互动练习[621]，[633]，[634]。通过以物理交互形式利用人工智能，具身系统可以实时调整以适应儿童的反应，提供传统方法可能缺乏的自适应支持。在治疗环境中，社交机器人通过受控的重复交互促进社交参与并提高沟通技巧，从而帮助自闭症儿童 [615]。此外，人工智能康复和物理治疗工具提供有针对性的锻炼和反馈，以支持运动技能有挑战的儿童 [635]。总体而言，EmAI 通过提供个性化、互动和有效的治疗来增强医疗保健服务，支持儿科护理的身体和认知方面。

老年健康护理人员。随着年龄的增长，老年人面临着许多挑战，包括身体健康状况下降和患慢性病的可能性增加。心血管疾病、糖尿病和关节炎等疾病不仅降低他们的生活质量，还给医疗保健系统和护理人员带来相当大的压力。这些持续的健康问题经常导致行动不便、社会孤立和日常活动对他人的依赖，进一步加剧他们的脆弱性。鉴于这些挑战，探索创新解决方案至关重要。基于 EmAI 的老年护理机器人具有先进的长期学习能力，可以随着时间的推移适应个人的健康轨迹、习惯和偏好。这种长期学习能力可能涉及集成 RL 以进行个性化护理优化或元学习（meta-learning）以进行快速适应，以及应用针对特定疾病的预测模型来满足老年用户不断变化的需求。

医疗保健领域具身智能的综述：技术、应用和机遇

正文

请到「今天看啥」查看全文