摘要
大型语言模型(LLMs)具有变革数字医疗的潜力,最近基于LLMs的虚拟医生的进展便是明证。然而,当前方法依赖于患者对症状的主观描述,导致误诊率增加。鉴于智能设备日常数据的价值,
我们介绍了一种新型基于LLMs的多轮咨询虚拟医生系统——DrHouse
,它包含三个重要贡献:
1)在诊断过程中利用智能设备的传感器数据,提高准确性和可靠性。
2)DrHouse借助不断更新的医学知识库,确保其模型始终处于诊断标准的前沿。
3)DrHouse引入了一种新颖的诊断算法,能够同时评估潜在疾病及其可能性,促进更细致、更明智的医疗评估。
通过多轮互动,DrHouse 确定下一步行动,如从智能设备获取日常数据或请求实验室测试,并逐步完善其诊断。在三个公共数据集和我们自己收集的数据集上的评估显示,DrHouse 的诊断准确率相比现有技术基线可提升高达 31.5%。一项涉及 32 名参与者的用户研究结果显示,75% 的医学专家和 91.7% 的测试对象愿意使用 DrHouse。
从AI虚拟病人到虚拟医生,参考
AIPatient:基于EHR和知识增强大模型智能体工作流的模拟患者-密歇根、斯坦福、哈佛医学院、山大、港大、医科院、北大六院等
核心速览
研究背景
-
研究问题
:这篇文章要解决的问题是如何利用大型语言模型(LLMs)和传感器数据来提高诊断的准确性和可靠性。现有的基于LLMs的虚拟医生系统主要依赖患者的主观描述,容易受到主观感知和记忆偏差的影响,导致误诊率较高。
-
研究难点
:该问题的研究难点包括:如何将最新的医学知识库整合到LLMs中,如何从患者的日常传感器数据中提取有用的信息,以及如何在多轮对话中综合考虑患者的症状描述和传感器数据。
-
相关工作
:该问题的研究相关工作包括:利用LLMs进行医学问答和诊断推理的系统,如Med-PaLM 2、DISC-MedLLM和HuatuoGPT;
-
利用LLMs解释传感器数据的系统,如Penetrative AI和HARGPT;
-
基于传感器数据进行健康预测的系统,如Health-LLM和CaiTI。
研究方法
这篇论文提出了DrHouse,第一个结合LLMs、传感器数据和专家知识的医学诊断推理系统虚拟医生。具体来说,
-
知识库构建
:DrHouse构建了两个知识库,一个是医学专家知识库,包括多轮医学对话、医学教科书和诊断指南;另一个是传感器数据知识库,包含患者日常传感器数据。
-
多源知识检索
:DrHouse采用了基于映射的诊断指南树检索方法和自适应传感器数据检索方法。前者通过预收集的症状-疾病数据集,检索与患者症状最相关的诊断指南树;后者则根据虚拟医生的查询,检索相关的传感器数据。
-
知识融合
:在多轮对话中,DrHouse将患者的描述、传感器数据知识和医学知识进行融合,形成综合的诊断依据。
-
诊断决策
:DrHouse通过知识选择和候选疾病的并行检查来做出诊断决策。具体来说,首先根据患者的初始症状,检索最相关的疾病和诊断指南;然后在每轮对话中,根据新的症状和传感器数据,动态更新诊断指南和概率估计。
实验设计
-
数据收集
:实验使用了三个公开的医疗对话数据集(DIALMED、MedDG和KaMed)和一个合成数据集。合成数据集基于这些对话数据集,并模拟了患者的传感器数据。
-
实验设置
:实验包括模拟实验和真实世界实验。在模拟实验中,使用不同的虚拟医生与对话数据集中的症状进行多轮对话,评估其诊断性能。在真实世界实验中,招募了12名测试对象,使用他们的历史传感器数据和实际疾病类型进行多轮诊断交互。
-
参数配置
:实验中使用了多种基础LLMs(如GPT-3.5、GPT-4和Llama-3),并进行了参数调优和消融实验,以评估不同设置下的性能。
结果与分析
-
总体性能
:在模拟实验中,DrHouse比最好的基线方法提高了18.7%的诊断准确率;在真实世界实验中,DrHouse比最好的基线方法提高了31.5%的诊断准确率。此外,DrHouse在传感器数据利用和遵循诊断指南方面的得分分别比最好的基线方法提高了38.8%和10.7%。
-
疾病分类性能
:在DialMed数据集上,DrHouse在呼吸系统疾病和胃肠道疾病的诊断准确率分别比基线方法提高了36.8%和24.5%,但在皮肤病的诊断准确率方面表现较差。
-
用户反馈
:在用户研究中,83.4%的测试对象对DrHouse的诊断表示满意,91.7%的测试对象愿意在未来使用DrHouse进行诊断。医学专家认为DrHouse的诊断与标准诊断程序一致,并且有助于减轻他们的工作负担。
总体结论
这篇论文提出了DrHouse,第一个结合LLMs、传感器数据和专家知识的诊断推理系统。通过多轮对话和知识融合,DrHouse显著提高了诊断的准确性和可靠性。实验结果和用户反馈表明,DrHouse具有很高的市场潜力,能够为用户提供可靠和满意的医疗诊断服务。未来的工作将包括扩展诊断指南的范围、整合更多模态的传感器数据以及优化响应延迟。
论文评价
优点与创新
-
多源知识检索
:DrHouse首次提出了结合患者传感器数据和医学专家知识的多源知识检索方法,显著提高了诊断的准确性和可靠性。
-
实时更新医学知识
:DrHouse利用最新的医学诊断指南,主动询问患者相关症状,确保模型始终处于诊断标准的前沿。
-
新颖的诊断算法
:DrHouse引入了一种新的诊断算法,能够同时评估潜在疾病及其可能性,促进了更细致和全面的医学评估。
-
多轮交互
:通过多轮交互,DrHouse能够确定下一步行动,如访问智能设备的日常数据或请求实验室测试,并逐步完善其诊断。
-
用户研究结果
:在32名参与者的用户研究中,75%的医疗专家和91.7%的测试对象愿意使用DrHouse。
-
高诊断准确性
:在合成数据集和真实世界数据集上的评估显示,DrHouse的诊断准确性比最先进的基线方法高出31.5%。
不足与反思
-
额外专家知识的整合
:DrHouse需要检索诊断指南树以启动多轮医疗咨询,这一过程受到DrHouse中包含的诊断指南数量和症状-疾病数据集中案例数量的影响。未来计划包括纳入更多诊断指南以支持更广泛的疾病范围。
-
传感器数据整合
:DrHouse目前专注于整合来自可穿戴设备(如智能手表)的传感器数据。未来方向包括将传感器数据从其他模态(如图像和IMU数据)整合到诊断决策中,并增强系统验证传感器数据可靠性的能力。
-
响应延迟
:DrHouse的基础大型语言模型部署在云服务器上,API调用的延迟不稳定。未来工作包括在移动设备上部署DrHouse的基础大型语言模型或使用边缘-云协作以减少延迟。
-
诊断中的主观因素
:尽管大多数医疗专家认为DrHouse的诊断与标准诊断程序一致,但有35%的专家认为DrHouse的诊断风格与他们自己的不一致。未来方向包括将不同的诊断风格整合到DrHouse中。
-
其他医学大型语言模型作为基础模型
:未来工作包括探索其他现有的医学大型语言模型作为DrHouse的基础模型。
关键问题及回答
问题1:DrHouse在多轮对话中如何整合患者的描述、传感器数据知识和医学知识?
-
运行时提示模板
:DrHouse使用模板化的运行时提示,将患者的描述、传感器数据、医学知识和诊断指南树输入到LLMs中。具体来说,提示包含四个部分:患者的当前症状描述、传感器数据知识、医学知识和诊断指南树。
-
多源知识检索
:在每一轮对话中,DrHouse首先检索与患者描述最相似的前k个病例,获取相应的诊断指南树。然后,根据患者的描述检索传感器数据知识。
-
知识融合
:DrHouse将患者的描述、传感器数据知识和医学知识融合在一起,形成综合的诊断决策。具体来说,使用模板化的运行时提示,将患者的描述、传感器数据、医学知识和诊断指南树输入到LLMs中,生成诊断结果。
-
诊断决策
:DrHouse通过知识选择和候选疾病的并行检查来生成可解释的诊断结果。首先根据患者的初步描述检索前k个最相关的疾病,然后根据诊断指南树逐步确认疾病的可能性,并结合传感器数据的不确定性来做出最终的诊断决策。
问题2:DrHouse在诊断过程中如何处理传感器数据的不确定性?
-
不确定性评分
:DrHouse首先检查传感器数据的不确定性,为每个样本分配一个不确定性评分。如果不确定性高,虚拟医生会请求患者进行实验室检测,而不是仅依赖传感器数据。
-
窗口概率密度函数(PDF)
:DrHouse使用基于窗口的PDF方法来计算每个传感器数据记录的平均值和方差,从而避免在运动等情况下对传感器值的误解。例如,运动中较高的心率如果整体平均值保持稳定,则不会被误认为是异常值。
-
错误传感器读数检测
:DrHouse还能识别错误的传感器读数,如异常的零值,并通过不确定性评分来进一步处理这些情况。
问题3:DrHouse在用户研究中的表现如何?
-
测试对象反馈
:在用户研究中,12名测试对象中有83.4%对DrHouse的诊断表示满意,91.7%的测试对象愿意在未来使用DrHouse进行诊断。大多数参与者认为DrHouse的诊断结果可靠,并且比传统医院就诊更方便。
-
医学专家反馈
:20名医学专家参与了用户研究,其中80%的专家认为DrHouse的诊断与标准诊断程序一致或高度一致,80%的专家认为DrHouse能正确诊断疾病。85%的专家认为DrHouse对他们的诊断有帮助,75%的专家愿意在诊断过程中使用DrHouse。90%的专家认为DrHouse的设计新颖且实用。
-
市场潜力
:用户研究和医学专家的反馈表明,DrHouse具有很高的市场潜力,可以作为医生的预筛查工具,提高诊断效率并减少医生的工作负担。