拿起手机打开 AI 就能看病?!
目前,已经有很多人开始用 AI 工具进行医疗方面的咨询,医学领域的研究人员也早就开始使用 AI 工具进行高效的学习和证据的梳理。
那么,
AI 真的能代替医生给人看病吗?
最近,
网上关于“AI 看病”的讨论热度非常之高,仿佛 AI 一夜之间就要代替医生了。
图源:网络
今天,我们从 AI
、医、患三个方面进行梳理,来细致聊聊随着 AI
的不断进步,将会给医疗本身和医患关系带来哪些影响
。
近几个月以来,国内一提起 AI(
artificial intelligence,人工智能
),大家马上会想到深度求索
(DeepSeek)
,很多热帖里都提及到使用 DeepSeek 尝试解决医疗问题。但这里需要先厘清一个概念——GAI
(
generative artificial intelligence,生成式人工智能
)
,它指的是能够根据提示词帮我们“写出一段文字”的工具,
我们平时用的包括 DeepSeek 在内的,
准确来说都属于 GAI,是 AI 的一种。
这类工具在知识问答等领域,将发挥出重要作用显然是毋庸置疑的,但问题的关键在于,
GAI 工具并非“真理”生成器,它为用户提供的,有时候可能只是看起来合理但却与事实不符的信息
,这就是所谓的“人工智能幻觉”(
具体可参考旧文
AI 有多会一本正经地瞎编?超出你的想象!深度解析大模型的"幻觉"机制
)。
人工智能出现幻觉的原因比较复杂,其中最核心的一个原因在于,这类工具仍缺乏对世界的真实理解和常识判断,它不能区分训练数据中的偏差和错误,而用于训练人工智能的大量数据,说到底也仍然是人制造和提供的,那这样的数据,当然就不可能 100% 可靠。
目前看来,这种人工智能产生的幻觉,只能在一定程度上被减小,而不可能彻底被根除,这似乎有点儿像人类世界不可能消除谎言与犯罪一样。
所以,
如果智能工具的使用者本人,不具备相关领域的扎实基本功,那就很容易被 GAI 给出的错误信息蒙蔽
。
涉及到医疗决策时,有些失误就会造成悲剧性的后果。
在现代的医疗环境中,高质量的专业指南仍是指导临床医生从事医疗活动的重要依据,根据循证医学专家陈耀龙等人在 AI 领域的探索和研究,GAI 工具不仅能够加速文献筛选、评价和提取等过程,加速指南的制订流程,还可在推荐意见的形成过程中提供智能辅助,提升指南质量和一致性。
但既往关于指南推广方面存在的问题,并不会因为 GAI 工具的出现就能得到一揽子的解决。
比如在各个国家都存在部分医生对指南“知而不行
”
的问题,更别说有些指南本来就质量不高。这些现象的背后都有着错综复杂的原因,我们只能说在理论上 GAI 似乎有望减少这方面的问题,至于程度如何,现阶段怕是难有定论。
几天前,笔者用一例成年女性右下腹痛的病例向 DeepSeek 提问,得到的反馈与当天出版的《新英格兰医学杂志》
(NEJM)
上刊载的有关异位妊娠治疗建议相差不多。
也就是说,
基于同样的临床资料,DeepSeek 给出的诊疗建议已经跟顶尖医生的观点非常接近了。但对于药物治疗,DeepSeek 出现了小小的失误
,它认为该病患 β-hCG 水平较高,不适用甲氨蝶呤治疗。
根据最新版的异位妊娠治疗指南(2018 年),该患的情形,医生可以推荐腹腔镜手术治疗或两剂甲氨蝶呤方案药物治疗,两种方案各有利弊,都不能说是完美的,这就需要临床医生与病患在充分沟通之后共同决策。
根据上述例子,我们不妨假设如下几种情景:
如果病人在正式与医生讨论治疗方案之前,先从 DeepSeek 这里得到了一个应手术治疗的建议,而且病人对手术这一有创操作并不抗拒,那么当医生给出两个方案之后,病人可能很容易就做出了手术的决策。
倘若病人对手术很恐惧,在拿到 DeepSeek 的建议之后,再与医生交流,可能也比较容易做出药物治疗的选择。
但上述情形只是一个相对理想的状况。首先,该女患者的临床表现非常典型,这类病例题在医学生的考试中,都属于送分题;其次,病人要能准确提炼出来关键信息,这不是谁都能做到的;最后,医生临床基本功扎实,且真的是以患者利益为中心。
上述条件一旦发生变化,那故事完全就可能是另外一个走向了。
毕竟不是每个人生病都“按照”教科书,如果症状不典型,病人叙述病史不准确,医生基本功不过关且私欲过重,那么无论病人拿到了 GAI 提供的怎样的建议,方方面面因素影响下结局都可能不甚理想。
如果 GAI 工具的使用者原本对自己所提出的问题就了解不多,那就极可能被其误导。如果病人拿到了这样的建议,遇到坚持循证医学的医生,一旦沟通不畅,矛盾恐怕就难以避免了。
如果 GAI 工具给出的建议是大致可靠的,但临床医生的知识却没有及时更新(
就像我们之前提及过的部分医生对指南的知而不行
),这也会产生矛盾。
有学者认为,面对我国医疗资源分布不均衡、基层医生数量短缺以及人群慢性病防治不容乐观的严峻形势,人工智能技术特别是大语言模型的发展能够为我国基层医疗卫生服务提供创新性的解决方案。
如果这一设想能够实现,对医疗资源分布不均衡的问题究竟是提供了一个解决方案,还是会拉大原有的差距,其实很难让人乐观。
就像历史上无数次发生过的事情一样,电话的出现让人际沟通更迅捷了,交通工具的进步让长途转运不再是困难,网络的出现给医疗咨询提供了新的途径,可结局几乎无一例外地均导致了医疗资源的更加集中。
我们假设偏远地区的医疗机构配了 GAI 工具辅助医生诊疗,在理想的情况下,这应该能提高医生的工作效率,提高诊断的准确性,可如果我们再深想一步,如果当地的医生在诊断这一步都需要 GAI 的辅助和提醒才能完成,那你觉得该机构有多大把握能治疗该疾病呢?
如果条件允许,病人极可能第一时间就会选择立刻去上级医院进行后续的治疗了。所以,
我们有理由担心,GAI 工具的普及,很有可能再次无意中加剧医疗不平等。
当然,目前也有很多 AI 从业者正在努力深耕医学领域,正如自动驾驶技术突破到 L5 阶段就能彻底解放司机,也许将来有一天医疗专用 AI 也能够突破某个门槛,为大众提供更多选择。但当下谈“AI 代替医生”显然为时过早。
另外,
从法律的角度来看,患者、医生以及 GAI 工具三者间法律责任非常模糊。
在患者受到伤害的情况下确定法律责任是极其复杂的问题,需要明确的法律法规保障来适当分配责任和保护用户。但这一问题的解决,恐怕只能通过一个影响巨大的新闻事件来推动,人类不大容易在巨大的悲剧出现之前就想到预防或解决方案,这一类代价恐怕是绕不过去的,只能走着看。
不过,从普通人的角度,如果将 GAI 作为医疗咨询的工具,倒是能在一定程度上降低医患之间的沟通成本。2025 年的一份研究,调查了 ChatGPT 提供的医疗响应的安全性、准确性和全面性,并与谷歌进行了比较,以了解烧伤及其管理的常见问题。
三名烧伤和创伤外科医生使用全球质量评分(GQS)量表对谷歌和 ChatGPT 的反应质量进行了评估,评分从 1(质量差)到 5(质量优)。谷歌的答案平均得分为 2.80±1.03,表明存在一些信息,但缺少重要主题。相反,ChatGPT 生成的答案平均得分为 4.57±0.73,表明其质量优异,对患者具有很高的实用性。
所以,
对于一般性的医疗的问题,外科医生一致希望他们的患者从 ChatGPT 获得信息
,这些结果突出了 ChatGPT 作为患者教育来源的潜力。
总结
说到底 GAI 工具的使用者是人,它能发挥出哪些作用,主要还是取决于工具使用者本人的学习能力、知识结构和专业水准。
对于原本就有知识结构方面重大缺陷且又不善于学习的人来说,GAI 工具不啻于魔法,他们很容易不加怀疑地笃信 GAI 工具给出的信息,从而加深自己既有的偏见。
另外,
医患关系的核心部分仍然是人与人的互动,医疗领域的任何技术进步其目的都是为了给病人带去希望和福祉。
在医学的历史上,医生们在追求技术效率和决策精准度的同时,忽略与病人的沟通技巧和同理心的培养、忽略患者心理需求的故事曾屡屡上演。如果医生将来对 GAI 的过度依赖,导致了对患者的人文关怀的忽视(
这是极有可能再次发生的事
),那就与我们追求医疗技术进步的初衷背道而驰了。
而今,站在 AI 技术蓬勃发展的当口,无论是科研、医疗机构,还是一线的临床医生和病人,如何保障人文精神在 AI 技术中充分彰显,实现人类价值与医疗技术的良性互动、协同发展,都将是我们必须要认真思考的问题。
[1]闫温馨,胡健,曾华堂,等.人工智能大语言模型在基层医疗卫生服务中的应用与挑战[J].中国全科医学,2025,28(1):1-6.
[2]罗旭飞, 吕晗, 宋再伟, 等. 生成式人工智能对临床实践指南制订、 评价和应用的影响 [J]. 协和医学杂志,2024,15(5):1173⁃1181.
[3]清华大学万科公共卫生与健康学院,北京大学公共卫生学院,中国医师协会全科医师分会. 智能全科医生中国专家共识[J]. 中国全科医学,2025,28(2):135-142.
[4]Courtney A. Schreiber, M.D., M.P.H., and Sarita Sonalkar, M.D., M.P.H.Author Info & Affiliations. Tubal Ectopic Pregnancy[J]. N Engl J Med, 2025;392:798-805