专栏名称: 丁香园
丁香园官方号,一百多万医生在关注。作为中国医务工作者的网上家园,丁香园深知医疗的痛苦与快乐。我们提供交流的平台、独家深入的内容,也有为医务工作者提供的各种服务。医疗行业从业者,请订阅我们。
目录
相关文章推荐
丁香园  ·  全球首个!猪肾移植临床试验来了 ·  22 小时前  
赛柏蓝  ·  2025年,集采趋势 ·  昨天  
丁香园  ·  患者「伸舌 1 ... ·  2 天前  
51好读  ›  专栏  ›  丁香园

DeepSeek 会让医生失业吗?我们直接安排 ChatGPT 来 PK 看病,主任当裁判!

丁香园  · 公众号  · 医学  · 2025-02-06 20:00

正文

要说最近称得上「顶流」的,那一定非 DeepSeek 莫属。

作为一款天天刷屏的国产 AI 大模型,DeepSeek 免不了被拿来和 ChatGPT 做比较——吃穿住行、社交谈心,你能想到的内容几乎都被拉出来比了一轮。

图源:自己截的

那么,在「当医生」方面, ChatGPT 和 DeepSeek 谁更甚一筹呢?

毕竟 ChatGPT 在医学上的「战绩」十分耀眼:问世 1 个月内就拿下了美国医师执照考试,还以一作身份发表过学术论文。 (点击查看丁香园往期文章: 能过执业医师考试、还能当论文一作:医生会被它取代吗?

那不如就让 ChatGPT 和 DeepSeek 在线 PK 一场。

参考此前《关于 ChatGPT 与专业医生在线问诊能力的比较研究》的测试方法 (点击查看丁香园往期文章: ChatGPT 能让医生失业吗?我们直接请了 6 名医生和它 PK 看病 ,我们从 丁香医生在线问诊平台 选取了 1 个公开的真实问诊案例, 模拟患者在线问诊场景,分别向 ChatGPT 和 DeepSeek 提问。

因为模拟的是「患者」问诊,我们选择了同样免费的 Chat GPT-4o mini 模式和 DeepSeek-R1 模式。

然后,我们引入 丁香医生在线问诊平台 审核团队,从医学专业性与服务性 2 方面,对两者的回答进行综合评估。

● 医学专业性审核说明:隐去医生和患者姓名等信息后,平台邀请 2 位及以上临床一线专家进行交叉审核,最终综合所有专家意见得出结果。
● 服务性审核说明:隐去医生和患者姓名等信息后,由具有医学背景的平台工作人员对回复的合规性、完整性和文字表达进行评估。

话不多说,一起来看看 PK 结果——


ChatGPT 和 DeepSeek 在线 PK 看病,谁更专业?

丁香医生在线问诊平台 中随机抽选了 1 个案例, 第 1 问如下:


ChatGPT-4o mini 回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →

DeepSeek-R1 回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →

追加第 2 问:


ChatGPT-4o mini 回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →

DeepSeek-R1 回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →

再次追加第 3 问:


ChatGPT-4o mini 回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →

DeepSeek-R1 回答结果
← 左右滑动查看完整内容 →
← 左右滑动查看完整内容 →

首先,从提问者的角度出发,最直观的感受就是, DeepSeek 太慢了! 相比于次次秒答的 ChatGPT, 在回 答第 2 问和第 3 问时, DeepSeek 卡壳了十几次才「思考」成功,都不用等具体的回答,直接就能赶走一大波着急的患者。

那么对于愿意耐心等待的患者来说,两者的回复质量分别如何?

两位来自 丁香医生在线问诊平台 审核团队的临床专家,看完 ChatGPT 和 DeepSeek 的回答后,从「是否有专业错误」、「是否具有针对性」等方面进行了综合评价。


总的来说,在我们这个小测试里, ChatGPT 和 DeepSeek 的看病能力难以决出胜负,因为它们—— 半斤八两,都不咋地!

非要排个先后的话,DeepSeek 稍稍胜上一筹。 不过我们仅仅比较了 1 个案例,这一结论显然是不准确的。想要真正比较 ChatGPT 和 DeepSeek 在医学方面谁更强,需要更大规模、更严谨的研究。


所以 AI 能让医生失业吗?还差太远!

好在跟我们一样对这个问题感兴趣的人并不在少数。

上个月 28 日,一个意大利团队在 medRxiv 上发表了一项研究:让 ChatGPT 和 DeepSeek 分别刷了 500 道题。 [1]






请到「今天看啥」查看全文