南澳大学医学专家 Luke Oakden-Rayner 发表了一系列博客文章,讨论机器会不会在短时间内取代人类医生,他总结出了医疗AI领域的 6 大特征,同时列举了他认为深度学习在AI领域的两大里程碑式的研究:谷歌发表在美国医学会杂志(JAMA)关于糖尿病视网膜病变的研究和斯坦福大学的研究者在2017年发表在Nature杂志上的研究“达到皮肤病学家水平对皮肤癌的分类”。
文|新智元
从产业层面看,在普华永道刚刚发布的全球AI报告中,也表明医疗是最容易受到 AI 影响的行业。智能医疗是否已达到“超越人类水平”的临界点?独立的AI诊疗中心何时出现?请来世界人工智能大会智能医疗论坛寻找答案。
南澳大学的放射科医师、医学专家,在阿德莱德大学与公共卫生学院攻读医学博士学位的 Luke Oakden-Rayner从今年5月开始就在追逐医疗AI领域的发展,他写了一系列的博客来介绍这一领域的最新进展,目前更新到第三篇,其系列博客的名字就叫《人类医学的终结 - 医学AI研究最前沿》(The End of Human Doctors – The Bleeding Edge of Medical AI Research)。
他这一系列博客的文章将主要讨论:
机器会不会在短时间内取代人类医生。
他说,这些文章将会深入到医疗自动化的最前沿研究中。此前许多关于医疗AI的文章中,我们简单地假设深度学习可以将医疗的任务自动化,这么做是有意义的,因为这样我们就能获得一大堆的概念和定义,但是,在这篇文章中,我们首先要对这一说法进行一下论证。
接下来,会讨论医疗AI所面临的阻碍,此前许多讨论都集中在外部的障碍,比如监管和自动化的普及率。但是我们甚至都没有触碰到最本质的问题——技术上的挑战,它可能会减缓AI对医生的替代。
在前面的三篇文章中,他列举了他认为深度学习在AI领域的两大里程碑式的研究,分别标志着这一领域所取得的第一和第二个大突破:谷歌发表在美国医学会杂志(JAMA)关于糖尿病视网膜病变的研究和斯坦福大学的研究者在2017年发表在Nature杂志上的研究“达到皮肤病学家水平对皮肤癌的分类”。
此外,他还介绍了一些“小的但是不容忽视的”研究,比如“高分辨率乳腺癌筛查与多视角深卷积神经网络”和“检测巨细胞病变图像上的癌症转移”。
通过这些最前沿的研究,他总结出了医疗AI领域的6 大特征(问题):
-
医学影像提出了大多数其他图像分析AI不必面对的特定问题。其中之一就是“瓦力在哪里”的问题:图像通常是海量的,但疾病的特征通常是小而微妙的。
-
在医疗任务中,通过丢弃像素来压缩图像可能会损害性能,这意味着预训练不适用。
-
巨大的图像带来了技术上的挑战,因为深度学习的硬件很难匹配其需求。
-
解决这些挑战的一个方法是通过基于补丁的训练,但是这会成倍地增加数据集收集的时间和成本。
-
临床人群的低发病率意味着我们通常需要庞大的数据集才能找到足够的阳性病例。就算这些数据集本身已经存在,这也会大大增加成本。
-
医学AI系统在某些特定方面比人类专家更灵活,即使水平达不到人类的层次,但也可能是有用的。
以下是Luke Oakden-Rayner的博客文章内容,以第一人称方式呈现:
第一部分,我们将会对一个研究进行深度的解读,这绝对是一项最先进(state of the art)的研究。
首先,我想提醒大家,从2012年开始,深度学习才成为一种可应用的方法被使用,所以,我们在医学中使用这一技术的时间还不超过5年,并且,要知道,医疗人员在技术上的反应通常会慢半拍。有了这些前提,我们会发现现在取得的很多结果都是令人难以置信的,但是,我们也必须承认,这仅仅是开始。
接下来,我会对一些明显代表作医疗领域自动化取得突破的论文进行解读,同时会补充一些有用的对话。除了介绍论文,还会讨论以下几个关键要素:
-
任务:这是一个临床的任务吗?如果这一工作被自动化,有多少医疗从业者会被颠覆?为什么这一任务会被选中。
-
数据:数据是如何收集和处理的?它如何遵守医学审查和监管要求?我们可以更广泛地了解医疗AI的数据需求。
-
结果:它们与人类医生相比能力如何?它们究竟测试了什么?我们还能收集更多的什么?
-
结论:这一研究的重要性在哪?可扩展的地方在哪?
第一个论文。谷歌发表在美国医学会杂志(JAMA)关于糖尿病视网膜病变的论文。(2016年12月)
任务
:糖尿病性视网膜病变是致盲的主要成因之一,主要由眼睛后部细小血管损伤引起。这是通过观察眼睛的背面,可以看到血管。所以这是一个感知任务。他们训练了一个深度学习系统,执行与糖尿病视网膜病变评估相关的几项工作。文章标题中所提到的结果是评估“可参考”的糖尿病性视网膜病变,其正在检测中度或更差的眼睛疾病(该组患者的治疗方式与“不可参考”眼病患者的治疗方式不同)。他们还评估了识别严重视网膜病变并检测黄斑水肿的能力。
数据
:他们对13万个视网膜照片进行了训练,每个级别由3到7名眼科医生进行评估,最终的标签以多数票决定。图像来自使用各种相机的4个位置(美国EyePACS和3家印度医院)的康复临床数据集。
网络模型
:他们使用了Google Inception-v3深层神经网络的预训练版本,这是目前使用最好的图像分析系统之一。预训练通常意味着他们已经接受过训练的网络来检测非医疗物体(如猫和汽车的照片),然后进一步对特定医学图像进行了训练。这就是为什么网络只能接受229 x 299像素的图像。
结果
:这篇论文我认为是医学深度学习的第一个大突破。他们的AI系统获得了与单个眼科医生相同水平的表现,在于眼科医生的平均水平相比时,也不落下风。
图:彩色的点是人类眼科医生,黑线是谷歌的深度学习系统。
与人类以上相比,他们的系统在检测黄斑水肿上做到了相同的水平,但是在更严重视网膜病变绝对值(AUC值)上要差一些。
关于这一研究的10点总结
-
Google(和合作者)训练了一个系统,以检测糖尿病视网膜病变(其导致全世界5%的失明),系统的表现与一组眼科医生的表现相当。
-
这是一个有用的临床任务,这可能不会节省大量资金,也不会在自动化的时候取代医生,但具有很强的人道主义动机。
-
他们使用130,000个视网膜图像进行训练,比公开的数据集大1到2个数量级。
-
他们用更多阳性的案例丰富了他们的训练集,大概是为了抵消训练对不平衡数据的影响(一个没有共识性的解决解决方案的问题)。
-
由于大多数深度学习模型都针对小型照片进行了优化,所以图像被大量采样,丢弃了90%以上的像素。目前看来,我们还不知道这是不是件好事。
-
他们使用一组眼科医生来标注数据,很可能花费了数百万美元。这是为了获得比任何单个医生的解释更准确的“真正的真相”。
-
第5点和第6点是所有当前医学深度学习系统的错误来源,而且人们对这些话题知之甚少。
-
深度学习系统比医生有优势,因为它们可以用于各种“操作点”。相同的系统可以执行高灵敏度筛选和高特异性诊断,而无需再训练。所涉及的trade-off是透明的(不像医生)。
-
这是一个很好的研究。它在可读性上是令人难以置信的,并在文本和补充中包含了大量有用的信息。
-
该研究似乎符合目前FDA对510(k)法案的要求。虽然这项技术不太可能要通过这一手续,但是该系统或衍生物完全可能在未来一两年内成为临床实践的一部分。