专栏名称: AI掘金志

雷锋网《AI掘金志》频道：只做计算机视觉 +「安防、医学影像、零售」三大传统领域的深度采访报道。

香港大学尹国圣教授：统计学家眼中的医学AI丨CCF-GAIR 2019

AI掘金志 · 公众号 · · 2019-07-31 11:38

正文

100多年来，统计学在医学研究中一直扮演着极为重要的角色。对药物进行假设检验，利用随机临床试验进行治疗效果的比较、使用ROC曲线评价疾病诊断系统或算法等等，极大地推动了医学研究的发展。人工智能正在成为临床医生做决定时的一种重要补充。

作者 | 李雨晨

编者按：近日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

在AI医疗专场上，香港大学统计与精算科学系主任、ASA Fellow 尹国圣教授发表了主题为《Statistics and AI in Medicine》的演讲。

尹教授的研究方向是临床试验设计、生存分析、贝叶斯统计方法和机器学习。目前他在国际顶级期刊上已发表论文约150篇。

他表示，目前，AI在放射学诊断设备端，如X光、CT、MRI图像上应用最为广泛。利用这些图像的准确诊断有助于加快治疗进程，提高疾病治愈的可能性。另外，NLP在电子病历中的应用也是一个值得探索的方向：“医学电子病历有着海量的数据，怎么样利用这些数据，给病人全方面的诊断，这也是非常有意义的一件事情。”

此外，与传统的生存模型相比，深度学习还可以更准确地预测患者的生存率。当然，这只是机器学习在医学领域的开端，许多应用前景广阔，但还需要在随机临床试验中进一步验证。

尹教授论述了几个深度学习模型在疾病预测中的案例。他强调，如果一个AUC为0.99的算法没有被证明可以改善临床结果，那么它的价值将会大打折扣。

当然，从统计学的角度，尹教授也给我们分享了自己的心得。他介绍，医学上的失误是导致死亡的第三大因素，第一名是心脏病；第二名是癌症；第三名是误诊。

人为错误有时是不可避免的。虽然我们不能消除人为错误，但我们可以更好地度量问题，以设计更安全的系统，减少其发生的频率和可能性。让错误在发生时，尽可能地减小影响。

他说，100多年来，统计学在医学研究中一直扮演着极为重要的角色。对药物进行假设检验，利用随机临床试验进行治疗效果的比较、使用ROC曲线评价疾病诊断系统或算法等等，而人工智能正在成为临床医生做决定时的一种补充。

以下为尹国圣教授的现场演讲内容，雷锋网作了不改变原意的编辑及整理：

尹国圣：大家好！很高兴有这个机会跟大家分享一下，我从统计学的角度看AI在医学上的应用。

前面几位演讲嘉宾讲述了很多不同的案例。大家都知道AI在医学影像上的应用是最多的，比如说放射影像、病理影像。病理影像比放射影像的数量少很多，因为电子化的病理影像成本很高。

另外，电子病历数据也是AI应该得到应用的重点。通常我们需要用NLP的方法去提取一些特征，然后把这些特征放到统计学的模型里。

还有另一大类AI的应用是Prediction。我会给一些例子，如何用全方位的数据预测病人的生存时间，进行更精准的病人生存预测。

总体来说，从统计学的角度，AI在医学上的应用还在比较初期的阶段，我会给大家介绍一些具体的案例，为什么我认为它在黎明的阶段。

大家都知道这是Deep Neural Network（DNN）。

从统计学的角度讲，DNN缺乏可解释性。统计在医学上的应用已经超过上百年的历史，为什么Deep Neural Network刚兴起，就在医学领域变得越来越重要。

从我的角度来看，DNN是统计模型，它是一个统计学的非参模型，可以拟合的数据非常复杂。

首先我介绍几种应用。

比如说膝关节的MRI图像是三维的，有横向、纵向、俯视切面，怎么样通过CNN进行三维诊断，最后分析出不同的病理情况。

另外一个应用是眼科。

大家知道随着糖尿病病人年纪增大，眼部的视力会越来越差，甚至导致失明。在《JAMA》的这篇文章里，研究人员通过视网膜的图像，有54名医学眼科专家进行标注，通过不同的数据集进行验证。

但是这篇文章，最后说“Further research is necessary to determine the feasibility of applying this algorithm in the clinical setting”。

就是说，如果看到《Science》、《CELL》这些顶级杂志的成果，我们会发现他们做了很多的比较。比较以后，研究还需要进一步的Validation，而不可以在临床环境中直接进行应用。

当然，整个研究的比较结果，通常都是算法打败了人类，因为如果算法不能打败人类，成果肯定是不能发表的。

这是ROC曲线，黑色线离左上角越近越好，曲线下的面积是AUC。黑色的线代表了算法诊断的结果。你可以看到，算法的结果已经非常接近专家的水平，甚至有时候会超过专家。

这是另外一项于2017年发表在《Nature》上关于皮肤癌的研究，利用AI进行皮肤癌和其他皮肤病变的诊断。

这个研究首先是在ImageNet上训练模型，因为医学的数据比较少，我们可以通过其他海量图像的数据进行训练，然后再利用迁移学习的方法进一步训练，这是非常常用的方法，可以对两千多种皮肤疾病进行分类。

这是皮肤科医生和AI在ROC曲线上的比较结果。蓝色的线是AI的结果，红色的点是皮肤科专家的结果。你可以看到，通过AI的诊断结果基本上可以达到甚至超过皮肤专家的诊断结果。

另外一个研究是关于乳腺癌的淋巴结转移。

这个案例的样本量很小，只有200多个病人。一组有淋巴结转移，另一组没有淋巴结转移。通过AI的方法来进行读片，最后有11名有时间限制的病理学家和一名无时间限制的病理学家对同一组相应的玻片进行了评估。

因为，病理学专家验证是有时间限制的。还有一种是没有时间限制，需要模拟真正临床环境中病理专家阅片的场景。因为AI读片子比病理专家读片子的速度快很多，如果给病理专家足够多的时间，是不是可以超过 AI？

这是其中一个比赛的项目：CAMELYON16，这是病理学家和AI比较的图。像刚才演讲嘉宾讲的，病理学图像比放射图像的数量少得多，因为病理学图像非常昂贵，需要把玻片转换成数字化的图像。

一个很重要的结论是，目前，很多研究都不是prospective study（前瞻性研究）——观察一组受试者随时间的推移，某些不同的特定因素是如何影响研究结果，这才是真正有意义的随机临床试验下的研究。

我们如何说causal inference, A cause B？现在右边列出的研究大多是追溯型的研究，我们看到这些数据追溯之前发生什么样的事情，这样的研究你都不可以得到确切的causal结论。所以，如果希望监管部门批准研发结果，你需要进行前瞻性的研究。

AI让人觉得非常兴奋，大部分研究的AUC都能达到90%，甚至99%。但是AI不是一味地追求AUC是多少，而是要表现出临床的价值。

从医生的角度来讲，AI是否能真正帮助医生，节省他们的诊断时间，帮他们治疗病人，这种临床意义下的AI才是最有意义的。

IDx的一项研究是关于900个糖尿病病人眼部失明的案例，这是真正临床意义上的试验，随着时间跟进型的案例。

由IDx公司开发的专有系统(结合算法的成像设备)和临床专家对图像进行评估，该系统可通过视网膜的光学相干断层扫描(OCT)图像进行诊断。

系统算法在疾病诊断中对819例患者的敏感性为87%，特异性为91%。最后，FDA也是批准了IDx的人工智能产品。

另外一个我想说的话题是，医学失误是导致死亡的第三大因素，第一名是心脏病、第二名是癌症。为什么医学失误会带来这么多的问题？

发表于《美国医学协会杂志》、《柳叶刀》和《新英格兰医学杂志》三家主要医学期刊的3000多项随机对照试验分析显示，有将近400个medical reversal。

人类的误诊是一个不可避免的事情，即使是一个最顶级的医生也会犯错误。但是我们怎么减少人的误诊带来的死亡。AI能不能带来帮助呢？

我们可以有三种不同的方式： make errors more visible（使错误在发生时更明显）、having remedies at hand（有急救措施）、take human limitations into account（考虑人类的局限性）。

这是FDA发布的公告，FDA批准很多医疗器材。比如说，心脏病人的心跳频率如何保持正常？或是心脏搭桥手术。

AI作为SaMD医疗设备，如何通过FDA的认证？

首先，FDA需要AI能够帮助医生进行正确的诊断，可以对患者的病情进行准确的判断，这种情况下，SaMD才有可能得到批准。

而且，非常有意思的是，AI算法可以通过不断地收集数据进行学习而改善，变得越来越精准。

但是当前FDA不允许这样，它希望在评价算法的时候，算法不应再改变，如果更改了就需要重新进行审批。

右边的图表是最近FDA批准的一些AI产品。

比如说IDx在2018年4月份获批。所以，我们要通过深度神经网络在计算机上进行训练，然后进行临床试验验证，最后才能得到FDA的批准。

FDA批准AI产品的频率越来越快，这是从2017年的1月份一直到2018年9月份的汇总。

这是2018年发表在《CELL》上的一篇文章。通过ImageNet做出模型之后，再利用迁移学习，将AI应用到医学领域。我们看到，ROC彩色的点是AI和人类专家的比较。这篇文章用到了633名病人，但是只使用病人的OCT图像。

这个研究非常有探讨空间。上图中，蓝色的线是Validation Data的准确率，橙色的线是Training Data的准确率。Validation Data的表现要优于Training Data的表现。

香港大学尹国圣教授：统计学家眼中的医学AI丨CCF-GAIR 2019

正文

请到「今天看啥」查看全文