专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  TANGOFLUX 通过创新的 CRPO ... ·  2 天前  
爱可可-爱生活  ·  “10个超级提示词让学习事半功倍”经过实践验 ... ·  3 天前  
宝玉xp  ·  //@Ddd_23_:需求就是市场,一切技术 ... ·  3 天前  
爱可可-爱生活  ·  几篇论文实现代码:《OVT-B: A ... ·  3 天前  
51好读  ›  专栏  ›  新智元

打破深度学习检测视网膜病变世界纪录,IBM认知医疗总监谢国彤北大AI课精彩分享

新智元  · 公众号  · AI  · 2017-05-17 13:30

正文

  新智元整理  

整理:随一、熊笑

 

【新智元导读】据 healio.com 最新报道,IBM Research 采用深度学习,根据国际上临床糖尿病视网膜病变量表,可在20秒内测出病变严重程度,在准确性上取得了最高记录。IBM称,这项技术将大大提升效率,帮助医生筛选出更多的糖尿病患者,并更快速地指出需要专科护理的患者。2017年5月16日的北大 AI 公开课第十二讲上, IBM 中国研究院认知医疗研究总监、IBM 全球研究院医疗信息战略联合领导人谢国彤亲临现场,和北大人工智能创新中心主任雷鸣老师一道,就 AI 技术在医疗领域的应用展开了深入探讨。



 IBM 中国研究院认知医疗研究总监、IBM 全球研究院医疗信息战略联合领导人谢国彤来到北大 AI 公开课第12讲,和北大人工智能创新中心主任雷鸣老师一道,就 AI 技术在医疗领域的应用展开了深入探讨。内容涵盖:


1. 医疗大数据及Watson健康概述

2. 医疗文本挖掘和肿瘤辅助治疗案例

3. 医疗影像分析和皮肤癌辅助诊断案例

4. 结构化医疗数据分析和真实世界证据案例

5. 认知决策技术和慢性病诊疗案例

6. 自然语言问答技术和疾病管理案例


雷鸣老师开场白:今天我们非常有幸请来了IBM中国研究院负责智能医疗方向的研究负责人谢国彤博士,谢博士在过去十年都在做医疗方向的研究,参与IBM Watson的医疗研究,包括医疗与人工智能结合之后,认知、感知和医疗的结合。在中国也带领了一个很大的研发团队,跟美国、欧洲、日本等 IBM 的研究机构共同合作,推进、解决一些对人类非常有意义有价值的事情。我们也知道Watson在癌症诊断、医学影像等方面有非常好的进展。今天,我们特别高兴地请谢国彤与大家分享一下 IBM 在AI+医疗方面的进展,以及分享一下医疗+人工智能方向未来会有什么样的发展、突破和挑战,我们以热烈的掌声欢迎他。


类脑芯片走得会更远


谢国彤老师:谢谢雷鸣老师。非常荣幸有机会来跟北大的同学和老师们分享一下IBM在医疗方面如何用人工智能技术来解决医疗问题,以及我们做过的一些尝试。今天,主要想跟大家分享一些趋势和具体的案例。我们用什么样的技术解决什么样的问题,希望能够给大家一些启发,我们可以来讨论怎么样把医疗AI做得更好。



我叫谢国彤,负责 IBM 中国研究院的医疗研究工作。同时,IBM 在全球有12家研究院,除了南极洲之外,每个大洲都有 IBM 研究院,我们整个医疗研究团队是一个全球的团队。我和另外几位同事一起也负责制定全球IBM研究院在healthcare informatics(医学信息学)方面的研究重点。这是第12次课了,各位已经听到了很多人工智能的技术,包括人工智能在产业的应用,不管在金融、交通、驾驶、生命科学各个方面,可能都听到了很多案例。


其实这场人工智能运动,IBM 是最早的参与者之一。在2011年,IBM当时推出了Watson系统,能够与人类进行智能问答竞赛。从11年到现在已经过去六年的时间了,我们的体会是把一个通用的人工智能系统应用到行业不是简单的事情,不是说有一个通用的算法,结合行业的数据一跑,就可以得出一个结果,去改变行业。这是一个很美好的梦想,但是现实更复杂。所以在过去的六年时间,我们经过了大量尝试,将这些技术应用于能源、交通、金融、医疗的方方面面,也取得了一些成绩。



IBM做其实医疗,核心只想解决一个问题——怎么样利用数据挖掘和人工智能的技术,从海量的医疗数据中间去挖掘出证据,利用这些证据给患者提供循症的个性化医疗服务,这也不是一个非常独特的vision,因为数据分析技术从它诞生的第一天就与医疗有关系,现在很多人工智能技术的基础——比如概率论的发明,最早就是解决欧洲的疫苗接种问题。所以数据分析和医疗从第一天起就是相关联的。但是,为什么到现在又成为了一个非常热门的话题,成为一种可能。我个人认为有两个主要的原因:一是计算机算的快,算得过来了;二是数据在那,有东西可算了。


先看看计算机算得过来了。各位很多可能是学computer science,学IT的。随着不管是像Hadoop、Spark这样的并行计算,还是像GPU、FPGA这样的硬件加速发展,计算机的处理能力有了性能上的飞跃发展。我今天也借这个机会,与大家分享在芯片这个领域计算能力的突破性发展。


从图灵那篇著名的论文证明了计算机是能做出来的,然后到冯诺依曼从工程上提出了冯诺依曼架构,证明计算机是怎么做出来的,这些工作都是在二战前后(1950年前后)。半个世纪过去了,其实计算机最核心的计算部件CPU并没有本质变化,与当年冯诺依曼和图灵设想的没有太大变化,只不过做的更小了,集成度更高了,计算能力更强了。但是最近几年,计算能力方面,CPU的计算技术上有了突破性的发展。



第一个我想介绍的话就是类脑芯片。目前,IBM、国内中科院、其他的公司都在做这方面的工作,类脑计算芯片的核心想法就完全突破了以前冯诺依曼通过加法器这样的一套计算框架,而是从神经元的角度做一个芯片。这个芯片中,没有我们在通用CPU中看到的东西,而是一个neuron(神经元),然后神经元之间通过神经元的突触把它连接起来。这样一个架构天生就是一个神经网络,可以完成这种基于神经网络的一些算法,比如CNN或者DNN算法,有天生的优势。



目前,一个芯片上有上百万个神经元与神经元之间的连接,synapses(神经突触)可以达到两亿五千多万个。这样一个非常复杂的芯片功耗非常低,只有70毫瓦。大概一个智能手机的功耗在五瓦左右,它的能耗是你手机的1%,是笔记本电脑的千分之一。所以你可以设想一下,一个拥有上百万个神经元,几亿个神经触突的芯片,可以做得如此的小,如此的低功耗,去运行模式识别或者deep learning这样的task,然后放在各种各样的传感器上,这就是大家讲的边缘计算。



所有的事情都成为了可能,这是计算芯片技术的一个大突破。类脑芯片,用人脑的神经元架构来去构造芯片。


另外,我想介绍的就是IBM Q就是IBM的量子计算机,名字是IBM Q,听起来萌萌哒的。



我当时看到图片的第一感觉是好像看到了四五十年代的传统主机,大的像一间房子一样。目前这个机器就在IBM研究院总部。它只有五个量子位,是一个很小的量子计算机。但实现了一个技术上的突破,可以保证五个量子位可以有稳定的输出。


IBM新的计划是会推出有50个量子位的量子计算机。其实我一开始也不太理解为什么要做50个,后来查了一些量子计算的文章,目前从理论上推算,49位的量子位可以达到现在所有超级计算机的计算水平,如果你能够做到50位的,就可以beat目前所有的超级计算机,所以会比类脑芯片走的会更远。可以预见在未来,计算能力的突破是非常可观的。以后的所有软件,可以设想有无限的计算能力来支撑,那么很多想法都是完全不一样的。


没有单一数据模型能够覆盖多模态的医疗数据


从计算能力再跳回医疗本身,就是第二个因素,就是医疗数据的爆炸,算得过来也有数据可算了。



这是医疗界关于医疗数据的调研,或者从IBM视角来看医疗数据分析包括三大类的数据:临床数据、基因数据和大健康数据:1)临床数据,就是医院产生的数据,一个人去医院会做检验、开药、拍片,这都是医院产生的数据,有一个测算临床数据对人健康的影响有10%;2)基因数据,就是与生俱来的数据,对人的健康影响有30%,有很多人在做基于基因的诊断,包括肿瘤治疗。当年女神安吉丽娜朱莉做过一个乳腺切除,也是因为经过基因测序,发现有一些遗传上的变异;3)大健康的数据,就是目前医院和基因之外,所有与健康相关的数据,包括饮食、运动、工作、在社交媒体上发泄的情绪。


医疗数据分析就是要从海量的医疗数据中,寻找医学证据,然后利用这些证据提供更加个性化的基于证据的临床治疗。我们来看一看,从IBM的视角来看,有了计算能力和数据,能做些什么。


那从IBM角度来看,目前做三件事情:1)做一个医疗数据云,把医疗数据先存起来;2)做analytics,怎么对医疗数据进行深度的计算和分析,把它变成模型,一些API;3)做解决方案,怎么针对不同类型的医疗领域客户,打造客户能够使用的具体软件和解决方案。


在医疗领域,我们解决两个问题:一是解决多模态医疗数据的存储问题。医疗数据是多模态数据,有结构化很好的数据,比如化验单、处方;还有一些半结构化的数据,比如住院小结、出院小结、入院首页,病例里面有大段的文本;还有完全无结构化的数据,比如医疗影像;还包括像基因测序这样的组学数据;还包括时间序列数据,比如ICU里会看到一个人插着各种各样的仪器去测量它的血压心率脉搏等各种流数据。这些数据是不同模态的,有些数据适合用关系型的数据存储,有些数据适用时间序列数据存储。目前,没有一种单一数据模型能够覆盖这种多模态的医疗数据,如何有好的云平台去处理多模态医疗数据,这是需要解决的第一个问题。


第二个问题就是安全和隐私问题,因为医疗数据的话我们有很多知道很多这种关键信息泄露信用卡信息泄露,医疗数据的话是非常隐私的个人数据,怎么样对这些数据进行保护,这是云平台一定要做好的。欧美一些国家都有针对医疗数据保护的法规。根据这个法规,医疗数据约有二十几项关键的隐私数据,比如姓名、住址、电话、身份证号,进入数据管理的时候必须要打马赛克去隐私,同时对数据进行强加密,数据即使被泄露也是不可解密的;对所有的数据访问(谁什么时间能访问什么)都要有一套严格的访问控制,通过这样的方式来保证数据安全性。



简单而言,分析层也做两件事情。第一是对多模态医疗数据的分析,不管是结构化病历数据、影像数据,还是文本数据、时间序列数据,不同的数据不存在单一的技术能够对所有数据都进行一个很完美的分析,所以目前针对不同类型的数据有不同的分析方法,有些适合用深度学习的方法,有些采用时间序列的方法,有一些适合用回归分析的方法,分类的方法,聚类的方法。


第二,分析是与医疗领域相关的,医学里有一些特定的问题,不是去分析照片是谁或者什么,而是分析数据里疾病风险的因素是什么,怎么样做疾病的预测和预防,怎么样对患者进行精准分群,可以对患者进行个性化治疗或者有不同的治疗方案时哪种方案对患者反应比较好(treatment effectiveness),包括影像识别怎么自动发现影像中间的病灶,都有非常强的医学知识。从解决方案的角度来看,医疗是一个非常复杂的行业,医院、医生、药厂、医疗设备制造商、健康管理机构、医疗保险公司,他们的诉求是不一样的,不必须要针对不同类型的客户做出不同的解决方案,可以利用底层的云平台和分析技术。在解决方案里,我们有针对像医院类型的医疗机构的解决方案,包括肿瘤的个性化治疗,Oncologyand Genomics,医院影像(medical imaging)的分析。还有针对药企做新药发现和上市药物有效性、安全性的分析,还有帮助健康管理机构,对常见的慢性病人群(高血压、糖尿病、慢性肾病)以及多种并发性慢病的患者进行管理解决方案,也有帮助医疗保险机构合理地valuedbased care,按照价值来付费,来进行疾病管理。在目前的平台上,IBM通过过去两年的收购,目前有超过2亿美国人的医疗保险数据,有超过1亿美国人的电子病历数据,有超过10亿张的医学影像片子,有美国几十个州的慢性病管理数据,把这些数据关联起来做分析,就会发现非常有价值的,任何单一数据源都无法发现的一些insight或者evidence,可以支持上面各种各样的应用。


个性化肿瘤治疗助手和肿瘤基因治疗助手


接下来,给大家来介绍一些具体案例。


第一个我想介绍的是沃森个性化肿瘤治疗助手。


首先肿瘤是一个非常恶性的疾病,目前很多肿瘤也没有什么好的办法,但是危害非常大的。以中国为例,每年新发的肿瘤大概超过 400 万,有一些特定的肿瘤,比如与消化道相关的食管癌胃癌发病率很高,全世界每年新发胃癌有超过40%是在中国。同时,肿瘤治疗很困难。一方面疾病本身比较困难,另一方面治疗方法层出不穷,各种靶向药物,各种新的治疗方法不断的出现。如果想要做一个好的肿瘤医生,每月要读超过1万篇与肿瘤相关的新的科研文献,这是不可能的。这个解决方案的核心技术是运用自然语言理解技术,让机器去代替人去读书。这个系统读了两千多万篇文献,应用自然语言理解抽取里面的疾病症状、诊断治疗、患者病情,然后构成非常复杂的知识图谱。基于这样的知识图谱,当患者问诊,系统会自动从患者所有的既往病历信息中,包括检查报告、片子、检验结果、病史的描述,自动抽取上百项的关键信息,借助后台的知识图谱进行一个很复杂的推理过程,给出治疗的推荐治疗方案,包括不同的方案与患者的契合度,这样的信息可以帮助肿瘤科医生更好地用最新的最好的治疗方案,为患者提供个性化的治疗。Watson Genetics从基因维度切入,与前面解决方案一起解决肿瘤治疗。


因为肿瘤本质上是一种基因变异导致的恶性疾病,医生们就想能不能通过直接用药物打靶,靶向作用到变异的基因来控制肿瘤。


这个系统也很简单。拿到一个患者的二代测序结果后,通过分子的profiling,在患者所有的变异基因全部找到之后,进行很复杂的pathway分析。Pathway主要通过在几千万篇文献中,学习各种药物靶向、基因变异、蛋白质作用过程等方方面面,构成了很复杂的网络,然后推理,给出相应的靶向药物的治疗推荐。前一阶段有个新闻报道,日本东京大学有一个患者得了非常罕见的白血病,然后没有医生没有见过,没有办法确诊,还甚至进行了误诊。借助这样一个系统,很快就找到患者可能得的白血病,同时推荐了一些靶向药物,挽救他的生命。


Watson先读了很多书,包括300本期刊,200多本教科书,几千万的文献。这就是实际系统使用的界面,来了一个患者之后系统会推荐,每一行是一个治疗方案,绿色的是最好的治疗方案,包括放疗、化疗、手术治疗、药物治疗、各种不同的治疗。同时,每一种治疗方案,系统会给出更多的信息,比如治疗方案,愈后效果,是否有毒性,毒性是什么样的。这些信息并不靠医生手工提前录入,而是由系统自动从几千万份文献中,利用自然语言的理解技术,把这些关键信息抽取出来构造成一个知识库,然后推送到医生面前。


其实,很多医院进行肿瘤治疗时,会请很多专家给出自己的治疗意见,包括治疗方案的优缺点。这个系统就相当于一个读了所有的最新文献的专家,把不同的治疗方案包括副作用、不同治疗方案药物之间的相互作用,生成了一本大概有三四十页的报告,提交给医生,帮助医生去做出针对患者最有利的一个治疗方案。


医学影像


下面想介绍的案例是现在非常火的医学影像。医学影像极大地推动了医疗的发展。最早医生看病通过听诊器诊断,后来出现了X光,然后出现了更复杂的像核磁、超声等各种简单诊断设备。这些影像设备可以帮助医生,更好地看到患者体内的信息,甚至包括病理,通过组织切片用高倍显微镜看到细胞层次的变化,做出更加准确的一个判断。


影像对医学的作用太大了,所以在03年的时候,发明核磁共振的一个物理学家和一个化学家竟然得了诺贝尔医学奖,核磁共振极大的颠覆了医疗诊断和治疗。影像也是多模态数据。有一些比较常见的二维影像,比如眼底影像,皮肤癌影像,或者消化道的胃镜肠镜;还有一些是三维影像,比如ct或者核磁通过向切片扫描的方式,对人体进行上百次的扫描,生成一个完整的三维影像。能够很好地用来做各种诊断和治疗;还有一类是这种病理影像,主要做很多肿瘤的治疗,它需要从疑似肿瘤的部位取一个组织,然后进行切片,放在高倍显微镜下,都是几万*几万像素的高分辨率的影像。往往一张病历影像的片子可能就有3G-4G的大小。这些影响虽然可以提高医疗水平,但是分析同样很困难。协和医院想去约一个核磁或者ct可能需要一周甚至一个月的时间。机器其实是不休息,人要休息,看不过来。现在影像分析面临的一个很大的问题——三甲医院的医生的话有大量片子他看不过来。同时,有一些消化道影像,比如胶囊机器吞到肚子里,一次拍一个视频出来,做一次检查生成3万到5万张影像,有病变的部位不超过30张,要从3万张中间去找到那30张,那就是大海捞针,就要靠医生花大量的时间去过滤掉那些无效的片子。所以影像技术的进步对医生来说最迫切的需求就是,怎么样利用识别技术自动发现病噪,提高他看片的效率。


机器看片原理很简单。首先,用一些比较经典的一些影像分析或者模式识别的方法,模拟一个医生的看片过程,看一些视觉特征。因为很多病变部位的位置、大小、颜色、边缘形状都有一些视觉特征,利用这些视觉特征可以帮助计算机判断出来是不是一个恶性的肺结节,或者是不是某一种皮肤癌。同时,计算机可以利用复杂的卷积网络,在像素层级上看像素的变化,在像素层级上进行计算,比人看得更细致。可以通过构建多层的神经网络去提取那些隐含的特征信息,利用这样的信息做判断。


计算机角度来可以看多模态的数据。它不光看影像数据,还看病例信息、基因测序结果,将多模态的信息融合在一起,可以达到一个更好的效果。我们做过很多实验,如果用影像分析叠加其他模态的数据,比如将病历数据、年龄数据、历史病例等关键信息抽取出来之后,病变识别的精度可以直接提高10%以上。


我这边给大家介绍两个例子,一个是黑色素瘤的。



我们将1万张影像有标记的影像交给机器。它利用深度学习的技术学习之后,构建了一个模型,然后再从测试集里面拿出3000张让3名医生和计算机一起来看。人达到的精度大概是84%左右,而计算机可以达到97%。不止是IBM,很多其他公司计算机大概做到90%到95%。


另外一个例子是消化道影像。


每一次检测生成的数据特别多,有 3万到5万张,同时里面有很多不均衡的数据,若想能够自动将这些出血点检测出来,就需要迁移学习技术,很多数据的预处理技术,包括data augmentation或者data resampling,然后构建出来深度学习的网络,达到更好的识别精度。


我给大家看一个针对皮肤癌的小视频。用手机或各种有摄像头的移动设备,拍一下手上的某一个色斑,上传到后台的云服务器上,里面已经有一个训练好的模型。这个模型主要就是做一个分类,判断一下影像是不是黑色素瘤,经过后台计算之后会给出一个结果。判断它不是黑色素瘤,颜色都是比较浅。同时系统会自动把已知的一些确诊的相似的影像返回回来,帮助医生或者患者做一个更好的判断。


实验者也还选了一个已知黑色素瘤的一个确诊影像,这个系统中出现红色告警,说很大可能程度是一个恶性的黑色素瘤,同时会把一些类似的影像都会返回回来,帮助医生来做一个判断。


真实世界证据分析


下面我想给大家介绍的案例的话叫真实世界证据分析。


它是一个医学界的词,对应的词叫RCT,双盲随机对照临床实验。目前判断一个药或一个治疗方案是否有效,必须要做RCT实验,证明药效或者治疗方法的有效性。一个这样的实验平均要花十年以上的时间,要花10到15亿美金,而且不超过10%的成功率。RCT是一个非常耗时耗力耗钱的方式,真实世界证据就是跟它做对应的。


RCT实验一般会组织几百个人,比如五百八百人,分成组去进行实验,要积累数据。同时每天其实生成大量的医疗数据。以中国为例,一年就诊的人次接近70亿人次,相当于是全国人民,每年看五次病,当然有一些老病号。70亿次就诊产生了大量的临床数据,但是这些数据并没有被很好分析,都散落在医院的各个信息科机器上面。这些信息其实可以被用来做真实世界的挖掘,就是利用真实世界的数据,做更好的疾病治疗、预防等。


真实世界证据就是真实世界中数据,包括病历数据、医疗保险数据、疾病数据,输入进来,产出各种模型,比如中风病人的再中风预测模型,或心梗病人的死亡风险预测模型,或某种药物治疗有效性的模型。这样的模型是通过这样的pipeline得到的。我们发现,第一可以有一个通用的pipeline去解决真实世界数据分析的问题,因为过程重复,包括导入数据,数据清洗和整理,构建患者人群,抽取特征做建模。很多是通用的,比如疾病风险预测分析,患者的相似性分群分析,治疗有效性分析,患者依从性分析。这样的分析的话都可以变成一些可重用的模块,作为一插件在平台上来做模型生成。比如,咖啡机放入数据就会生成咖啡,里面有很多参数要调整,你是要喝美式还是拿铁还是摩卡。我说起来比较简单,但是就是这么一个过程,我给大家举两个例子。


第一个例子的话是我们做的疾病风险预测的一个例子。


这个数据库里有45000个心梗病人,有超过800个变量去描述病人的基本信息,包括它的治疗信息,临床信息等。医生想知道哪些因素会导致患者出现院内的死亡,每个患者院内死亡的可能性有多高,这就是一个典型的疾病风险预测的问题。那这个风险模型以前是有的,TIMI模型是目前医学界公认的最好的心脏病的风险预测模型,AUC大概是在0.76,利用我们的方法AUC可以做到0.87,同时我们发现了24个新的风险因素,有很多风险因素的话是非医疗性质的,比如说一些社会性的因素或者就诊医院的一些因素,比如说家庭幸福的人不容易死。


医生常常也做这类分析,他们一般会有自己的假设,从800个量里面挑出15个20个,然后从4400万个人里面挑出一千个人,用经典统计方法去做单变量多变量的回归,去看是不是有显著性,这是目前医学统计常用的方法。但是用这种人工智能方法去做时,我们就会用很多新的一些方法,比如做新的特征抽取。举个例子,我们会用共生的模式挖掘,去看这个患者既有高血压又有糖尿病共病,会不会是一个更加有意义的风险因素。这些因素以前医生不会考虑,是我们通过一些挖掘的方法得到的。包括一些共症共治,比如病人同时服用A药B药进行治疗,可能是一种很好的保护性因素,以前不会考虑A加B,或者A加B加C这样的问题。还有包括一些生理指标,比如血压。

 

医生首先有自己的家属,从800个量里面挑出15到20个,人群他不见得用4万个人,里面挑出一千个人做单变量多变量的回归去看统计是不是有显著性,这是目前医生使用统计常用的方法。


用人工智能方法来做的时候,比如说新的特征的抽取,举个例子我们会用一些共生的模式挖掘去看,这个患者可能既有高血压又有糖尿病,这样的一种共病可能是一个更加有意义的风险因素,这些因素以前医生不会考虑,这是我们通过一些挖掘的方法得到的,包括一些共治,比如说这个病人同时用了A药和B药进行治疗,以前医生可能用A或者B,并不会考虑A+B,还有像包括一些生理指标也是这样,比如说血压当前值是多少,如果这个病人血压高压是150,他是从90连续涨上来的还是一直持续到150,还是从180掉下来,医生不管,医生只通过一个时间来做判断,其实数据时间序列的信息没有很好的利用起来,这些都是用人工智能的方法,不管用RN建模或者其他分析的方法,可以很好的捕捉到数据之间时间序列的信息,利用这样的信息可以做更好的预测。


我们最后发现我们把所有的因素,我们不光发现哪一些因素有影响,同时每个因素的权重包括它的分类都列出来了,医生就会说这个病人因为病情太严重导致死亡的,还是治疗不给力导致死亡的,同时每个病人都会按照风险排一个序,横坐标是一个病人的患者号,所以高风险、中风险和低风险所有病人一目了然,这样可以帮助医生更好对病人进行管理。


第二个例子,我想介绍的是患者精准分群的分析,这个也是精准医疗里面非常重要的,就是什么叫精准?有两个极端,一个极端观点认为每个人都是不一样的,因为每个人的基因都是不一样的,每个人基因变异也是样的,作为个体化治疗要个性化到每个个体,这是一种很好的理想,但是现在做不好。

 

另外一种人群治疗,比如说二型糖尿病,这是一个定义,针对这群人怎么治?目前很多精准医疗希望在这两个极端之间找到更多的重点状态,以中国为例我们心血管的病人2.6亿,糖尿病病人1亿,这1亿人肯定不一样,他肯定不是1亿种情况,也肯定不会是一种情况,怎么样在中间找到一个更合理的分群个性化的治疗,这里面我们做的一个案例是针对房颤病人做卒中的预防,房颤本身是无害的,但有病人会导致恶性的事件,比如说心梗或者脑梗,医生要做的事情就是当来了一个病人之后要做判断,要判断这个病人是高危还是低危,如果高危病人要怎么治,是不是要吃法华林去进行中风的预防。


但是如果这个治疗就这么简单也就罢了,但是很多治疗都是有危害性的,以法华林为例,这个治疗如果用药过量会导致脑溢血。所以医生每天都会面临一个选择,吃还是不吃,这对他们来说是一个问题。按照他们的经验他们知道其实以前可能有一些病人不该吃的我给他吃了,但是很不幸用以前的模型不够精准,发现不了那些不该吃的病人,我们用传统的医学模型认为是高危的病人,不同中风的发病率,看完这个图之后医生特别激动,发现了第一点,有一群人过度治疗了,这群人传统医学方法认为是高危的,其实并不是高危的,只不过以前的模型无法捕捉到细微的区别。


同时这群人是用某种药物。针对这群人,如果吃这个药物中风的发病率是9%,如果不吃则接近18%,这群人对某种治疗方案反映特别好,这个治疗方案在整个人群上是没有显著差异的。所以这就是精准的分群的方法,能够帮助从病例数据中间挖掘出来更精准的患者的分群,然后帮助医生做一个个性化的治疗。


它在方法上有什么特点呢?其实分群也不是一个多么新的方法,分群传统上是一个无监督的学习,分群聚类出来很多结果临床上是没有意义的。我们有一些方法引入一些监督信号。


所以这就是一个精准的分群的方法,能够帮助从病例数据中间挖掘出来更精准的患者的分群,然后去帮助医生做一个个性化的治疗。患者按照中风的发病率分的非常开,这个方法核心是干什么事呢?


它会判断哪一些因素对患者聚类是非常重要的,哪一些因素比较重要,它要自动的挑出来,同时,每个因素的权重是多少,他就可以把患者分的非常开,利用这个方法它就可以挑的非常开。


认知决策



下面我想介绍的叫认知决策,其实这个决策知识也不是新话题,从人工智能诞生的第一天起就有专家系统了,专家系统无非就是如何把专家的知识变成计算机可以执行的规则,所以最早的人工智能,五几年的时候斯坦福做了一个人工智能系统,当时他们针对血液病的治疗,可以对血液病治疗进行分析的,这就是前面的第一步。如果各位有了解,医疗里面有很多临床指南,或者临床路径,这些都是医生总结出来的一些知识和规律。


是不是这样就能看病了呢?如果这样就能看病的话,医学院的医生读完之后就可以当神医了,现实不是这样的,从书本中间学习到知识是有缺陷的,往往学习到的是比较抽象的,实际使用的时候有各种各样的问题。比如说以糖尿病的治疗为例,你会看到,当指南告诉你说这个病人血糖控制的不好,目前使用了双胍类的药物还是控制不住,他应该用双胍和磺脲类联合治疗,到底怎么联合。


我们开始尝试另外一条路径就是用数据驱动,用一些机器学习的方法,不管用什么样的模型,可以用各种各样的模型去做基于数据的推荐,简单的说就是你看到类似的病人都是怎么治的,治完之后效果好不好就可以得到类似的治疗方案,这样出来的结果的好处就是,所有知识都是从数据中间学习出来的,它的数据推荐最接地气。当然它也有缺点,它的缺点是数据往往都是有漏洞的,你的知识是从这个数据上学习出来的。


另外,很多计算机的模型是黑盒子,它对医生来说不可解释,你不能给我一个模型告诉我说怎么治,也不告诉我为什么,我们这个过程当中发现了一个真实的例子。我们以前拿了几万糖尿病病人超过5年的数据。我们发现,降糖方案最好的方法到底是什么?最好的方法就是上胰岛素。医生说你们不是开玩笑吗,我们治疗分一二三四线,胰岛素是最后的,一二三线药物控制不住的时候才会这样,这背后是有一个生物学的逻辑的。对计算机来说,效果最好的就是上胰岛素,所以后来我们说,其实你看这个过程,特别像一个医生的成长过程,一开始是读书,他能够把一些理论的框架和一些非黑即白的知识挖掘出来。但是真实世界很复杂,它复杂在哪呢?就是复杂在数据这一块,因为医疗不是非黑即白的事情,面对一个患者的时候,往往是有多种选择的,每一种选择都有优缺点,并不是说存在一个单一最好的选择。每一种选择应用到患者身上之后,它的效果也是不确定的,这个患者好,那个患者不好,这简单来说就是概率。


    所以其实好的医生毕业之后通过大量的学习,看老医生看病,在自己脑子里面构建了一个概率模型,知道这种情况下会有这几种选择,哪一种选择靠谱可能性大一点,这恰恰是计算机非常擅长的。我们最后做出来的这个方法就是用指南和临床知识作为一个骨架,从数据中间学习各种从疾病的筛查、诊断、治疗、预后相关的概率模型,把它作为血肉,添加到指南的骨架之后,就变成一个非常完整的临床决策的知识库。


    最后,我再给大家介绍一个例子,这是一个技术,这个技术它到底能怎么用?我们把它用到慢性病管理领域里面,中国现在的慢性病患者超过3亿,包括2.6亿高血压,1亿糖尿病,1亿系统疾病,还有慢性的肿瘤患者,这些患者,靠的是大概100万的社区医生来进行管理。面临的现状就是管不过来,所以这些医生,他们一年大概接受两天的培训,帮助他们了解最先进的治疗方案,而且他们一个人不是管一种病,他们一个人至少管20种病以上,这对他们来说是一个巨大的挑战。


    从计算机角度来看,我们帮他们做什么呢?我们选择了两个场景,一个场景是做疾病的预防,我们帮助医生把那些有并发症风险的高危患者尽可能挑出来,比如说糖尿病患者可以并发到超过30万并发症,怎么样可以把那些还没有得中风,还没有得心梗的糖尿病患者及早的发现出来,让医生进行一些预防性的手段,这样做预防能降低病人的痛苦,同时也降低医疗的成本。


    第二块就是治,这个角度我们主要考虑,怎么样利用这种临床指南的知识,和我们从几十万、上百万的这种糖尿病病人治疗既往的数据中间挖掘出来的证据结合在一起,给医生一个针对当前患者最好的治疗方案。这一块我也给大家看一个小的视频,这是我们实际使用的情况,这个情况你可以看到,我们目前这个系统跟医生用的电子病例做了一个整合,目前有6000个病人已经使用这个系统进行治疗,每个月系统生成的推荐接近2000,而且还在持续增长。可以看到,医生接受新鲜事物的情况很有意思。这个社区的医生,他一开始不愿意接受新鲜事物,慢慢就接受并达到了很好的使用水平。


    这个系统模拟社区医生的一个工作平台,医生还要进行随访,这个系统会自动把患者按它的风险给他排高中低排出来,同时为什么这个病人有风险,比如说这个病人为什么有中风的风险,风险模型是什么,有哪一些数据导致他有这样的风险,我们会帮助医生把风险因素找到,同时给他做一个治疗的推荐,这个病人应该降糖、降压、降脂,包括剂量频率等等,都是从数据中间挖掘出来的,类似的病人都用了什么样的治疗方案,效果怎么样,把这样的信息推送给医生,这里面所有的证据,针对治疗系统发现说这是指南里面的证据,包括有接近26%的病人用了这样一个治疗方案,这些病人都是有糖尿病,高血压年龄是在55到75岁,其中很大部分人用了这种治疗,另外一部分人用了另外一种,包括每一种治疗方案的效果。这些信息从数据中间挖掘出来的和指南知识结合在一起推送给医生,帮助他做一个更好的慢性病的管理。


降压药有没有按时吃,血糖有没有变化,如果发现血压特别高,医生就会督促他进行更好的降压管理,血糖升高了也降血糖,这些项目以前是靠人干的,500万人口有100万进行这样的随访,怎么可能随访的过来?所以要招很多护士,包括健康管理机构提供健康管理服务,培训护士来干这个事,这依然是大量人工的工作。


    所以我们在想,我们能不能利用两个关键技术,一个技术是对话技术,我们不是做一个通用聊天机器人,而是做一个虚拟护士,这个护士能够按照护士的随访的过程,针对什么高血压、高血脂、高血糖这样的病人去进行自动的随访,去采集他相应的信息,同时的话呢,去生成预警,如果系统发现病人有情况的话。



第二个技术是QA技术,就是问答技术,中国有很多医患沟通的网站,不管是春雨还是好大夫,这些网站上面大量的患者在问问题,很多的问题跟饮食、运动、作息、药物的副作用、药物之间不良反应有关。其实并不是那么核心的诊断和治疗问题,但这些问题也靠人工来回答的,所以我们在用一些 QA 的技术来做更好的患者教育,帮助患者最及时的找到可信赖的信息。


 但是,患者问的问题是五花八门的,什么病名字写错的,药名字写错的,各种大爷大妈会有各种口语。你怎么样做回答?这是非常核心的技术,我们不同层级都用了深度学习的技术,包括用CNN做问题分类,去做问题的相似性匹配,最后可以达到一个比较好的Top1的结果。


系统会形成一个随访的报告,这个随访的报告包括采访采集到的关键的体重或者血压血糖的信息,包括患者用药的信息,所有的信息都会自动生成一个报告,帮助管理师更好的对患者进行疾病管理。


同时,系统会利用决策的功能,当发现有风险的时候,会及时通知患者和医生让他去医院就诊或者对患者进行及时的干预,避免后面酿成大祸。


    时间关系的话,我今天的分享大概就是这些。最后再讲一点,一个模型、算法,给它一堆数据,一跑就能出来一个治疗或者诊断的模型。一定要把医学的知识和靠谱的分析手段结合在一起,很谨慎的选择数据,选择人群和选择你要分析的任务。做这个事,一句话,要心存敬畏,这样才有可能做出靠谱能用的医疗 AI。我今天的分享就是这样,谢谢大家!


精彩对话



   

雷鸣:非常感谢,讲的特别精彩,基本上涵盖了我们说的整个医疗的过程,包括疾病的预防,包括得病之后的诊断,辅助的治疗方案,以及慢性病管理。涵盖特别多,信息量很大,也讲了IBM在这一块的进展,好多东西我觉得都是第一次学习到,特别好。


基于刚才你讲的东西,我想进一步的了解一下,你刚才讲到IBM在做神经网络芯片,我想大概了解一下神经网络芯片和GPU在定位上,神经网络计算芯片未来是通用的还是专用的,是要替代GPU在深度学习上的计算呢?还是在远端?

   

谢国彤:首先我不是做硬件的,但我可以试着回答一下这方面的问题。大家可以看到,除了CPU之外,现在有GPU、FPGA这样的专用芯片,可以辅助CPU做计算的过程。这种类脑芯片的定位,首先它不是要来替代计算型任务的,CPU该干的事还是CPU干,类脑芯片不是取代计算机干的事,从它的设计来看,它本身就是一个神经网络,是靠神经元和突触,很多普通的计算任务它不擅长,但是它擅长的workload是 neural network 这样的workload ,所以我觉得首先从任务上来看它和经典的CPU、GPU或者FPGA有一个任务上的切割,这是第一点。


第二点它特别强调低功耗,低功耗就会偏向边缘计算,可以想像有互联网或者传感器这样的产品,可以把训练好的模型运行在这样的芯片上,这样的芯片可以想象到,最早听他们做的实验,做了一些机器昆虫绕着硅谷研究院飞,功耗特别低,它可以飞很久,可以采集风、温度、湿度这样的信息,做出这样的方式之后,可以把有效的计算推算到远端,可以在远端做一些事情,不需要耗大量的计算,这样可以在边缘计算这个角度,我觉得它可以发挥更好的价值。

 

雷鸣:这一次人工智能火起来,深度学习功不可没,在图象处理上有一个发展之后,最近一发不可收拾,我想了解一下IBM的研究已经做了十来年了,最近来看深度学习这一项技术在整个医疗领域里面,尤其是医疗科技上,能带来什么样的突破性的发展?这项技术和其他传统的学习算法之间怎么融合,能够推动整个AI+医疗的发展?

   

谢国彤:首先,我觉得就是深度学习在医疗应用的领域,还处在一个开始的阶段,大家比较容易想到的是说把深度识别、深度学习在一些其他领域成功的经验搬到医疗领域里面,所以最直接的就是医疗影像,在医疗影像领域目前用深度学习用的最多的,效果相对来说也是最好的。这可能和影像数据的特征有关系,它从空间上来说是一个比较稀疏的数据。在其他的一些领域,比如说像病例数据领域,是一个非常稀疏的数据。在这样的数据上,深度学习的工作都在尝试阶段。我看到的就是我们自己做的,包括我们看到的一些报道,绝大部分做深度学习的,跟传统的方法比,它的提高都是小数点后第二位甚至第三位上的提高。


但是,我觉得深度学习有一个端到端的学习,这是一个非常好的东西,它有一个潜力,可以把多种学习方法融合在一起,这是我们现在看到的一个非常有趣的点,我们可以在这个中间叠加一些其他的,被证明在这上面比较有效的方法融合在一起,这是我个人认为比较有前景的方向。

   

主持人:我们做医疗比较有挑战的就是医学数据的获取,或者说和医院的合作,因为我在美国的时候,关注这个也很久,我在美国,应该是两三年前,当时跟斯坦福的李飞飞教授一起喝咖啡聊发展的时候,她表示对医学这方面也很感兴趣。但是她告诉我说,即便是在斯坦福校内,她如果用斯坦福校医院的数据,也需要申请,也需要通过论证,她说她当时提了一个项目,讨论了一年好像还不行,所以看起来医疗数据的合作的难度还是比较大的。对IBM来说,怎么跟医院打交道?这一块你有什么经验?或者说你对这一块未来发展是怎么看的?

   

谢国彤:你刚才讲的李飞飞所说的过程,所有做医疗研究都要经过这样一个过程,通过伦理委员会,证明说你这个研究是符合伦理的,然后不会侵犯患者的隐私,不会危害到患者的生命安全什么的,医疗跟电商是不一样的,是人命关天的事,这是第一点。


第二点,在美国其实有很多数据,因为它的法规比较健全,知道什么是能做的,什么是不能做的,比如说我刚才提到IBM收购了很多数据,那些数据都是合法在使用的,你只要把隐私数据去掉了,这些数据都是可以合法使用甚至交易的。


在美国我看到几亿人的保险数据,上亿人的病例数据,这些数据是可以分析的,这是在美国的情况。


在中国,我们可以看到,其实传统的医院是信息孤岛,不要说医院和医院之间,比如说301和协和,它的数据肯定是两个孤岛,甚至在一个数据集内部,它的系统都是逐步建立起来的,先建一个挂号系统,再建一个拍片系统,再建一个病例系统,甚至这些系统之间都是孤立的,这都是现状。在国内来看,过去5年,卫计委,就是以前的卫生部,花了很多的力气做系统的联通,在区域级别把大医院、中医院、小医院数据尽可能集中在一起,做了很多数据集成的工作。


    第三点也是最近的消息,卫计委在江苏和福建两个地方试点国家的大数据中心,从简单的数据采集现在走向了怎么样分析利用这个数据,让这个数据发生价值。所以我的感觉,整个趋势是在往数据越来越集中,然后数据分析的价值越来越被看到和认可这样一个趋势在走。

   

雷鸣:感觉美国刚才如谢老师讲的,有一些法律法规,反正在这个法律法规之上,符合的很容易就可以做了,但是如果想更深一点,估计这个难度就会非常大,需要各种认可,各种签字,中国这一块现在管理相对来讲正在规范化,所以现在,如果致力于做这一块创业或者研究也好,可能更多的还是要跟咱们的医院真正有数据的地方要去做一些合作,能够得到医院某种支持会更好一点。

   

谢国彤:我再补充一点,除了国家在搞国家大数据之外,习大大投了600亿做精准医疗,所以很多医院的大教授、大专家现在有很多兴趣来做这方面的工作。所以其实在中国的很多合作,也是这方面的专家,他们有数据,也积累了一段时间,希望利用一些新的人工智能的方法来发挥数据的价值。

   

雷鸣:看来正好是风口,我们接着去探讨这个事情,我这一块也做了一些研究,像医疗数据,整个来讲,它的整体的质量,相对比较差一点,说实话我看过一些病例系统,它的记录、自然语言很不完善,有时候甚至找一些更高级的医生看,记录还发现有很多不一错误的地方,我们叫质量比较低的数据,就是说IBM在做的过程中,或者说您个人对这种情况,对往后的研究有什么样的建议?

   

谢国彤:这一块关于医疗数据质量问题,我稍微多说两句,因为我打交道的医疗数据比较多,医疗数据中有质量好的,也有质量差的,影像数据相对来说是质量比较好的,因为国内一般用的都是国外的标准,影像数据的质量反而比较好。有一些数据像病例数据,像疾病登记库的数据,比如说中风或者高血压、糖尿病权威机构、国家什么中心,他花很大的力气经过三五年搜集的数据,这样的数据一般在三五万人,每个患者都在1500到2000个变量,这些数据质量也非常高。


还有一类是医疗保险数据,医疗保险数据它的质量也很好,因为它很连续,不管在A医院看还是B医院看,最后通过医疗保险把所有的数据都关联起来了,这是它的优点。


相对来说病例数据又再细分住院和门诊病例住院数据是质量比较高的,因为很多医生的科研是基于住院病例上面再加工,所以他会花很多力气,包括很多医学院的学生下午的时候在住院科录病例,这些数据质量都比较高,真正病例比较差的是门诊病人,每个病人不超过5分钟,医生没有时间录这个数据,医生也不觉得这个数据有价值。


数据质量确实是良莠不齐的,一开始做这个方面要训练一个好的数据集和一个好的问题,如果一开始选了一个特难的问题,选了一个特烂的数据集,可以保证你不会有特别好的结果,可能是你的问题和数据集没有选对。


回过头来再讲针对大量吸收的数据,其实目前也有一些技术上的探索,就像是做数据的萃取,传统在统计里面有数据补全的方法,对缺失的数据进行补全,医生觉得你补了之后不可信,现在有很多强调数据萃取的方法,怎么样给你一百万的数据,能不能提炼出10万人是连续性比较好的数据。这里面其实还和目前比较火的GAN网络有关系,现在有一些人在尝试,这个数据甚至是生成的数据,但是我用这个数据是从上百万、上千万数据中间学习出来的一个数据的分布,有了这个数据分布之后生成的数据,用这个数据去训练模型,甚至可以训练出来一个靠谱的模型,所以有很多人在做这方面的尝试,选择好的数据集,同时咱们国家自然的数据质量也在提高。

    

另外一点,也有一些技术的手段,可以再弥补一些数据质量的缺失。

   

雷鸣:好,刚才提到的就是我们现在超级火的对抗生成。再问一个问题,医疗这个事情,因为我们很多做技术的小伙伴,创业的时候经常说,有这么一个事情,几个人就去做了,包括拿几个数据集做做做,医疗的事情最后总要落地的,一落地就要到行业,一到行业突然就发现两眼一抹黑,你在这个领域做了很久,能不能大概讲一下一个医疗科技最后能真正的去服务大众造福百姓,这个路径大概是什么样子的?中间有哪一些挑战哪一些门槛,给想做探索的同学一些借鉴。

   

谢国彤:其实医生是一个非常严谨的一个群体,他们每天面临的是生与死的抉择,让他们变得非常谨慎,任何一个新的技术想推进到医疗领域的话,一定要有一个非常严谨的过程,一步一步得到医生的信任。我之前听到他们讲一个故事,医生花了一百年时间才接受了听诊器作为医疗的设备。


从目前来看,基本上这是有一个过程的,第一步你可以基于一些不管公开数据集还是通过跟医生合作,基于一些历史数据可以进行一些建模,不管你做什么,首先证明你这个模型在历史数据上是可以工作的,这是第一步。


第二步需要进行外部数据验证,就是你必须要拿到一些完全从第三方拿到的数据,这样的话,医生可以进一步的加深对你这个模型的信任。通过第三方的数据验证,说明这个模型在第三方数据上依然是稳定可靠的,这是第二步。


第三步是,我们看到一些合作就会设计一些前瞻性的研究,就是针对第三方模型已经验证过了,就会设计一些针对现在的一些新的病人,用你的方法不管做诊断还是治疗,去和普通的治疗或者诊断来做对比。经过这样的过程之后他才认为比较靠谱。所以这是一个非常严谨的认证过程,这是第一点。


第二点我想讲的是,医疗的智能决策,医疗不是一个简单的步骤,他涉及到前期的疾病的筛查到患病的诊断,诊断完之后给患者用药,用完药之后做患者的预后,预测他之后病情的发展,包括对他进行生活方式的指导,包括患者的随访、管理,它其实是一个完整的院前、院中、院后的一个活动的链条。有一些是从医生角度来看,诊断和治疗这是非常关键的。所以如果要做创业的话,如果你一开始就去攻最难的领域,当然会最谨慎,如果围绕着链条里面的一些上下游,就是需要大量的人工的部分,同时又不是那么核心的诊断和治疗的领域,可能会更容易被医生和患者接受。

   

雷鸣:正好谈到刚才讲的创业问题,因为现在医疗领域是一个非常大的领域,我看到在美国,据说医疗健康领域能占到GDP的18%,中国占到6%,当然中国还有很大的空间,这6%已经了不得,中国50万亿的规模,6%就是3万亿,所以一年3万亿的市场,这里面机会实在非常多。因此我们也看到,几乎所有的这些大的企业都开始做。IBM当然做的时间比较久,像谷歌、百度、阿里等等都在做,对于巨头不断切入的情况下,你对咱们有一些想创业的同学,或者说小型公司会有什么样的建议呢?就是说他应该怎么样思考这个问题?有什么样的机会?怎么面临一些挑战?

   

谢国彤:因为我个人在IBM,我给的建议不见得靠谱,如果你听了建议以后,创业没有成功,别怪我。


我看到大公司有大公司的优势,同时小的创业企业也有它的优势,小的创业企业第一个要有核心技术。如果没有核心技术就变成烧钱了,就拼谁资本雄厚。如果你在选择一个比较专的领域,然后能够真的有一些核心技术,我觉得这个是安身立命之本


第二点,我感觉,因为小公司能够速度更快、更贴近市场,能够反应的更快。大公司的好处是集团军作战,规模很庞大,但是它的速度肯定不会像小公司这么快,小公司如果选择一些更贴近市场的,能够快速在市场上看到效果这样的一些题目,能够尽可能的构建比较大的一些市场群,我觉得这也是一个很好的领域。


我可以去分享一下IBM收购的一个公司的情况,IBM收购了Phytel,这个公司就是专注于做人群健康管理的公司,它有技术,然后快速在美国布局,有20个州都使用它的技术,快速的占领了市场,所以就是,在市场上被认可,有核心技术、能够快速的贴近市场是非常重要的。

   

雷鸣:我现在转向一些同学提出的问题,在课程群里有一个同学问到,IBM做了很多的研究,我们看到是卓有成效的,现在哪一些成果已经被广泛使用了?另外,在中国这边有哪一些业务是真正落地了?

   

谢国彤:IBM在美国目前落地的东西更多一些,因为沃森健康成立是在2015年,到现在刚刚两年的时间,目前我刚才讲的那些解决方案,其实都有具体的落地。不管是说做这种肿瘤的治疗,包括像基因的治疗都有落地。像肿瘤治疗,中国有20家医院在用,包括在美国、泰国、印度、新加坡就是很多地方都有在使用这样的技术。像沃森的基因治疗,在美国大概有十几家顶尖的肿瘤机构,包括亚洲的东京大学都在使用这样的方法进行基因治疗。然后像我刚才讲的真实世界数据的分析的话,IBM应该也宣布了和世界知名大的药企,比如辉瑞等等很多大药企,都在使用IBM技术进行新药的研发和上市技术的分析。


    针对慢性病管理,美国有20几个洲,包括英联邦国家,如爱尔兰、澳大利亚等等都在使用。跟我们的合作伙伴一起,在人工智能的国际会议上,包括在医学期刊上,还有新医学国际会议上,我们陆陆续续发表了15篇文章。我们一方面科研合作,另外一方面就是怎么样把它变到临床。


在临床方面有两个事情,一个是我刚才介绍的糖尿病管理这样一个系统,已经在厦门市有20家社区医院在使用,6000个患者在使用这样的系统。


另外在上海有一家医院,他们很快会做一个大的宣布,利用疾病风险预测这样的技术。一个患者以前去医院抽完血出一个报告就可以了,但是现在会利用疾病风险模型把患者的抽血的数据和他在医院里面病例数据结合在一起,去给患者做一个他的疾病风险预测,如果发现这个患者是低风险的,他就不会告诉这个患者,这个患者拿完这个报告就走了。如果患者是高风险的,系统给他一个增值的报告,会告诉他风险因素是什么,应该做一些什么样的事情可以规避这样的风险,这样的系统在上海一家非常好的三甲医院目前已经开始使用。

   

雷鸣:人工智能在医学领域中的推进过程中,人和AI以一种什么样的关系往前演进?未来走向哪里?

   

谢国彤:首先,第一个,要不要取代人的问题,IBM一直有一个明确的定义,IBM就是增强智能,定位就是怎么样变成一个人类能力的放大器,让人能够看的更远、听的更准或者记得更准、算的更快,但是并不是要取代人,所以看到目前我们在医疗里面讲的各种案例,其实我跟很多医生聊,他说其实我们给他的就像一个显微镜,从数据中间看出来一些他以前看不到的东西,这些东西能够帮助他更好的做诊断和治疗,这是一个定位。


第二点其实我们也可以看到,因为有了这样一个智能技术,其实医生提高了工作效率,或者避免了犯错误,提高工作效率之后就有了更多的时间,可以看到现在医生一天的时间都用来干什么,我们跟很多医生一起工作,医生每天早上八点以前就要到医院,一天要看门诊一百个病人,看完病人之后还不能走,还要做科研、写文章,周末还要写文章,其实他们有很多创新的诉求,很多医生,比如说像北医的很多医生,都是非常有理想和追求的,希望看到一些疑难病症的时候,来做一些创新的事情,但是受限于目前门诊的压力,大医院人满为患,他们很难去做这样的事情。我跟很多医生真诚沟通过,我说你们觉得AI对你们是一个威胁吗?至少大医院医生没有觉得是一个危险,他们觉得有很多创新的事情,以前受限于精力没有时间做,如果效率可以提高,以前看一个肠镜看两个小时,现在看20分钟,省出来的时间可以干一些更有价值创新的事情,我觉得这应该是一个相互辅助的定位。

   

雷鸣:我觉得讲的特别好,就是说很长时间内,我觉得医生和AI之间应该是一种共生的关系,即便医生坐在那儿一上午看了50个病,他可能也没有太多成就感,这些病人都是重复的,如果这些事情交给AI来处理,其实医生很高兴,医生研究怎么攻克癌症和艾滋病这些人类的难题,医生有更多时间去做这些事,就更有意义。


时间原因,再问最后一个问题,你也讲到,医疗是一个责任重大的学科,现在人工智能如火如荼发展的很快,现在也有很多投资。你也提到,依图又得到了几亿人民币的投入,另外我们也讲到,医疗是非常严谨、非常负责任的一个学科,未来你觉得AI+医疗推进速度上,5年、10年、15年这些时间上,大概是以什么样的速度和方式演变,改变医疗领域的时间表是怎样的?

   

谢国彤:这个问题挺大的,要做预言是预测未来,我看到,首先刚才也提到了资本大量涌入,虽然会带来泡沫,但是也有好处,能够吸引最顶尖的人才进入这样一个行业。


我看到,在最新的像《新英格兰》这样一些医学杂志上,医生发表了很多观点,从他们角度来看新技术怎么改变医疗领域,我觉得在一些领域的话,在可预见的3到5年就会看到很多结果,这不是我的观点,我应用《新英格兰》医生的观点,他讲到,影像科的工作,很多是人工智能可以发挥作用的,包括对很多复杂疾病的诊断和预后,这一块就涉及到,以前没有什么好办法,但是又有影像,又有病例,又有化验结果,以前决策很困难,以后他们觉得人工智能会发挥一些独到的作用。


当然,我们也看到,以药物为例,这也是美国刚刚通过的一个政策,就是说所有上市药物的 repurposing,就是把上市药物做其他的用途,比如说这个药物以前治疗A病,现在用来治疗B病,这样的审批不再需要标准的RCT了,用真实事件证据就可以,这都是政策上比较认可的例证,或者说从医生的角度来说,从接受度或者各种角度来说比较认可的。这些领域我觉得在未来3到5年之内应该可以看到非常快速的发展。

   

雷鸣:非常感谢谢老师的精彩分享!

 

视频回放链接 : http://www.iqiyi.com/l_19rrcj6w6v.html


课程介绍


“人工智能前沿与产业趋势”课程由北京大学开设,并面向公众开放。课程由人工智能创新中心主任雷鸣老师主持,共14节,每节课邀请一位人工智能领域顶级专家和行业大咖作为主讲嘉宾,就人工智能和一个具体行业的结合深度探讨,分析相应技术的发展,如何影响产业,现状及未来趋势、对应挑战和与机遇。所有课程相关信息、通知都会在下方的公众号发布。



课程参与方式


扫描下方二维码,加“小智”为好友,自动拉您进入课程交流


扫码福利:

⊙   直播、录播课程地址

课程精华文字版

人工智能交流群入群方式

⊙   群内每日精选AI内容更新

⊙ 参与群内活动并有神秘大咖进群交流互动