专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

北大AI公开课第六讲王俊：DNA是生命数字化的过程，AI改变生命科学

机器学习研究会 · 公众号 · AI · 2017-03-30 19:56

正文

新智元原创

整理：熊笑、随一

【新智元导读】 北京大学“人工智能前沿与产业趋势”第六讲由碳云智能创始人兼CEO、原华大基因CEO王俊老师亲临现场，与北大人工智能创新中心主任、百度七剑客之一、酷我音乐创始人雷鸣老师共同参与，就人工智能与基因技术展开深入的讨论和交流。

个人宣讲

生命本身是一个人工智能的学习程序。学习的核心是DNA。DNA程序蕴藏着所有的program和环境互动的结果，每一代都选择最优的程序往下迭代。所以，我们身体里的DNA可以追溯到生命的开始。DNA程序蕴藏过去的历史，也蕴藏着未来，因为未来环境还在变，这套程序已经是一个learning system。举个例子，在计算机里，我给瓢虫写的程序。这个程序是硅基的。现实中，生命是以碳为基础，碳基DNA程序也在运行，稍后我们讲怎么打穿这两者的界限。如果程序在计算机里进行迭代，告诉它选择最好的，生命也是一样的，checkpoint是看它能不能够活下来，并且扩张，能不能够把基因传下去，把这套程序传下去，这是唯一的一个选择标准。所以，DNA本身就是生命数字化的过程。

上帝已经将这个学习程序编码好，就像计算机程序一样。我们身体有个程序，若想读懂它，碳基程序是迄今为止最高效的存储介质，全世界所有的信息可以存在一公斤的DNA里面。甚至可以储存百万年，但是计算机存储介质无法达到。一个光盘可能放几十年就不行了。DNA的编码是四进制编码。若想要弄懂生命程序，所做的第一件事情就是把这个程序读出来。我在上研究生的时候，有百分之一计划，就是中国承担人类基因组计划测定的百分之一工作。全球3000多名科学家，把一个人的基因谱的30亿个碱基对的序列读出来，花了90亿美金。而现在，一台机器一天可以把一个人的基因图谱读出来，只用一千美金。通过读各种各样物种的基因图谱序列，人们可以理解这个物种它采取什么样的生存策略在往下走。通过解读个体的基因序列，就可以解读个体的适应性能力。我们曾经做过一个这样的解读，把50个藏族人基因与50个汉族人进行对比，发现了一个基因，可以让你体内的血红蛋白的含量降低，90%以上的藏族人都有此种基因突变，但是汉族人的基因突变很少。这样的基因序列是专门为适应高山存在的。也就是说，每个人的生命程序与生存环境之间的适应关系都是不一样的。

把DNA序列读出来，可以提供多种服务。第一项服务就是筛查出生缺陷，世界上有差不多5%到6%出生缺陷的孩子，有相当一部分都是跟基因有关的，相当于生命程序中有个bug，所以会看到很多单机毛病，比如渐冻人、唐氏综合症、地中海贫血等；第二就传染源检测，比如发烧拉肚子，不知道到底是病毒还是微生物感染。于是就把血液或者是粪便里面DNA、RNA提出来做测序；第三是个性化用药。每个药的开发都是针对某种基因或者某一个代谢通路，肿瘤的发生也是与基因和代谢通路有关。这是最常见的三种DNA的应用。DNA技术现在已经发展到可以简单地拷贝，克隆。比如编辑基因技术。基因编辑技术就是DNA30亿个字母，我想改改哪个，就他改一改。另外，还有基因合成。就是，在计算机里写了一段代码，那边就在试管里面合成出来。细菌的合成很容易，酵母是真核，较为困难。

但是，当你已经掌握了可以去改变基因和合成生命的能力的时候，你突然发现其实生命没有被真正理解过。你可以读出基因，但是你并不看得懂。我刚才讲的所谓的一万种单基因疾病，那些都是非常简单的一一关联的疾病，很多疾病非常复杂的，比如糖尿病，30年前中国的糖尿病的发病率是0.67%。三十年后中国的糖尿病发病率11%，还有20%的人是糖尿病前期。也就是说中国的1/3的中国成年人要么得了糖尿病，要么要得糖尿病。为什么30年后有那么多糖尿病？五年前，我在 Nature 上发了一篇肠道微生物的研究，发现糖尿病人体内的微生物和正常人体内有非常大的差异，也就是说除了基因很小的影响之外，更多是肠道微生物的影响。所以有人开始做各种各样的实验，比如把正常人的粪便放到糖尿病人的体内，肠道微生物的完全重置，糖尿病人会不会就好了。当时确实可以好的，但是若饮食等各方面不注意，又回去了。

如果生命本身是一段旅程，基因是起点，不是终点。如果Y轴是疾病风险，比如糖尿病，生下来得糖尿病的风险可能20%，但在未来的生命旅程中会有各种各样的决定。我今天跑了十公里，明天早上又吃了两个肉包子，后天我又喝了一斤茅台，所有的这些决定都会让糖尿病的风险增加或者减少，每一个决策都会让疾病风险值不断地变化。一个生命很难管理。我测一下基因就一千美金。但是，生命的复杂程度远远大于这些，其中有很多的起起伏伏。那么，怎么才能真正地去了解生命本身呢？又回到瓢虫，我怎么才能够了解瓢虫的捕食行为。办法就是做一个硅基世界的人工智能的网络，通过数字化的我来模拟碳基世界的我。计算机里的王俊不断在学习现实中的王俊。将所有的input都输入计算机，并将最后的训练结果全部交给它。那么，硅基世界的那个我可能会越来越像碳基世界的我。这是碳云要做的一件事。华大做的事情是把基因越读越便宜，碳云想做的事情是懂生命。因此，我们首先需要建立在硅基里面的学习系统，要把输入和输出都数字化，例如基因序列，基因的甲基化，RNA，蛋白质，代谢物，粪便里各种各样的分子生物学信息，各种 intervention，这些数据都应该知道。

现在有各种各样的可穿戴设备，可以告诉我走的步数、睡眠时间、血压、24小时的无创血糖。碳云目前做了一个智能马桶。现在，这些生命信息都被浪费掉了。可以先根据模式识别，臀部识别软件认出是不是你。你坐上去之后，将尿、肠道粪的颜色气味软硬程度、肠道微生物、代谢物等问题数字化。所以将来围绕身边的很多聪明的东西能不能收集数据？

有这么多数据怎么办？碳云在成立之后就进行大规模的收购，我们发现很多数据都是可以通过测序获得，比如基因，转录组，肠道微生物等。质谱可以解决代谢组的数据。我们做的第一个收购一家蛋白质组学的公司。这家公司的每一个蛋白质都有一个特殊的DNA序列绑定在上面。当蛋白质洗掉后，直接读那一段 DNA 序列，然后知道哪个蛋白质在里面。这家公司目前可以一次性阅读5000个蛋白质，未来可以做到2万个蛋白质。可以把人的每一个基因的蛋白做一次性扫描，成本下降到1万美金以下。这项工作意义重大。因为我们的身体是由蛋白质组成的，你的激素，慢性炎症因子，肿瘤标志物都是由蛋白构成。而且如果能一次性扫描蛋白质，结果是非常好的。比如说今年的一篇文章，可以根据九个蛋白质判断未来五年之内得冠心病的风险，这个风险是非常高的。糖尿病的形成，不会overnight，而是一个长期发展的过程，身体里面有很多信号，而不是一个 cut off。我们去医院做检测做的是一个cutoff。碳云要做的是描述你生命的趋势，知道你此时此刻的状态。看见这九个蛋白质可以知道，如果你还按照你现在的生活方式生活，不做任何干预，未来五年之内你一定会得冠心病。这样的预测模型就是我刚才讲的学习模型。再举个例子，免疫体系就是抗体，分为外源性和内源性。抗体检测现在都放在一张芯片上一次性扫描，可以检查出身体的抗体。之后，可以回答很多问题，有什么病，治疗方案对不对，吃的东西有没有影响我的健康，过敏都是怎么来的，曾经感染了什么，我的 immune system是否影响我？这些东西都可以通过数字化信号全部解决。真实数据就是打了疫苗后发烧的人的体内抗体的状况和正常的免疫体系状况完全不一样。这些东西与基因没关系，与不同的生存环境有很大的关系。

这张图上表现的是可以从体内的抗体状况知道你曾经去哪旅游过，因为只有在那个地方感染那种微生物才会体内形成这样的抗体，他甚至可以非常清楚地把每一个人的迁徙路径的画出来。这种数字化的手段方法都是我刚才讲的输入端。再举一个例子，我们经常测BMI，但是肌肉与肥肉不一样，肉长在肚子上与长在屁股上不一样，身材的各种形状与得心脏病的风险差异很大。如果你站在镜子面前，这一切有可能知道。还有面部识别，有十种以上的疾病是可以直接通过面部识别诊断出来，包括很多单基因疾病。比如唐氏综合症。还有各种各样的斑点，都可以通过image analysis的方法检测。现在 IBM 的 Waston 背后用的image analysis背后的software就是我们的。再比如脑部的CT，是出血点还是图像不好，非常有经验的CT大夫都容易出错，能不能用人工智能的方法来做。很多数据都会非常有意义，比如拍个照片，记录饮食，所有的数字化的饮食营养全都会出来，还有一类数据是measureon measurable。你身体里面有很多数据是非常难记录的，比如说疼痛，疲倦，兴奋程度，mood。我们最近收购一家国外公司，可以把这些全部结构化，50万人全部用这种结构化的数据完全记录饮食、mentality等。所以只有把所有的数据全部都记录起来之后，才具备我刚才讲的learning system的基础，要不然白做一个人工智能模型。我想要去研究糖尿病，结果连饮食信息都没有记录。我怎么去做一个糖尿病的模型呢？

这些数据怎么处理，需要干扰，折腾自己从而训练他，最简单的是根据经验。去年10月1号到7号，所有碳云合伙人七天没吃饭，有一个合伙人偷喝两杯咖啡，我们从数据里面看出来了。因为放着24小时血糖监控仪。我们检测七天的变化，这是一个很极端情况，七天完全没有吃饭，你身体怎么变化。我做了很多遍自己的基因测序，可能拥有世界上最准确的基因组数据。我有很多基因缺陷，其中比较明显的基因缺陷是有痛风携带基因，我的尿酸值很高。在各种尝试之后，我发现喝牛蒡茶三个月之后，尿酸回去了。那这个过程中，我的身体是怎么变化的。我吃少一点会怎么样，吃多点会怎么样，要是登珠峰会怎么样的，跑一个马拉松会怎么样，或者我度假的时候怎么样，我工作压力很大的时候怎么样，这些东西都叫干扰。这是对我碳基程序的一种干扰，这种干扰在数字化之后，都可以去训练我的模型，我的模型就会越来越像我。我是一个点，从点A到点B建立一个learning system，但这个learning system I have to learn what？from myself，因为那个人是我.

但你要知道还有第二种学习方法,向别人学习。如果我想做一个糖尿病的智能模型，血糖管理的智能模型，我要让屋子里的所有人都开始同样做一件事，然后看血糖的变化。每个人的输入端都不一样，观察它的输出端是不是一样。之前，我在Science上写过一篇社论，关于庆祝人类基因组完成十周年，我写了一个东西叫sequence everybody for one and for all。做你自己的数据不仅仅是为你自己,还是为全人类，为什么？这是Cell去年发的一篇文章， 800个以色列人在做不同的尝试。他们同样吃根香蕉，有的人血糖高了，有的人血糖低了很，为什么会这样呢？因为你的基因不一样，你的肠道微生物不一样，你即使吃同样的东西，在genetic background 和 bacteria 影响下，血糖的level不一样，这个东西可以通过一个人工智能的模型来模拟。只需800人，就做出了一个血糖控制的精准营养模型。当再来一个新的数据点时，我把我的输入端放到模型里去，血糖管理控制的准确性可以高达95%以上，这个是非常不得了的。如果能这样做，未来的血糖管理就变得非常智能化，而这是可以实现的。所以才有所谓的internet of life，这个比互联网更高阶一点。这是数字生命的网络，所有的数字生命联网。

我举几个例子，刚才提到世界上有5%的出生缺陷，1%的单基因病。比如渐冻症，一万个人里面有一个人会有渐冻症，但十万个人里面有一个人，他身体里面有渐冻症的基因，但他不是渐冻症，为什么呢？可能他身体里面有另外一套保护机制，不让他得渐冻症。如果你把这个人找出来，你可能能找到治愈渐冻症的方法。我说是单基因病，是在极端情况下，其实没有一个人的数字生命的程序是完美了，所有的人都有缺陷，但每一个生命程序都是特别的。你所需要做的事情是把它数字化，找到你最特别的地方，然后再找到你不完美的地方，用你特别的地方去帮助别人的不完美，这就是数字生命网络能够达成的最好的东西，而这个东西现在是可以做的。加入网络的人越多，这个模型越精准，你能够找到你的特别和你不完美地方可能性越大。网络的边际效应比互联网强多了，因为它解决的是人的健康和生命问题。而这些事情是一定可以解决的，但它的解决是在于对生命程序的理解。对于越来越多的人的数据的产生和聚集，以及模型的不断完善，对数字生命的理解。

我刚才讲很多都是模型，都是预测，比如说我未来可能过多少年要得糖尿病，我现在更了解我自己了，各种疾病风险都清楚了，怎么办呢？在你知道所有这些事情之后，其中有一个变量是在你自己手里。我们是我们的选择。如果我知道我在这个世界上，我不可能去测试所有的条件。比如，我不可能说把全世界早餐吃一遍，但是数字化的我可以做到，所以事实上数字化的我是帮助我做最好选择的最重要的一个东西。如果我知道三年之后我得糖尿病风险高，有没有这个可能性，让数字化的我提供给我一套最好的方案，能够让我的趋势下来。如果我知道我的生命的风险是这样走的，我能不能够让我的趋势下来，在我没有得病的时候下来了，叫精准健康，得了病以后下来了，叫精准医疗。

比如说皮肤健康及美容问题，我们去买美容护肤品主要是受 marketing 的影响，任何一个美容护肤品厂家做出一个东西来，都希望所有人都用，不希望个性化销售。所以你会看见世面上无数的品牌，各种各样的品牌，各种各样的东西，但是你知不知道哪个是最适合你的？只有数据的输入端。比如，你的基因怎么样，肠道微生物怎么样，皮肤微生物怎么样，皮肤上的脂质的情况怎么样，尿液里面的荷尔蒙情况怎么样，把所有这些数据都建立起来做一个人工智能模型。产品端所有的成分你也是清楚的，市面上卖的美容护肤产品的所有配方拿出来也就那几千种，然后就可以开始匹配了，可以做出各种各样的匹配。所以今年5月份开始我们就做了几千种这些匹配，这是个学习系统。你的数字化皮肤越来越像你的皮肤了。你在脸上每天早上只能抹一种护肤品，但是在你的数字化皮肤上可以抹一千种。像我们去年的这个案例，这个人登珠峰，面部皮肤完全晒伤了，我们收集过来各种数据做这个事情，一周以后他皮肤完全好了。还有很多东西可以做，比如皮肤微生物，所有的那些小分子、蛋白，EGF。我们最近控股了一家公司，这家公司很有意思，叫 AO BIOME。大家知道洗澡是伤害皮肤微生物的，他们从一个13年不洗澡的人身上提取出了皮肤的益生菌。现在美国Amazon有卖这样一个产品，这个产品的好处太多了，比如治疗痤疮、婴儿红屁股、过敏、鼻炎、咽炎，哮喘。鼻炎、咽炎都是因为鼻部和咽部的微生物失调，直接用益生菌就能缓解。最近还发现一个治疗痤疮的东西对治疗高血压非常好，就好比伟哥当初是治疗心脏病的，结果发现还可以壮阳。

所以前面做的全部的工作都是在找改善皮肤的成分，然后两边数据对接。营养也是一样，你身体的数据和营养的数据对接起来，你就知道哪些营养对你好。再比如肠道益生菌。世界上只有小于百分之一的微生物可以做真正的分离培养。我们找到了一家公司，他们可以用一张芯片，同时把每一个微生物放在一个孔里培养，实现成千上万的微生物一次性扫描。比如说把粪便的所有细菌分离培养出来，放在一张芯片上，当你再回过头去看你自己要做的干扰方案的时候，可以看你的肠道里面缺少哪种微生物，直接把它挑出来做一个鸡尾酒的组合，再放回去尝试它的干扰。运动也是一样的，不多讲了。

肿瘤我再多讲两句，肿瘤是现在非常热的话题。比如安吉丽娜朱莉做了一个基因检测，被告知体内有个基因让她得乳腺癌的风险高达85%，那么她就选择把乳腺切除。这是很正常，很现实的一个问题。其实几乎每一个人在一生当中都会在体内发现肿瘤细胞，因为肿瘤细胞的发生往前追溯，体内的任何一个细胞追溯到第一个细胞都是受精卵细胞，然后受精卵细胞在每一代的细胞传代里都有基因突变。有时候一个基因突变就变成了癌症细胞。癌症细胞就在你的体内存活平均15年，很多时候被免疫细胞杀死，不会形成肿瘤，但有些时候就会越长越大变成肿瘤。这件事情能在什么时候诊断？诊断到肿瘤细胞的突变之后，能不能够开发出一种肿瘤的个性化疫苗去治疗、预防？或者，能不能直接用免疫细胞的方法去治疗？各种各样的可能性。这个英国的小姑娘得了白血病，身体里面所有免疫细胞都完蛋了，然后借助了一个捐赠者的免疫细胞进行了基因编辑，白血病被治好了，未来像这样的案例会越来越多。

但是所有这些东西其实都很个性化，不是任何人的细胞都可以输入到你体内，也不是任何一种疫苗都可以打到你身上，也不是任何一种药物你都可以去吃的。你应该采取什么样的干预手段和方法取决于你自己的数据和人工智能的模型情况。所以未来的预测、预防、个性化医疗及药物、免疫治疗、免疫疗法，包括个性化的康复，都会是对肿瘤病人非常重要的一些方面。所以未来你要拥有的，事实上是数字生命的GPS，它来告诉你应该怎么做走，但你经常不听话，它就重建，然后再接着走，希望人人都能走好。所以我刚才将来讲了很多，你的数字生命的信息体应该现在保存，干细胞、粪便、生殖细胞，这些都是你此时此刻生命体的信息，应该存在那里，没准以后有用。

生命本身是一个旅程，基因只是起点，不是终点。在这个过程中，你是你自己的选择，所以你要根据你的数字化生命的模型做出最好的选择，希望每一个人都不做越来越坏的选择，能够理性地做越来越好的选择，让身体更健康。我认为能回答这个问题的核心点，什么是生命的核心点，在于learning system，如果我们能做出一个 digital human of allhumans , 那套系统就像我当初做的那个那个瓢虫的捕食行为一样，一个 learning system ，也许那时才能够真正理解生命本身。它不是一个简单的 equation ，它是一个learning system 。所以碳云智能，就基于了三个基本假设：生命是可以数字化的；生命是可以被计算的；生命也是可以被网络化的。谢谢！

对话部分

雷鸣：太精彩了，谢谢！下面我们进入对话环节。因为在座的我想大部分都是计算机或者数学专业的，比较偏。对于这种生命科学的东西，我觉得，包括我，真的是小白来上课，学到了太多的东西。

刚才我觉得讲得特别精彩。我也是第一次这么深入的去理解生命本身的复杂性。我们穿透表面去看生命的一些根本的东西，包括基因蛋白，包括很多生命的基础特征。我刚才感觉，王俊讲这些东西，包括基因也好，蛋白也好，以前我们讲医疗，更多是一种检验性的。但是现在，感觉有基因技术的蛋白检测等等这一系列的东西之后，觉得在因果中间加了一层数字的特征描述，使得我们可以更精准的去了解这个事情，比如我做了这些影响和制约因素，这些因素会导致这个病可能就不得了。我们感觉解码了生命的体系，而不是以前的感觉，仿佛是一个大黑盒子，我就不断的像神农尝百草那样试着去治病。我不知道理解的是不是对？

王俊：我其实觉得人工智能系统未来还是个黑盒子，或者是一个黑白相间的盒子，有一些已有的知识可以帮助你做很多决策，然后它同时也是一个黑盒子，因为它是一个学习系统。本身确实它也在尝百草，所以其实我倒觉得这个事情的关键还不在这里。

现在很多生命科学的学习过程还没有真正理论化，生命科学有三个阶段。第一个阶段叫观测科学。第一阶段叫做数叶子，桌子上面有十片叶子，到底是什么叶子？所以说生命科学很长一段时间是观察科学，就是你去不断去观察，然后去提出一些理论，做一些东西。后来从所谓的观察科学，到变成实验科学。提出假说，然后用实验验证。然后就是拟人生物学，你可以用计算机用数学来描述生物学。比如说LearningSystem 可以预测得特别准，反过来我就会去研究这个 Learning System。比如说我当时做了七个神经元的神经网络去模拟瓢虫吃蚜虫的过程，我其实不知道它最后进化出的权重是什么意思。当它露出来那个模式之后，我再去研究的时候，发现它其中有三个神经元进化成了记忆神经。就是说它记住了我前一步和前两步有没有吃着蚜虫。我吃到了，所以我就决定我下一步接着转圈，我没吃到，我就接着随机走。所以像这种东西反而是我通过它形成的那个，再反过去再学习他的生物学，再找到它的解释。所以就更精确。我觉得未来可能会有这样的一种研究方式，就是它不是我的一个come from nowhere 的理论，可能现在是一种数据导向。数据导向的意思是说我也不知道哪个基因跟糖尿病有关系。我能做的一件事情就是把一千个糖尿病人的基因测了，再测试一千个正常人。然后我比较，看到底哪个基因不一样，对吧？这是数据导向。我认为未来的生命科学再往前走，可能是人工智能的模型导向。就是说数据导向已经不够了，数据会在不断的训练模型，科学家会去研究那个模型为什么会这样。

北大AI公开课第六讲王俊：DNA是生命数字化的过程，AI改变生命科学

正文

请到「今天看啥」查看全文