本文介绍了在北大举行的科学智能峰会的相关内容,主要聚焦于AI在理解基因组方面的应用。中国科学家在多个领域展开了相关项目,如植物星球计划(PLANeT)、优薯计划(Upotato)以及个性化食品的研究。这些项目旨在利用人工智能工具理解基因组的进化与功能,对基础生物学、作物育种和生物多样性保护等领域产生深远影响。
会议于11月4日至6日在北京大学举行,各领域专家共同探讨AI for Science,研究科学问题的关键点和解决路径。
计划对所有陆地植物的主要进化分支进行基因组分析,利用进化和功能基因组学以及人工智能工具识别植物王国的共同语言,对粮食安全与可持续发展具有重要影响。目前,已经完成了部分目标,如所有目的基因组分析,并希望在未来的几年内完成科、属、种的全基因组分析。
专注于马铃薯的基因组研究,通过全基因组设计育种,利用进化透镜预测有害突变,培育马铃薯自交系和原型品种。该计划有望提高粮食产量并为粮食安全提供新的保障路径。
研究食物的营养和风味是由哪些物质和基因决定的,以及人和肠道微生物的基因如何决定对食物的喜好和消化吸收。通过多组学数据和人工智能的整合,实现个性化食品的生产,为农业产业的高端转型提供可能。
AI作为理解复杂系统的工具,加快了对基因组的进化与功能的理解,对人类健康、全球粮食安全和生物多样性保护产生深远影响。
2024 科学智能峰会(AI for Science Forum)于11 月 4 日至 6 日成功举行,本次会议由北京大学计算机学院、北京科学智能研究院主办,DeepModeling 开源社区、深势科技等联合承办。峰会在北京大学百周年纪念讲堂举行,领域专家共话 AI for Science,同探科学研究的关键问题和解决路径。
中国科学院院士、中国热带农业科学院院长、中国农业科学院深圳农业基因组研究所研究员
黄三文
提出了对 AI 在生命科学领域应用的深刻见解,并介绍了「植物星球计划」,他指出「希望通过这个计划对所有陆地植物主要分支的基因组进行分析,利用进化和功能基因组学和人工智能工具来识别「植物王国」的共同语言,衔接不同植物物种的「知识桥梁」,这将对基础植物生物学、粮食安全和可持续发展产生深远影响。
原始视频见:
https://www.bilibili.com/video/BV1qAUfYdEi2/?vd_source=40f0d11ada8806c38b0249c7548fae48
我想和大家来谈论一下AI如何来理解基因组。关于基因组,我认为有这样一句话特别合适,就是黑格尔说过的“
凡是有理的必然存在,凡是存在的必然有理
”('What is rational is actual and what is actual is rational.')。
一个生物最重要的存在就是他的基因组。如果你仔细去想生物和非生物最根本的区别是什么,很本质的东西是他的基因组。
1953年,沃森和克里克发现了(DNA)双螺旋,揭示了生命是由序列编码的。
John Sulton就是原来研究线虫的元老之一,他有这样一个理解,生命就是数字化的。
我们从这些(指上述思想),从存在便有理思想推导下,我们可以得出这些结论,就是说“
一个生物最重要的生物学特征必然反映在他的基因组上,另外
生物基因组里面能被观察到最显著的特征一定会有他的生物学意义
”,我把它称之为
基因组学思维(Genome thinking)
。
基因组学正在变革。生物学研究以前是一个实验室里,一个老师带几个学生,小规模的;基因组学把他变成了一个大科学。
基因组学也在变革育种,大家看到的每一粒玉米都少了一小块(见下图),他用这台机器切了一块下来,然后在他播种之前,先分析它的基因组,这样我们就可以在播种之前,把不要的种子淘汰掉99%甚至更多,我们只需要播下剩下1%的种子,这样可以大大提高育种效率。
今天我想回答的问题是,AI怎么来帮助我们理解基因组语言,以及这种理解怎么来帮助我们做育种。
我有三个想法,三个正在开展的工作跟大家一起来交流一下。
首先是植物星球计划(PLANeT),这个是基因组所和中国植物学会,我们种康理事长也在这,还有北大一起来开展的工作。
为什么叫植物星球计划呢?因为这个星球
82%的生物量是由植物贡献
的,人加上各种动物只占1%,所以把他命名为植物星球也是有道理的。
这个陆地植物覆盖了涵盖了绝大部分经济作物,对人类的生存和发展是至关重要的,提供了所有的粮食,也贡献了很重要的(生态价值),吸收了很多二氧化碳,维持了生态系统,提供了氧气等等,所以植物对我们的生存是特别重要的。
我们希望通过这个植物星球计划来对所有陆地植物的主要的进化分支进行基因组分析,利用
进化和功能基因组学以及人工智能的工具
来识别植物王国的共同语言,来衔接不同植物物种的知识桥梁,这对粮食安全和可持续未来有特别重要的意义。
目前我们已经测序了3000多种植物,但是他的分布很不均匀,在目的水平上有16个目没有被测序,而在科的水平上有295个科,在属的水平有94%的属,以及绝大部分的种都没有被测序,一共有345000多个种。
这就留下了很大的空白,一个是分类学的空白,在很多科很多目都没有基因组,那我们对这些科和目的理解只限于传统的植物学研究的水平。
事实上,我们绝大多数研究只集中在少数几个物种上面,包括水稻,玉米,番茄,模式物种拟南芥等等,让我们知识分布在几个岛屿里面,它联系起来是有困难的,我们也对植物全貌的了解是非常有限的。
另外一个空白是地理的空白,我们的研究主要集中在全球北方,全球南方因为经济原因很多物种没有被研究,全球南方这些物种对当地的粮食安全和生态也特别重要。
另外时间上的原因,我们只研究了现存的物种,还有很多
历史上灭绝的物种被保存在标本馆里
。事实上,我们可以研究这些物种,从而来研究气候变化是怎么改变植物基因组。
我们有这样一个丰富性的结构,植物星球计划将对基础生物学,作物育种和生物多样保护来布局回答一系列的问题,我们测序不光是为了集邮。
我们可以类比这样两个项目,一个是WorldNet,WorldNet对14万个英文单词绘制了语言结构图,几乎捕捉了这个世界上所有的概念。
另外ImageNet大家很清楚,李飞飞的机器视觉项目,一个非常重要的数量级。在生物学领域,我跟鄂老师讨论过很多次,我们需要有这样一个非常好的训练集,让我们的AI能够理解基因组语言。
在基础生物学里面我想回答
驱动植物进化的基本法则是什么
。
作物育种里面我们想研究怎么利用野生植物里的适应性位点来培育更具抗逆性的作物。
生态学里面,我们想预测一个物种的适应潜力和灭绝风险。
我们想将
超过10000个属的基因组数据去训练植物的大语言模型
,我们希将来能够更好地理解非编码序列。
这个里程碑,
今年(2024年)我们完成了所有 目 的基因组分析;我们希望在3年内完成所有的科---461个科;我们希望在6年左右的时间完成所有的属---13844个属
;另外我们希望,当然这个计划有点大胆,就是在2036年完成所有的种的基因组分析。
我们的科学目标是,
发现1000种植物药
(往应用方面),驯化100种作物,应该说是帮助摘取农业科学皇冠上的两颗明珠,一个是
C4光合作用
,如果把它从玉米里面移植到水稻,水稻会增产50%左右;另外一个是
生物固氮
,如果把大豆的固氮能力移植到所有作物里面,每年可以节约1亿吨标准煤,另外就是探索植物界的共同语言。
我们在与鄂老师的协作下,我们已经开展了一些植物组学分析的底层通用平台和预训练模型。我们把他叫做Annota,从序列到基因,从序列到非编码区域,从序列到转录组,从序列到代谢组,从序列到表型,几个不同的阶段,我们正在一个个地实现。
这里面涉及到预训练模型,包括植物代谢网络大模型工具等,我们正在文瀚(音译)他们一起做很多工作。
我们希望在2036年,构建完整的生命之树,也是达尔文当年乘坐小猎犬号归航,归航是在1836年,在他归航的200年时间内完成这个伟大计划。
目前参与的有国内外的很多单位,这是第一个项目。
第二个项目想跟大家介绍优薯计划(Upotato)。
马铃薯和全球粮食安全特别重要,125个国家13亿人口是以马铃薯为主粮的,咱们国家马铃薯虽然不是主粮,但是是马铃薯最大生产国,有8000多万亩的面积,与我们的乡村振兴关系密切。
目前很重要的一个方向是在非洲的冬天和我们国家南方的冬天种植马铃薯,来进一步提高粮食产量。
但马铃薯是一个特别难的作物,它缺乏有效的有性杂交育种体系,它是同源四倍体无性繁殖的,而不是通过种子繁殖的。
举个例子,和汽车类比,汽车在100年间已经发生了巨大变化,但马铃薯依然是这个马铃薯,没什么变化。
我们对马铃薯进行彻底地重新改造,把它变成二倍体和种子繁殖的。大家可能没见过马铃薯种子,它比芝麻还小很多,只需要两克种子就可以种一亩地,以前需要两百公斤(块茎)。
这个过程特别复杂,因为把四倍体变成二倍体,从无性繁殖到有性繁殖,从薯块繁殖到种子繁殖,我们要解决很多有害突变的问题。
为了解决这些问题,我们开开展了全基因组设计育种,对马铃薯基因组进行了彻底地深入地分析,
在这个基础上,我们发现了我们不光是从马铃薯来研究马铃薯,我们是从整个进化的尺度来研究马铃薯,我们把茄科的100个物种进行了分析,累计12亿年8000万年的进化历史中,在马铃薯基因组里面有哪些区域是不发生变化的,
不发生变化的区域可能就是它非常保守非常重要的区域,这个区域很多是非编码区域,这是我们理解非编码序列一个很重要的方法论
,相当于这个基因组通过这个进化透镜可以把它折射为非常保守和最不保守的部分。
非常保守的一定是具有非常重要的生物学功能,而在这个非常保守的区域发生变化了,则很有可能就是有害突变
。
进化透镜正在指导我们开展马铃薯的全基因组选育,把预测效率提高了45%。
我们还正在利用AI来构建多维图谱,包括基因调控元件,基因表达,拷贝数变异,进化保守程度,基因型变异等等来构建一个多维数据,借助AI来预测马铃薯基因组有多少有害突变,我们选择有害突变负荷低的开展下一步的育种工作。
我们已经培育了世界上第一个马铃薯自交系和原型品种,这个马铃薯是用种子繁殖的,正在进一步推广,我希望在5年内大家可以吃到我们用种子种出来的马铃薯,这也应该是为粮食安全提供了一个新的保障路径。
第三个项目跟大家分享一下我们关于个性化食品的理解。
事实上农民最重要的两个问题是今年种什么作物,种完以后卖给谁。老百姓关于食品最重要的两个问题是到底吃什么最好,在哪里可以买到。实际上我们有两个科学问题没有回答,一个是食物的营养,风味是由哪些物质和基因决定的;另一个是人和肠道微生物的基因如何决定对食物的喜好和消化吸收。为了回答这两个问题,我们需要至少对几组大数据进行分析,
食物基因组,食物代谢组,个人基因组,肠道宏基因组,血液代谢组以及感知组学
。要把这些数据整合到一起,需要人工智能,有了这个我将会实现个性化食品,就是为每一个人量身定制食品,我觉得这是农业的最终出路,把农业这个第一产业变成高端的服务业,这是我们可以为此而奋斗的。
为了这事,我们做了一个先导的项目,首先我们以番茄为例子,发现了育种怎么改变了番茄的基因组和番茄的代谢组,
我们结合了番茄多组学、遗传群体和感官分析来挖掘育种的靶标,我们发现番茄的风味是由33种代谢产物决定的,其中有两个糖叫葡萄糖和果糖,两种酸是柠檬酸和苹果酸,还有29种挥发性气体,能够影响我们对番茄的感知,其中很大部分在传统好吃番茄里面,这些非活性物质比较多,但是在在现代番茄里面这些挥发性物质比较少,这是番茄变得不好吃的原因。我们也发现了49个基因来控制这33种物质。
我们想以番茄为模式来培养一种含糖量低但是高甜感的水果,我们叫糖尿病人友好水果,因为很多糖尿病人不敢吃西瓜甜瓜和特别甜的水果,他们的生活质量受到影响。大家看到这两个番茄Matina和Yellow Jelly Bean含糖量差不多,但是甜感完全不一样,这个Matina要比Yellow Jelly Bean甜得多,它不是糖引起的,而是因为挥发性物质能够让你感觉到,我们可以用挥发性物质来欺骗人类,让他觉得水果很甜,但是又不会吃太多糖。这就像个性化食品,我们没有办法一下子针对每一个人,但我们可以针对不同的人群。糖尿病人和正常人,他们对水果的需求是不一样的。
我们通过品尝和嗅闻很多挥发性物质,找到了三五种物质能提高番茄的感官甜度,在不增加含糖量的基础上。
其中用到了Uni-Fold和UNI-MOL这两个软件,贺老师和林峰(音译)他们搞的这个,我们找到了一种小分子,还没发表,我们就把它叫做A吧,这种小分子挥发性气体能够提高番茄的甜度,但是这种分子在番茄里面被降解了,所以我们要提高番茄甜度,就不要让它被降解。那么是哪一个酶降解了它,不知道。我们把番茄所有的蛋白都做了三维结构,去和A这个小分子做比对,叫docking,寻找是哪一个蛋白能够结合这个分子或者催化这个分子,我们就这样找到了十几个蛋白,我们要结合另外别的数据来做验证。如果这个成功了,可能是AI运用在育种上的第一个例子,(AI)当然还有别的运用,但是它没有产生品种啊,这是直接产生品种。
这就是我们为糖尿病人创造的可能第一个水果。
整体来说,基因组是复杂的语言系统,AI是理解复杂系统的工具,所以AI for Genomics将加快我们理解基因组的进化与功能,这将对人类健康、全球粮食安全和生物多样性保护产生深远影响。