专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
生物探索  ·  Nature | ... ·  2 天前  
生物制品圈  ·  JPM 2025 | ... ·  3 天前  
生信人  ·  Cell Metab重磅!转移前微环境 — ... ·  4 天前  
生信菜鸟团  ·  scRNA分析之后,如何看待结果和进行实验验 ... ·  1 周前  
51好读  ›  专栏  ›  生信人

中国生物信息学第一人陈润生:84岁高龄仍在紧追“潮流”,学习大模型

生信人  · 公众号  · 生物  · 2025-01-22 07:05

正文

近几年大模型的发展可谓是如火如荼,仅在1月3日同一天,Nature就发布了三篇有关基础模型的文章,内容涉及表格数据处理、分子生成和结合自由能。陈润生院士在一次采访中谈到:“人工智能大模型现在仍在初期阶段,包括在生物医药行业的应用,仍然有一段漫长的路要走。可以说人工智能大模型在生物医药行业的应用才刚刚开始。”


这位中国生物信息学研究第一人虽已年过八旬,却对目前生物医药最前沿的大语言模型有着独到的见解,不禁让人心生敬佩。

陈润生(来源:澎湃新闻)

中国生物信息学研究第一人

“要问咱们国家第一个做生物信息学的人是谁?绝对是我,不会有第二个人。”


陈润生院士是中国最早从事理论生物学、生物信息学以及非编码RNA研究的科研人员之一,当时国内外对于新兴的生物信息学还处于空白期,大家都是摸索。他就带着他的学生,研究生物信息学的内涵,建立一些方法来分析遗传密码,课程内使用的所有的算法、程序、理论都是他自己推导的。自1988年开课以来,陈润生一直是一个人授课,如今陈润生还坚持在教学一线。


84岁的科学家,还很“年轻”

36年来,陈润生院士一直坚持在中国科学院讲授生物信息学,能容纳千人的礼堂经常座无虚席,初见这位院士,会不自觉地被他中气十足的声音吸引,然后忘记他是一位84岁的老人,好像在陈润生的身上,年龄似乎真的只是一个数字,依然每天看书,人工智能和大模型相关知识都是一点点自学的。


“第三次抉择,我在学习大模型”

人生的抉择是非常重要的,1988年,陈润生从德国汉堡大学留学归国。他曾做过“洪堡学者”,有“量子生物学”这样的前沿科研经历,还发表过至今听来也不过时的“人工智能与神经网络”研究论文,只要沿着这些方向继续做下去,顺理成章的大好前程就在眼前。


然而,陈润生院士的人生却因三次重要的抉择而走向了更为独特的轨迹。第一次,他毅然决定给沃森写信,表达对人类破解遗传密码的坚定信念,并积极投身中国的人类基因组研究。第二次,在人类基因组序列组装完成后,他敏锐地发现编码蛋白质的基因组序列仅占人类基因组不到5%,从而率先开展了非编码研究。第三次,则是他前瞻性地参与到大模型的学习、研究与推动工作中,为人工智能领域的发展贡献力量。


主要研究成果

在这需要说明的一点是,由于陈润生院士挂名的研究论文实在是太多了,其中很多都是合作课题的研究成果。为了方便大家学习陈润生院士科研最精华的部分,本次小编只对其作为末尾通讯的研究进行盘点,并且分为七大板块进行解读。

文献引用与趋势(来源:Scopus)

一、非编码RNA研究与数据库


自1993年开始,陈润生团队就将研究重点集中在基因组中的非编码序列上,并建立了一套自己的非编码基因预测方法。同时搜集了国际上被实验证实的非编码RNA基因,发展了相应的软件及检索工具,构建了非编码RNA数据库NONCODE,这是目前国际上最全的非编码RNA 数据库,为lncRNA的相关注释提供了重要支撑[1]。文章刚一发表,2005年1月21日Science杂志就介绍了该工作。

图2 NONCODEV6

除了非编码RNA的注释数据库之外,陈润生团队还专注于非编码RNA的相互作用,并构建了非编码RNA的数据库NPInter。团队于2006年发布了NPInter数据库的第一个版本。在过去的十几年中,NPInter数据库一直获得业内的广泛认可,被RNAcentral收录为专家数据库,迄今为止,已经更新过四个版本。2022年11月14日Nucleic Acids Research在线发表了陈润生团队的研究文章[2],发布了最新版的NPInter(NPInter v5.0)。本次更新,内容方面除了进行扩充外,也关注于非编码RNA相互作用在热点领域如肿瘤生物学和新冠病毒中的研究,致力于为用户提供非编码RNA分子多维度多领域的相互作用及功能注释参考。这些均为国际非编码基因研究提供了数据基础。

图2 NPInter数据整合

二、蛋白质折叠与相互作用网络

在后基因组时代,随着基因组测序技术的飞速发展,科学家们面临着如何将基因信息转化为生物功能的挑战。2003年陈润生团队Nucleic Acids Research上在线发表了研究论文[3],探讨了一种基于图论的谱方法,用于解析复杂PPI网络的隐藏拓扑结构。研究表明,这些拓扑结构与生物学功能相关联,能够用来预测未表征蛋白的功能。通过该方法,研究团队从酵母PPI网络中分离出48个准团簇和6个准二分图,并成功为76个未知功能的蛋白分配了功能。这一研究为大规模PPI数据的功能解析提供了新思路,推动了蛋白功能预测方法的发展。

图3 蛋白质 - 蛋白质相互作用网络的拓扑结构

三、非编码RNA功能与疾病相关性

作为一名高强度“公众号科研”的科研民工,你可能经常看见一些公众号鼓吹所谓“三个月纯生信快速SCI发文”的噱头,这些套路无非是对一些公共数据集进行挖掘,然后找到一些基因签名,通过机器学习来验证该签名能够改善预后,然而这些套路早已是生信大佬们十多年前玩剩下的。

我离大佬就差这么点(图源自网络)

早在2014年陈润生团队就已在Gut上在线发表了文章[4],通过对119名患者的肿瘤和正常组织进行微阵列分析和qRT-PCR验证,从训练组中开发出一个包含三种lncRNA的预后签名,且能够将患者分为生存期显著不同的两组。多变量Cox回归分析进一步证实该签名是OSCC患者独立的预后因素,提示其在临床分期中具有预后价值,为OSCC的预后评估提供了一种新的生物标志物。

图4 在训练集中识别长链非编码RNA签名

2015年陈润生团队Cell Stem Cell上在线发表了文章[5],这篇文章则对lncRNA的功能进行了纵向研究,研究通过转录组微阵列分析,发现了一种名为lncTCF7的lncRNA,在HCC肿瘤和肝CSCs中高表达,其机制是通过招募SWI/SNF复合体到TCF7的启动子上,调节其表达,从而激活Wnt信号通路。

图5 通路示意图

四、非编码RNA与功能注释工具

在当时,尽管已有工具如CPC和phyloCSF可以识别长编码转录本,但它们在识别lncRNA方面存在局限性,且可能产生较多的假阳性或假阴性结果,尤其是在注释不充分或缺乏全基因组序列的物种中。


2013年陈润生团队Nucleic Acids Research上在线发表了论文[6],这篇文章介绍了一种名为Coding-Non-Coding Index(CNCI)的强大工具,用于区分蛋白质编码和非编码转录本。CNCI在跨物种的全转录组测序数据中展示了高度准确的分类能力,揭示了脊椎动物与无脊椎动物、植物之间的基因进化差异,并为猩猩提供了长非编码RNA目录。

图6 ANT评分矩阵与CNCI框架的实例分析

同年,陈润生团队Nucleic Acids Research上在线发表了论文[7],团队首次尝试采用基于全局网络的策略来对大量可用的lncRNA进行功能注释,开发了一种名为“lnc-GFP”的双色网络全局功能预测器。该工具通过整合基因表达数据和蛋白质相互作用数据,大规模预测lncRNA的可能功能,且该方法推断的潜在功能与已知文献高度一致。

图7 编码-非编码双色网络

五、小RNA及piRNA相关研究

提到小RNA,我们脑海中想到的首先是microRNA和siRNA。而piRNA则是一类新的非编码小RNA,与Piwi蛋白相作用的RNA称为piRNA(Piwi-interactingRNA),它是从哺乳动物生殖细胞中分离得到的一类长度约为30nt的小RNA。piRNA的作用机制是通过与Piwi亚家族蛋白结合形成piRNA复合物来调控基因沉默途径,因此人们开始关注piRNA在人类疾病中的作用。


2019年陈润生团队Nucleic Acids Research上在线发表了论文[8],发布了最新版的piRBase (piRBase release v2.0),piRBase数据库的第一个版本则在2014年发布。piRBases数据库是国际RNA联盟RNAcentral收录的唯一一个piRNA专业数据库。之后,他们又系统的发现了piRNA对编码基因的剪切调控作用(Cell Research,2015),并开发了piRNA靶基因预测算法(Bioinformatics, 2016)。基于这些工作成果,此次piRBase升级既包括原有模块新数据的收录,又涉及到新模块的添加以扩展piRBase的综合性和全面性。

图8 PiRBaseV2版本的内容

六、模式生物非编码RNA研究

在模式生物中,秀丽隐杆线虫一直是个“明星”物种,它透明的身体、简单的结构以及丰富的遗传信息,使其成为生物学家研究遗传学、发育生物学和神经生物学的绝佳模型。然而,这个“明星”的基因组中,却隐藏着大量未被充分认识的非编码小RNA。


2006年陈润生团队Genome Research上在线发表了论文[9],团队通过新的克隆策略克隆了100个新的和61个已知或预测的秀丽隐杆线虫全长ncRNA,发现其中三分之二的ncRNA是由特定的上游启动子元素独立转录的,且至少60%的ncRNA转录水平随发育阶段变化。研究还鉴定了两类新的ncRNA:sbRNA和snlRNA,它们具有独特的内部基序、二级结构、上游元素和高且发育可变的表达。大多数新ncRNA在秀丽隐杆线虫近缘种秀丽隐杆线虫中保守,但在线虫外仅发现一个同源物。初步估计秀丽隐杆线虫转录组包含约2700个小ncRNA,可能作为线虫发育中的调控元件。美国科协(AAAS)所属的科学评述杂志”EurekAlert”在1月9日发表了长文介绍了这一研究成果。介绍中不仅肯定了上述发现,还指出实验技术的效率比国际上提高了10倍。

图9 克隆和功能分布

次年陈润生团队继续在Genome Research在发表了论文[10],通过对秀丽隐杆线虫全基因组平铺微阵列的表达分析,发现其非蛋白编码转录组包含约3200个遗漏或替代外显子和7800个小未知功能转录本,以及约1200个小非编码RNA位点,估计至少70%的秀丽隐杆线虫基因组被转录。

图10 不同样品中注释外显子和基因的检出率

除此之外,陈润生院士还参加了中国第一个完整基因组泉生热袍菌 B4 基因组序列的组装和基因标识,以及人类基因组 1% 和水稻基因组工作草图的研究。


七、数据分析与可视化工具

陈润生团队除了开发非编码RNA的研究工具外,还涉及其他数据分析和可视化工具的开发。2016年,陈润生团队Bioinformatics上在线发表了论文[11],团队开发了BioCircos.js,这是一个交互式的轻量级 JavaScript 库,专门用于生物数据交互式可视化。促进了基于 Web 的应用程序的开发,用于各种生物数据的循环可视化,例如基因组特征、遗传变异、基因表达和生物分子相互作用。

图11 使用 BioCircos.js构建的绘图

在单细胞和空转最火的那几年,陈润生院士自然也没有落下。2022年陈润生团队Nucleic Acids Research上在线发表了论文[12],发布了第一个单细胞空间转录组数据库及数据在线可视化平台,SpatialDB的开发工作主要由中国科学院生物物理研究所高通量测序中心完成。该中心于2014年在陈润生院士领导下成立,至今已累计为所内外数十个课题组和单位提供了超过1.5万机时的高通量测序服务。

图12 SpatialDB 数据库概述

写在最后

看到这,我们已经把陈润生院士重要研究成果都学习完了。陈润生院士是一位纯粹的科学家。尽管84岁高龄,依然每天看书,人工智能和大模型相关知识都是一点点自学的。他认为不放弃学习,是做科研的基本素质。哪天不学习了,肯定就跟不上了,老了跟不上潮流很正常,但只要想跟上潮流,就必须强迫自己学习。


连80多岁的院士都仍然奋战在学术一线,我们又有什么理由,不全神贯注地走自己脚下的人生之路呢?

参考文献:

[1]Zhao L, Wang J, Li Y, Song T, Wu Y, Fang S, Bu D, Li H, Sun L, Pei D, Zheng Y, Huang J, Xu M, Chen R, Zhao Y, He S. NONCODEV6: an updated database dedicated to long non-coding RNA annotation in both animals and plants. Nucleic Acids Res. 2021 Jan 8;49(D1):D165-D171. doi: 10.1093/nar/gkaa1046. PMID: 33196801; PMCID: PMC7779048.

[2]Zheng Y, Luo H, Teng X, Hao X, Yan X, Tang Y, Zhang W, Wang Y, Zhang P, Li Y, Zhao Y, Chen R, He S. NPInter v5.0: ncRNA interaction database in a new era. Nucleic Acids Res. 2023 Jan 6;51(D1):D232-D239. doi: 10.1093/nar/gkac1002. PMID: 36373614; PMCID: PMC9825547.

[3]Bu D, Zhao Y, Cai L, Xue H, Zhu X, Lu H, Zhang J, Sun S, Ling L, Zhang N, Li G, Chen R. Topological structure analysis of the protein-protein interaction network in budding yeast. Nucleic Acids Res. 2003 May 1;31(9):2443-50. doi: 10.1093/nar/gkg340. PMID: 12711690; PMCID: PMC154226.

[4]Li J, Chen Z, Tian L, Zhou C, He MY, Gao Y, Wang S, Zhou F, Shi S, Feng X, Sun N, Liu Z, Skogerboe G, Dong J, Yao R, Zhao Y, Sun J, Zhang B, Yu Y, Shi X, Luo M, Shao K, Li N, Qiu B, Tan F, Chen R, He J. LncRNA profile study reveals a three-lncRNA signature associated with the survival of patients with oesophageal squamous cell carcinoma. Gut. 2014 Nov;63(11):1700-10. doi: 10.1136/gutjnl-2013-305806. Epub 2014 Feb 12. PMID: 24522499; PMCID: PMC4215280.

[5]Wang Y, He L, Du Y, Zhu P, Huang G, Luo J, Yan X, Ye B, Li C, Xia P, Zhang G, Tian Y, Chen R, Fan Z. The long noncoding RNA lncTCF7 promotes self-renewal of human liver cancer stem cells through activation of Wnt signaling. Cell Stem Cell. 2015 Apr 2;16(4):413-25. doi: 10.1016/j.stem.2015.03.003. PMID: 25842979.

[6]Sun L, Luo H, Bu D, Zhao G, Yu K, Zhang C, Liu Y, Chen R, Zhao Y. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts. Nucleic Acids Res. 2013 Sep;41(17):e166. doi: 10.1093/nar/gkt646. Epub 2013 Jul 27. PMID: 23892401; PMCID: PMC3783192.

[7]Guo X, Gao L, Liao Q, Xiao H, Ma X, Yang X, Luo H, Zhao G, Bu D, Jiao F, Shao Q, Chen R, Zhao Y. Long non-coding RNAs function annotation: a global prediction method based on bi-colored networks. Nucleic Acids Res. 2013 Jan;41(2):e35. doi: 10.1093/nar/gks967. Epub 2012 Nov 5. PMID: 23132350; PMCID: PMC3554231.

[8]Wang J, Zhang P, Lu Y, Li Y, Zheng Y, Kan Y, Chen R, He S. piRBase: a comprehensive database of piRNA sequences. Nucleic Acids Res. 2019 Jan 8;47(D1):D175-D180. doi: 10.1093/nar/gky1043. PMID: 30371818; PMCID: PMC6323959.

[9]Deng W, Zhu X, Skogerbø G, Zhao Y, Fu Z, Wang Y, He H, Cai L, Sun H, Liu C, Li B, Bai B, Wang J, Jia D, Sun S, He H, Cui Y, Wang Y, Bu D, Chen R. Organization of the Caenorhabditis elegans small non-coding transcriptome: genomic features, biogenesis, and expression. Genome Res. 2006 Jan;16(1):20-9. doi: 10.1101/gr.4139206. Epub 2005 Dec 12. PMID: 16344563; PMCID: PMC1356125.

[10]He H, Wang J, Liu T, Liu XS, Li T, Wang Y, Qian Z, Zheng H, Zhu X, Wu T, Shi B, Deng W, Zhou W, Skogerbø G, Chen R. Mapping the C. elegans noncoding transcriptome with a whole-genome tiling microarray. Genome Res. 2007 Oct;17(10):1471-7. doi: 10.1101/gr.6611807. Epub 2007 Sep 4. PMID: 17785534; PMCID: PMC1987347.

[11]Cui Y, Chen X, Luo H, Fan Z, Luo J, He S, Yue H, Zhang P, Chen R. BioCircos.js: an interactive Circos JavaScript library for biological data visualization on web applications. Bioinformatics. 2016 Jun 1;32(11):1740-2. doi: 10.1093/bioinformatics/btw041. Epub 2016 Jan 27. PMID: 26819473.

[12]Fan Z, Chen R, Chen X. SpatialDB: a database for spatially resolved transcriptomes. Nucleic Acids Res. 2020 Jan 8;48(D1):D233-D237. doi: 10.1093/nar/gkz934. PMID: 31713629; PMCID: PMC7145543.


最新文章汇总(持续更新ing)


最新热点方向

1、去年才出的review,今年就有顶刊了——神经免疫

2、医之侠者:中国肺癌领军人物吴一龙

3、陈志坚成果汇总|大概率是华人下一位诺奖获得者

4、《Nature》中肠道菌群研究的正确打开方式

5、这文章才十来分,是被nature撤稿影响了吗?


生信人课堂

1、多组学水平的孟德尔随机化分析套路

2、单细胞+空转王炸组合,探索骨骼肌纤维化巨噬细胞

3、以小博大,紧张刺激:肿瘤耐药研究,从基因到网络

4、零基础入门-单细胞课程

5、史上最全格局打开,细讲基因组学,确定不来学学?


课题设计 | 生信分析 | 数字产品

概普生物 让科研丰富

生信人

专注于基因技术相关知识分享
扫码关注 获取更多






END