专栏名称: 六合商业研选
六合咨询立足新经济,挖掘明日之星,发现价值,传播价值;国际化视野、多角度观察、深度思考、体系化研究,持续提升研究广度与深度,全面覆盖一级、新三板、二级(A股+美股+港股);深度剖析优质企业商业模式与投资价值,前瞻性洞察行业本质与发展趋势。
目录
相关文章推荐
51好读  ›  专栏  ›  六合商业研选

【诺奖年刊】2024年诺贝尔奖解读,诺贝尔奖的AI时代,辛顿计划捐出奖金,Diss Sam Altman

六合商业研选  · 公众号  ·  · 2024-10-16 06:30

正文

请到「今天看啥」查看全文



2024年诺贝尔奖相继公布,化学、物理学都与AI紧密相关,不仅彰显AI在科学研究中的重要作用,也预示着AI技术将开启科学发展新纪元,AI与化 学、 物理学、生物学等基础学科深度融合,推动科学研究进入发展新阶段。

诺贝尔化学奖 授予戴维·贝克David Baker、戴米斯·哈萨比斯Demis Hassabis、约翰·江珀John Jumper,在蛋白质设计与结构预测方面取得突破。

诺贝尔 物理学奖 授予约翰·J·霍普菲尔德John J. Hopfield、杰弗里·E·辛顿Geoffrey E. Hinton,对现代机器学习作出奠基性贡献。

诺贝尔 生理学/医学奖 授予维克托·安布罗斯Victor R. Ambros、加里·鲁夫昆Gary Ruvkun,发现微RNA及其在转录后基因调控中的作用。

本期前沿周报,聚焦2024年诺贝尔奖,梳理化学奖、物理学奖、生理学/医学奖获奖者与相关研究成果,整理辛顿获奖后接受多家媒体访谈纪要,环球科学、智东西发布,六合商业研选精校,分享给大家,Enjoy。

正文:

全文38,494字

预计阅读77分钟

诺贝尔化学奖颁给AI,专题详解计算与AI颠覆我们对蛋白质理解方式

时间:2024年10月9日

来源:环球科学

撰文:塞明·萨普拉科格卢Yasemin Saplakoglu

翻译:金烨、钟博子韬

审校:张阳

字数:21,117

北京时间2024年10月9日17时 45 分许,戴维·贝克David Baker因计算蛋白质设计,戴米斯·哈萨比斯Demis Hassabis与约翰·江珀John Jumper因蛋白质结构预测,共同获得 2024年诺贝尔化学奖。

戴维·贝克David Baker

美国化学家、计算生物学家,华盛顿大学教授、蛋白质设计研究所主任,计算蛋白质设计与预测领域先驱。

贝克1962年美国华盛顿州出生,1984年在哈佛大学取得生物学学士学位,1989年获得加州大学伯克利分校生物化学博士学位,在加州大学旧金山分校完成生物物理方向博士后训练。

贝克是被广泛使用的蛋白质结构从头设计与预测软件罗赛塔的发明人,他的团队设计出首个具有全新折叠结构的人工蛋白质Top7。

戴米斯·哈萨比斯Demis Hassabis

英国计算机科学家,AI研究者、前游戏设计师,DeepMind/现Google DeepMind联合创始人、CEO。

哈萨比斯1976年英国伦敦出生,幼年展现出惊人智力天赋,13岁达到国际象棋大师水平。青少年时代哈萨比斯,大部分时间在家由父母辅导自学,15岁开始游戏设计师生涯,21岁获得剑桥大学计算机科学学位。

毕业后,他继续游戏设计师工作,运用AI算法参与开发著名游戏《黑与白》、《共与国:革命》、《邪恶天才》;在此过程中,他对神经科学产生浓厚兴趣,重返校园,2009年获得伦敦大学学院认知神经科学博士学位,之后在麻省理工学院-哈佛大学进行神经科学与AI研究。

2010年,哈萨比斯在英国伦敦联合创立机器学习公司DeepMind,带领团队先后发布震撼世界的AlphaGo、AlphaFold系列模型。

谷歌收购DeepMind 后,哈萨比斯带领团队主导谷歌最先进的AI模型Gemini开发。

约翰·江珀John Jumper

Google DeepMind 高级研究员,江珀 1985年美国阿肯色州出生,2007年在美国范德比尔特大学取得物理学与数学学士学位,2008年在英国剑桥大学取得理论凝聚态物理学硕士学位。

江珀在美国生物化学研究公司 D. E. Shaw Research ,担任 3年科学助理,利用计算机模拟进行分子动力学研究,开发从这些模拟中提取关键数据的算法。

2017年,江珀在美国芝加哥大学取得理论化学博士学位,利用机器学习模拟蛋白质折叠与动力学研究。

他又在芝加哥大学完成博士后研究,继续从事蛋白质预测深度学习模型的研究工作。

2018年起,江珀进入英国 DeepMind担任高级研究员。江珀在 DeepMind 公司,与同事开发AlphaFold 系列模型,也是 AlphaFold2 开发团队领导者。



打破僵局的罗塞塔

2020年12月,上百位计算科学家端坐在各自电脑屏幕前,见证科学新纪元展开,他们一场会议汇聚一堂。

这场友好的竞争中,一些人参与近30年,沉迷探讨一个不变的问题,著名的蛋白质结构预测问题。

解释起来很简单:人们能否凭借最为简单的信息,一段蛋白质分子的一维序列,精准预测出它三维结构。蛋白质维持我们细胞与身体活力与运转,它的行为取决于形状与结构,成功解答这一问题,将深刻影响我们对疾病、新药研发、生命机制的理解。

这个会议,每2年举办一次,科学家会在会议中测试自己最新研发的蛋白质结构预测工具。解决方案总是遥不可及,一些人赌上自己全部科研生涯,试图提高预测准确性。这场竞争,始终处于婴儿学步阶段,大家不认为2020年会有所不同。

他们错了,那一周,约翰·江珀John Jumper的科学家,在蛋白质结构预测领域崭露头角,展示一套全新的AI工具阿尔法折叠2 AlphaFold2,是谷歌位于英国伦敦的AI子公司DeepMind研发成果。

在线视频会议上,该领域资历尚浅的科学家约翰·江珀报告数据表明,AlphaFold2的蛋白质三维结构预测模型准确率超过90%,是紧随之后对手5倍。

一瞬间,蛋白质结构预测,从不可解的难题,变成不再令人痛苦的问题。 人类思维陷入僵局,AI大获成功,一举震惊生物学界。与会的美国哥伦比亚大学数学基因组学项目Program for Mathematical Genomics系统生物学家穆罕默德·库雷希Mohammed AlQuraishi说,我当时惊呆了,很多人不愿意承认AlphaFold2的成就。

总结发言中,会议组织者约翰·莫尔特John Moult,以不容置疑的口气说道:AlphaFold2在很大程度上解决蛋白质结构预测问题,彻底改变蛋白质科学。莫尔特身穿黑色高领衫,坐在自家办公室书架前,在会议软件上点击自己幻灯片,语气激动又带着一丝不祥的口吻,这不是终结,而是开始。

当谷歌公关部门将这一消息在全球大肆宣扬之后,媒体为之疯狂。各大头条口径一致:AlphaFold2将改变一切。

将一生贡献于探索单个蛋白质结构的结构生物学家们心生恐惧,担心自己失业。

一些人主张AlphaFold2会革新药物研发,能让生物学家快速确定蛋白质结构,创造全新的靶向药物。

其他人反驳说这些结果大部分都是炒作,这个世界不会出现什么变化。会议组织者莫尔特自己无法理解这个横空出世的新事物。会议结束时,他提出一个每个人都想问的问题,接下来怎么办?

现在,时间过去3年半,这个问题终于能得到回应。 AlphaFold2改变生物学家研究蛋白质的方式,AlphaFold2是强大的预测工具,它并非无所不能。它非常巧妙使用不同于科学家的方法,解决一部分蛋白质结构预测问题,无法取代生物实验,更加凸显实验的必要性。

AlphaFold2最大的影响力,是让生物学家注意到AI的威力。它启发新的算法,例如设计出自然界中不存在的全新蛋白质,催生新的生物技术公司、实践科学的新方法。它的新版本AlphaFold3,2024年5月上线,引领生物学预测技术进入下一阶段:构建蛋白质与其他分子诸如DNA或者RNA结合的复合体结构。库雷希说道,这是迄今为止最宏大的机器学习驱动科学的故事。

AI无法填补的鸿沟大量存在,这类工具无法模拟蛋白质随着时间推移而发生的变化,或者说无法构建处于自身生存环境即细胞中的蛋白质的动态结构。而在科学家为AlphaFold2预测能力折服之前,人类对蛋白质结构背后隐藏秘密的不懈追求,持续半个多世纪。

问题的诞生

一张折纸是一层被压缩的木浆,直到以特定方式折叠,它才焕发新生。只需要几次精准翻卷与压折,这张纸就能变成算命大师,预言你的未来。在同一张纸上改变一些折叠步骤,一只纸鹤就此展翅而来,给收到它的人带来好运。

一长串氨基酸分子链没有任何功能,直到它自发折叠成固有形状,生物学家称之为蛋白质结构。蛋白质的结构,决定自身与其他生命分子结合或相互作用的方式,定义它在细胞中作用。

地球上已知蛋白质种类上亿,未知更多,它们无所不能。

血红蛋白与肌红蛋白,在肌肉与身体中循环输送氧气。

角蛋白,为头发、指甲、皮肤提供结构框架。

胰岛素,协助葡萄糖进入细胞,转化成能量。

蛋白质,可以呈现无数形状结构,以匹配生命活动过程中无数的工作需求。

从原子到生态系统,蛋白质结构就像一种通用语。库雷希打比方道,万物源自此处。

细胞让氨基酸小分子,像雏菊花环一样连起来,形成多肽长链,制造出蛋白质。它所选择的氨基酸,取决于DNA提供的一连串指令。这个创造过程中,多肽链一瞬之间就能弯曲扣合,精准折叠成蛋白质最终的三维结构。一旦脱离分子组装流水线,蛋白质会立刻奔赴属于自己的生物学工作。

如果蛋白质无法顺利完成折叠过程,灾难将接踵而至,破坏身体功能。蛋白质错误折叠或展开,都会产生毒性,导致细胞死亡。许多疾病与身体障碍,例如镰状细胞贫血,都由蛋白质错误折叠造成。错误折叠的蛋白质,还会凝聚成斑块,成为阿尔茨海默病与帕金森病等神经退行性疾病的生物学标志。

美国约翰·霍普金斯大学Johns Hopkins University大学的生物物理学名誉教授乔治·罗斯George Rose如此评价道,无人确切知晓蛋白质折叠是如何发生,这些简单分子链中序列信息如何编码蛋白质的复杂结构,这是我们能够提出的最深刻的问题。

科学家对这个问题的探索,最早可追溯至20世纪30年代,真正开始动手尝试解谜,是在50年代中期。

当时,生物化学家克里斯蒂安·安芬森Christrian Anfinsen,将蛋白质加入化学溶液中,试图打断化学键展开蛋白质,或者令其错误折叠。安芬森发现,被打开或错误折叠的蛋白质,会自发重构成正确结构。这个后来为他赢得诺贝尔奖的发现,表明蛋白质会根据内部代码形成三维结构,这个代码是由它的氨基酸链书写。

安芬森假设,我们应该能找到一种方法,通过氨基酸序列来预测蛋白质形状结构,这就是后来广为人知的蛋白质折叠问题。

一旦多肽链组装完成,蛋白质便能在千分之一秒内折叠成形,速度之快,让分子生物学家塞勒斯·利文索尔Cyrus Levinthal困惑不已。他1969年发表的论文《如何优雅折叠How to Fold Graciously》中,利文索尔计算出,如果蛋白质尝试每一种可能折叠方式,组装完毕所需的时间,可能会无限漫长。他思索着,一定有什么方法能更直接护送蛋白走在正确折叠道路上。

随着时间推移,蛋白质折叠问题,分化成全新类型。如今的科学家,提出三大主要 问题: 能否通过蛋白质氨基酸序列,预测蛋白质结构?蛋白质折叠编码是什么?它的折叠机制,是怎样?

20世纪60年代早期,随着首批实验确定的蛋白质结构相继问世,这些问题开始钻入科学家的大脑。

英国剑桥大学University of Cambridge两位生物学家马克斯·佩鲁茨Max Perutz、约翰·肯德鲁John Kendrew,让蛋白质生长成晶体,用X射线轰击后,测量射线偏折的程度,这一技术便是X射线晶体学X-ray crystallography。如此一来,他们能确定血红蛋白与肌红蛋白三维结构。这一过程,耗费2人20多年时间,最终为他们带来诺贝尔奖。

自此之后,无数科研人员努力钻研,不仅想要理解不同蛋白质不同的结构形态,还想要知道它们如何形成。

英国格拉斯哥大学University of Glasgow结构生物学家海伦·沃尔登Helen Walden解释道,想要看清事物样貌是人的本性,只有知其然,才能知其然。

有些人从蛋白质化学入手,其他人集中解决物理角度上的问题。实验科学家,展开艰苦的研究工作,重构蛋白质结构;计算生物学家,以各种方式结合算法,进行编程与重编程,通过模型与模拟来捕捉线索。

随着被破解的蛋白质结构越来越多,这个领域需要新的方法来组织与共享信息。

1971年,为蛋白质结构存档的蛋白质数据库Protein Data Bank成立。这个免费的数据库,成为需要了解蛋白质结构、探索生物学问题的研究者可靠研究工具。蛋白质数据库成立之初,里面只保存了7种蛋白质结构。

50年之后,谷歌DeepMind用它来训练AlphaFold2时,它所保存的蛋白质结构数量已超过14万,这都是结构生物学家在实验室内解析所得。

实验科学家的苦恼

20世纪70年代中期开始,珍妮特·桑顿Janet Thorntom每隔几个月一定会收到一只邮包,里面是一盘12英寸磁带,记录着被存入蛋白质数据库的新结构数据。

作为英国牛津大学Oxford University生物物理学家,桑顿迫不及待打开包裹,在新结构被发现后的第一时间展开分析,她收到的第一份磁带中只有20个结构。

每一个蛋白质结构,都凝结着数年研究心血。通常情况下,让单个蛋白质结晶,从中收集数据或解释数据以解析出折叠结构,需要一个博士生在研究生院里投入4年或更长的时间。

牛津大学生物物理系,当时是全球X射线晶体学的研究中心之一。1965年,蛋白质晶体学领域先驱之一,戴维·菲利普斯David Phillips首先确定溶菌酶的结构,这是我们免疫系统用来攻击细菌的一种蛋白质。

使用X射线晶体学方法,牛津大学生物物理学家,绘制出蛋白质电子密度图谱,图中电子集中的区域可能包含一个原子。桑顿与同事将电子密度图谱打印到塑料薄片上,一张又一张叠放起来,创造出蛋白质地理的等高线图。

他们将图片转变成物理模型,科学家将打印在塑料上的图谱,放入理查兹盒Richards box的设备中,1968年,该设备由牛津大学生物物理学家弗雷德里克·理查兹Frederic Richards发明,以他的名字命名。

理查兹盒内部,有一面以一定角度倾斜的镜子,能将图片反射到工作区域内,这样科学家就能真切看清每一个原子之间相对位置。接下来,他们使用圆球与小棍子,搭建出物理实体模型。

这一方法过程繁琐,限制颇多。1971年,后来成为著名晶体学家的路易丝·约翰逊Louise Johnson,正在搭建磷酸酶的模型,它由842个氨基酸组成,是当时科学家研究的最大蛋白质。为了建模,约翰逊必须爬上2层楼高的理查兹盒,这是牛津为了她的研究专门建造。

模型建成后,科学家用尺来测量各原子之间距离,确定蛋白质结构坐标。桑顿说,这个方法很古老。

她解释道,接下来,他们将所有坐标数据输入计算机中,计算机版本的蛋白质结构看上去像一片密林,原子杂乱聚集在一起,只有戴上3D眼镜,才能开始看到蛋白质拓扑结构。整个过程非常折磨人, 结果出来又令人愉悦。

经过年复1年努力付出,一旦科研人员确信自己蛋白质结构无误,他们就将数据提交给蛋白质数据库。1984年,数据库内存放152种蛋白质结构,到1992年,这一数字增长至747。

就在实验科学家努力建造物理模型,另一批蛋白质生物学家,计算生物科学家另辟蹊径。他们思考安芬森对可以通过氨基酸序列预测蛋白质结构的假说,有点过于自信。

书写自己法则

20世纪60年代初,本科生约翰·莫尔特打算成为物理学家,他了解到蛋白质折叠问题。有人举办一场讲座,说生物太重要,不能只留给生物学家。他说,我很自负把这话当真。被讲座深深吸引的莫尔特,将自己职业生涯转向另一个方向。

毕业后,莫尔特进入蛋白质晶体学领域。他破译出若干蛋白质结构,包括β-内酰胺酶,一种能破坏青霉素的细菌酶。

1970年,他在牛津大学获得分子生物物理学博士学位。在开始博士后工作时,他厌倦实验方法,开始转向日渐蓬勃的蛋白质计算领域。计算生物学家,可以说是实验科学家的对立面,他们编写计算机算法,尝试证明安芬森是对的,给程序投喂氨基酸链,让它生成正确的蛋白质结构。

从生物实验,转向计算领域并非易事。莫尔特习惯对每个蛋白质结构进行缓慢、细致的研究。新领域中,关于算法的论文一篇接一篇,常常宣称解决蛋白质结构问题、相关的子问题。

莫尔特对此持怀疑态度,他说计算生物学领域发表的文章,不像我以前熟悉的研究严谨。这不是这个圈子里的人都是骗子,而是如果你进行计算研究,就是在虚拟世界中工作。

虚拟世界中,计算科学家编写自己法则,自然世界的法则在此不发挥作用。他们设计自己的算法,好让原子以某一方式凝聚在一起,或者让蛋白质总是向右或向左折叠。随时间推移,模型与现实越来越遥远。莫尔特评价道在,一个完全处于自己掌控的世界中,人们很难始终保持严谨。

如此,他能看到两个领域各自优势。实验科学家研究细致、缓慢,计算科学家迅速、偏离生物物理现实,他们经常出错。他想到,一定有一种方法,能够将两个途径结合起来。

开始跺脚

20世纪90年代初,莫尔特与同事克日什托夫·菲德利斯Krzysztof Fidelis,想出一个办法来规范领域内混乱的形势。他们创立群体性科学实验,称为CASP 全球蛋白质结构预测比赛Critical Assessment of Structure Prediction。

他们思路很简单,作为CASP组织者,莫尔特与菲德利斯会公布一张氨基酸序列清单,这些序列所代表的蛋白质结构已被实验科学家解析出来,尚未公开发表。随后,全球计算科学团队可以使用他们能想到的任何方法来预测蛋白质结构。将有一支独立的科学家团队评估后者模型,将其与实验确定的结构做对比。

这个主意被推行开来,CASP很快成为用计算生物学方法解决结构预测难题的试验场。当时AI未诞生,计算方法主要涉及分子物理学模拟。对科学家,这正是将自己想法付诸实验,与同行公开测试的好机会。桑顿说,原本不是竞赛,结果却成为一场竞赛。

每隔2年,科学家齐聚阿西洛玛会议中心Asilomar conference center,这是位于美国加州蒙特利附近的古老教堂,曾是基督教新教卫理公会的静修场所。会议期间,组织者宣布竞赛结果,计算生物学家彼此交流自己方法。如果与会者不喜欢他们听到的内容,莫尔特鼓励学者们在木地板上跺脚表达意见。

他说,一开始,跺脚声响成一片。曾跟随桑顿学习过的英国伦敦大学学院University College London生物信息学教授戴维·琼斯David Jones回忆道,声响就跟打鼓一样。

如果会议陷入细节的泥沼,生物学家们就会跺脚;如果言过,他们也会跺脚;如果发言人不停重复或者过于啰嗦,他们还是会跺脚。这些都是友好性跺脚,不令人生厌。

无论出于何种原因,当嘈杂的跺脚声传入发言人耳中,总会让人尴尬。琼斯说道,感谢上帝,我发言时从来没人跺脚。他团队提出一套 穿针引线threading的计算方法,这种方法将氨基酸序列编织进已知的蛋白质结构中,据此来匹配正确的结构。琼斯笑着回忆道,结果还不错,我们很满意,之后一切顺理成章,还充满乐趣。

意大利帕多瓦大学University of Padua生物信息学教授西尔维奥·托萨托Silvio Tosatto说,当时大家都兴奋不已。人们认为自己能成为百万富翁,他们掌握正确的算法,还有一些人觉得自己马上就能得诺贝尔奖。

在最初几年内,什么都没发生。当被问及当时CASP预测结果提交情况时,莫尔特顿了一下说:随机是个不错的说法。

莫尔特说道,有些方法表现超出预期,例如同源性建模homology modeling,这种方法将已知蛋白质结构作为参照,用来推测未知蛋白结构。其他方法一无所获,大部分结构预测看上去都很折磨人。

荷兰癌症研究所Netherlands Cancer Insitute与乌特勒支大学Utrecht University的结构生物学家阿纳斯塔西斯·佩拉基斯Anastassis Perrakis开玩笑道,我乐于看到他们失败。他向CASP组织者提供实验确定的结构,用于预测竞赛。这不是竞争,我们喜欢在科学上互相逗乐。

这一过程中,明显的领先者出现。1996年,第2届CASP结束后,年轻人戴维·贝克David Baker邀请琼斯一同坐车去机场。贝克听过琼斯演讲,正在钻研自己计算模型。模型还没准备好参加CASP,他很想先与琼斯聊一下。琼斯在车上听了他的想法,没想过以后还会再见。

1998年,下一轮竞赛期间,贝克带着自己罗塞塔Rosetta算法一鸣惊人。琼斯这样评价道,他成为最难打败的人。罗塞塔算法模拟氨基酸分子中原子之间的相互作用,以此预测它们折叠方式。贝克解释说,这表明你可以预测蛋白质结构,但不够好,不够精确,用途不大。

2008年时,人类还能战胜计算机。贝克当时在美国华盛顿大学University of Washington拥有自己实验室。他开发了一款名为折叠它Foldit的免费在线游戏,玩家需要将给定的氨基酸链折叠成蛋白质结构。在一篇发表于《自然Nature》的论文中,他的团队报告说在模拟蛋白质结构方面,人类玩家表现超越罗塞塔算法。

人类领先优势没有持续太久,21世纪10年代初,协同演化co-evolution概念的重大突破推动领域发展,后来成为AI预测工具诞生的关键。

这一概念已存在几十年,解释起来相当简单:通过比较数百个,乃至数千个密切相关、彼此不同蛋白质的氨基酸序列,科学家能够识别出发生突变氨基酸,重点是,还能确定它们是否与其他氨基酸同步突变。如果两个氨基酸共同变化,它们很可能以某种方式相连。

美国劳伦斯伯克利国家实验室Lawrence Berkeley National Laboratory的结构生物学家保罗·亚当斯Paul Adams解释道,你就能说,这两个氨基酸在空间上可能很接近。

直到21世纪10年代初,这种预测哪些氨基酸可能存在物理接触的准确率很低,徘徊在20%~24%。后来,科学家注意到自己统计学方法会引入错误,数据表明一些氨基酸存在接触,但并没有。接下来,莫尔特了解到,几十年来,统计学家一直敏锐知到这样的错误存在。他说,当你回头看时,你会想,我怎么会这么蠢?

计算生物学家改进统计学工具。到2016年,氨基酸接触预测的准确率攀升至47%,2年之后达到70%。贝克算法,便是建立在这一成功之上,2014年罗塞塔非常精准生成两个蛋白质结构,CASP评估方甚至认为贝克可能解决了蛋白质结构预测的难题。

亚当斯如此说道,协同演化的见解绝妙无比。在不使用机器学习的情况下,协同演化是推动领域前进的重大事件之一。该领域的发展有限,协同演化要求大量相似蛋白质彼此比对,实验科学家解析蛋白质结构的速度没那么快,无法满足计算科学家的需求。

对此,莫尔特套用一个演化生物学术语:研究蛋白质结构预测的进度,是一种间断平衡。有时候,大家觉得好像几十亿年都没出现什么好想法,一些令人振奋的事情就会发生。

AlphaFold2 一鸣惊人

2016年,戴维·琼斯David Jones在《自然Nature》杂志发布的一篇新论文中瞥见未来。这篇论文中,谷歌Google旗下、位于英国伦敦的AI团队DeepMind的研究人员,详细描述他们如何使用 深度学习deep learning的算法,在古老的围棋游戏中击败人类冠军。这一成果令琼斯十分惊讶,形势正在变化,他回忆起当时自己想法,我意识到了解深度学习迫在眉睫。

深度学习,是一种受人脑启发而开发的AI方法。大脑中,分子信息通过神经元组成的神经网络传递。神经元是脑细胞的一种,它们有一些树突的小手臂,可以抓住邻近神经元释放的信号分子,也称为神经递质,这些信号分子会告诉接收的神经元是否激活,并传播信号。

美国布朗大学计算机科学教授迈克尔·利特曼Michael Littman说道,如果神经元接收到足够多刺激,它就会激活,释放信号分子。这些信号分子被释放后,会传递给下一个神经元。

20世纪50年代,一些计算机科学家意识到,他们可以将电子比特连接在一起,创建ANN人工神经网络Artificial Neural Network。

ANN中每个单元都是一个节点,研究人员将其比作一个人工神经元:ANN中,人工神经元接受来自其他人工神经元的信息,通过计算决定是否需要向下一个人工神经元传递信号。信息会通过多层人工神经元传播,以产生特定的结果,例如从一张图像中识别出一只狗。

神经元层数越多,进行的计算越复杂,早期ANN仅有2层神经元。

20世纪90年代,这一数量增加到3层,一直维持20年。利特曼说道,我们无法找到可靠的方法来创建更深层的网络。

20世纪90年代以来,包括琼斯与约翰·莫尔特John Moult在内的结构生物学家,一直在尝试将ANN应用于蛋白质科学。浅层神经网络的局限性与稀疏的数据,阻碍他们前进。

大概10年之前,计算机科学家学会如何更好构建ANN,可靠训练更多层网络。ANN深度从20层、50层、100层,逐渐增加到数千层。

为将这些新网络与20世纪90年代的ANN区分开来,人们开始称为深度学习,利特曼说道,如果说机器学习领域的人特别擅长哪件事,一定是起一些有吸引力的名字。深度学习彻底变革AI,让算法不仅在图像与语音识别方面表现卓越,甚至在游戏中击败人类。

2016年3月,DeepMind联合创始人戴米斯·哈萨比斯Demis Hassabis,在韩国首尔观看他的AI系统阿尔法AlphaGo,在围棋比赛中击败人类世界冠军时,他突然回想起自己在大学时玩蛋白质折叠游戏Foldit的经历。

他不禁思考:DeepMind研究人员能够编写模仿围棋大师直觉的算法,他们是否能开发一个算法,模拟Foldit玩家对生物学一无所知,仍能成功折叠蛋白质的直觉?

美国芝加哥丰田计算技术研究院Toyota Technological Institute at Chicago教授许锦波Jinbo Xu,也意识到深度学习在解决蛋白质结构预测中潜力。

当时,计算机科学家在CNN卷积神经网络Convolutional Neural Networks,取得巨大成功,这种网络中,算法将图像分解为小块,通过识别这些小块之间的模式来处理图像。

受到这些图像处理网络的启发,许锦波将这一技术引入蛋白质结构预测。他使用矩阵的数学对象,来描述在空间上彼此接近的氨基酸,将这个矩阵作为图像输入CNN。算法会在这些图像中寻找规律,预测蛋白质中各个原子三维坐标。

2016年,许锦波在预印本文库arXiv上发布研究成果,随后发表在《公共科学图书馆·计算生物学PLOS Computational Biology》上。

莫尔特说,这项工作在该领域产生深远影响,它向人们展示如何使用深度学习来做这类事情,比如蛋白质结构预测。

没过多久,许多蛋白质结构研究小组,开始尝试深度学习。穆罕默德·库雷希Mohammed AlQuraishi与他研究团队开发首个完全依靠ANN直接预测蛋白质结构的方法,这类方法被称为端到端方法,预测效果不理想,其他研究者开始探索这种革命性的新方法。

琼斯说道,最初我不完全知道自己想用深度学习解决什么具体问题,我意识到我需要进入这一领域。他开始撰写经费申请,寻找自己方向,就在这时,他恰巧收到来自DeepMind电子邮件。

他们询问琼斯关于全球蛋白质结构预测比赛CASP的情况,表示愿意提供帮助。琼斯说道,我以为他们意思只是想说,我们拥有很多算力。琼斯见到他们后,他发现谷歌有更大雄心壮志。为了实现这些目标,这家科技巨头需要更多学术界人才。

新秀登场

2016年,琼斯开始作为顾问参与DeepMind项目时,即后来阿尔法折叠AlphaFold,约翰·江珀John Jumper正在美国芝加哥大学攻读理论化学博士学位。

江珀在青年时期不仅自学编程,还展现出物理方面天赋。当他进入大学时,工程师父母担心他将来可能很难找到工作,他还是坚定选择数学与物理专业。江珀说,我一直认为自己会成为研究宇宙法则的物理学家,我一直很喜欢探索宇宙真理的想法。

在美国范德比尔特大学Vanderbilt University读本科期间,他与费米实验室研究人员合作,研究亚原子粒子夸克的独特性质。

一天,当他与很多研究人员一起坐在午餐桌旁时,他听到令人沮丧的消息。江珀回忆起当时曾这样问道,我们正在设计的这个实验,什么时候会启动?一位教授表示,可能要等到他退休后,另一位更年长的教授说,他可能看不到那一天。

江珀说道,我希望从事一些时间周期更短的科学研究,。本科毕业后,他开始攻读凝聚态物理学的博士学位,很快辍学。之后他在位于纽约的D.E. 肖研究公司D.E.Shaw Research找到一份工作,这家公司当时正在进行蛋白质动力学模拟的基础研究。通过了解蛋白质如何运动与变化,他们希望能够更好理解各种疾病,例如肺癌的致病机制。

这是江珀第一次了解到自己工作具有潜在重大意义:这关乎人类健康,能延长人们生命。接下来3年里,江珀在公司的超级计算机上模拟蛋白质运动,这些超级计算机专门用于加速分子动力学模拟。他说,有时候我花一天时间进行的模拟,比我整个博士期间总和都要多。

2011年,他再次攻读博士学位,这次是在芝加哥大学学习理论化学。他对蛋白质结构与运动充满兴趣,为学术界缓慢的研究进展沮丧。

江珀说道,我不再能使用D.E.肖研究公司定制的计算机硬件。他想知道是否可以使用AI,当时我们称之为统计物理学,来实现快速的蛋白质模拟,这个过程通常需要借助先进的机器才能实现,于是他开始涉足机器学习与ANN。

在此期间,他开始思考蛋白质结构预测的问题。他认为利用PDB蛋白质数据库Protein Data Bank中的结构,作为训练数据,就能解决这个问题,到2012年时,该数据库已包含超过7.6万个蛋白质结构。江珀说道,我相信这些数据足够,但当时方法不够成熟。

博士期间,江珀一直致力利用机器学习来模拟蛋白质折叠与运动过程。2017年,刚获得博士学位的他,听闻DeepMind正在开展蛋白质结构预测,便申请研究科学家职位。江珀说道,当时这个项目是保密的。面试中,只要他提到蛋白质结构预测,DeepMind团队就会迅速转移话题,正是他们这样做了太多次,我才确信他们在做这件事情。

2017年10月,江珀来到DeepMind位于伦敦的办公室。在琼斯帮助下,团队在对AlphaFold进行深入开发工作。那段时间非常有趣,我们会不停提出各种想法。

琼斯说道,最终一个好的核心想法浮现出来,团队便开始沿这个方向展开工作。为了训练他们算法,DeepMind团队使用PDB中超过14万个蛋白质结构。他们将这些信息输入到CNN中,对AI架构没有进行太多改动。江珀说道,这是标准的机器学习。

到2018年春天,AlphaFold准备好参加CASP,与真正的蛋白质科学家们展开竞争。琼斯回忆道,这有点像F1赛车,你以为你造了最好的车,你不知道其他团队造了什么。

这场比赛的风险很高,DeepMind团队讨论了是否应该匿名参赛,他们不想冒着被羞辱的风险,没有人想失败。

琼斯说,学术界,这是研究工作的一部分。如果你失败了,只能继续前进,你没有其他选择。如果你是市值数十亿美元的科技公司,尝试做某事,失败了,这会给外界留下不好的印象。

他们最终还是决定以DeepMind名义提交结果,在12月召开的CASP会议前几个月,琼斯收到CASP组织者消息。他们建议DeepMind团队来参加会议,AlphaFold表现非常好,它在超过一半的蛋白质结构预测中,给出最好预测。这次胜利不算特别耀眼,蛋白质结构预测总分只比第2名高13分,也给人留下深刻印象。莫尔特说道,一些有趣的事情发生了。

算法新生

这场胜利,极大鼓舞DeepMind团队,他们深知距离彻底解决蛋白质结构预测问题,还有一段很长的路要走。

哈萨比斯再次将他们聚集在一起,我们要继续攻克这个问题吗?

江珀回忆起哈萨比斯,如果不继续,就去寻找我们能产生巨大影响的问题。江珀继续说,有一刻,我们决定要把这个问题彻底解决。他们重新回到起点,开始新一轮研究。

凭借在物理、化学、生物学、计算领域多样化背景,江珀给头脑风暴会议带来独特的见解。

不久后,他开始领导这个团队,团队规模从最初6人,扩大到15人。拉斐尔·汤曾德Raphael Townshend说道,有一些非常特别的事情正在发生。2019年,他曾在DeepMind实习,后来创办由AI驱动的生物科技公司原子AI Atomic AI。

学术界,专家们往往彼此分隔,各自研究一些独立项目,很少寻求合作。而在DeepMind,来自统计学、结构生物学、计算化学、软件工程等领域的专家们齐聚一堂,共同研究蛋白质结构预测问题。他们拥有谷歌提供的庞大财力与计算资源。

汤曾德说道,我在博士期间需要花费几个月完成的事情,在这里一天就能完成。

位于伦敦的DeepMind办公室充满活力,大部分活力都来自江珀。汤曾德说,我认为他是真正的天才,也是一个非常谦逊的人。美国计算机科学家埃伦·钟Ellen Zhong说道:他深受团队的喜爱。钟 2021年在DeepMind实习,现在是美国普林斯顿大学Princeton University助理教授。

江珀领导下,团队对AlphaFold进行重构,开发AlphaFold2。汤曾德说道,DeepMind设计型的转换架构Transformer,过去5年中,这种深度学习模型几乎推动所有机器学习算法实现突破。

这种ANN通过调整连接的强度,来建造更精确的数据表征,在AlphaFold2中用于处理蛋白质的演化与结构数据。

随后,这些数据会被第二个Transformer架构用来预测一个蛋白质三维结构。AlphaFold2将预测的结构与一些修正数据继续输入这些架构中,进一步优化预测的蛋白质结构。

江珀说,当我们刚开始研发AlphaFold2时,算法表现非常糟糕,但并没有我们预期的糟,它得到一些看起来有点像蛋白质的螺旋结构。

随着他们进一步优化算法,他们注意到预测的效率与准确性大幅提高。江珀说道,这让人有些害怕,如果它表现得太好,通常意味着你做错了什么。他们检查后,没有发现任何问题,AlphaFold2在正常工作。

团队决定进行一项内部实验,看看他们系统是否对生物学家有帮助。他们挑选大约50篇,发表在《科学Science》、《自然Nature》、《细胞Cell》等顶级期刊上的论文。这些论文不仅描述新的蛋白质结构,还从蛋白质结构中得出一些关于功能的见解。他们想看AlphaFold2表现,能否与实验人员费时费力获得的研究成果相媲美。

他们将这些氨基酸序列,输入AlphaFold2的预测引擎。对每个序列,它给出的预测,都很接近论文中实验获得的蛋白质结构。

DeepMind团队看来,这不够准确,这些结构中,缺少实验研究人员从蛋白质中获得的一些关键细节。江珀说道,你认为自己跑完比赛,发现只是跑了一半。接下来6个月,团队进一步优化系统,一点一点改进细节。

2020年CASP的蛋白质结构预测名单发布前几周,他们又进行另一次有效性测试,江珀对这次结果感到满意。DeepMind在2020年春季,向CASP提交他们预测结果,接下来是等待最终结果。

震惊世界

到初夏时,莫尔特收到来自CASP评估员的电子邮件,写着看看这个,真是令人印象深刻,邮件的附件是AlphaFold2预测的蛋白质结构。莫尔特非常惊讶,他认为这只是一次偶然的成功。

紧接着,他收到一封又一封这样电子邮件。这很不寻常,他回忆起当时的想法。有3个、4个,甚至一大堆近乎完美的蛋白质预测结构,它们全部来自AlphaFold2。到夏末时,莫尔特说,我们迅速意识到,有一些极其超乎想象的事情发生了。

CASP评估委员会,将每个提交的蛋白质预测结构与相对应的、经过实验获得,验证的结构进行比较,给出评分。满分为100分,意味着预测的结构与实际结构中的每一个原子都能完美匹配。

莫尔特一直认为,任何超过90分的结果,都能表明算法有效解决蛋白质的结构预测问题。AlphaFold2预测的大多数结构,都达到甚至超过90分。会议召开前几个月,莫尔特打电话告诉江珀这个消息。江珀回忆道,我激动得爆了粗口,妻子当时还问我是否还好。

2020年12月,新冠疫情暴发不足1年之际,江珀在CASP视频会议上展示AlphaFold2。与其他与会者一样,琼斯在家观看会议。他说,我完全呆在那里,看着一切徐徐展开,我没有发泄情绪的途径,同事们都不在身边,我们都处于疫情防控中,哪也去不了。

对任何不是ANN专家的人,其中的概念听起来都很复杂。即便如此,结论很明确:DeepMind解决蛋白质结构预测问题,他们开发的AlphaFold2能够基于蛋白质的氨基酸序列来准确预测结构。

琼斯回忆道,我最喜欢的课题完蛋了,DeepMind杀死了比赛,一切都结束了。多年以来,阿纳斯塔西斯·佩拉基斯Anastassis Perrakis一直向CASP提交未发表蛋白质结构的实验结果,以供比赛使用。

当他看到AlphaFold2预测的、他的研究团队辛苦获得的一个蛋白质结构时,他心想:完了。

AlphaFold2完全正确预测该蛋白质结构。疫情防控期间,独自在家的科学家们一致认为蛋白质科学的世界,至此永远改变。当他们展望这片新的领域时,心中只有一个问题,接下来怎么办?

从预测到创造

结构生物学家突然陷入混乱。一开始,许多人进行深刻反思,西尔维奥·托萨托Silvio Tosatto说道,他从全球蛋白质结构预测比赛CASP的早期就开始参加这项比赛。一些结构生物学家担心,他们工作可能会变得过时。另一些人表现出防御性姿态,声称阿尔法折叠2 AlphaFold2预测结果不准确。

这一刻,长期致力解决蛋白质结构预测问题的计算生物学家感到苦乐参半,他们一些人甚至研究数10年时间。CASP赛后,穆罕默德·库雷希Mohammed AlQuraishi撰写博客文章,引用一位与会者,他形容这感觉,就像自己孩子第一次离开家。

对这种备受瞩目的新工具感到不安,许多科学家还是欣喜若狂。过去,不从事蛋白质结构研究的科学家,在进行涉及多学科问题的研究时,必须与结构生物学家合作,才能确定实验中的蛋白质结构。现在,他们只需按几个按钮,只靠自己,就能得到结构。

媒体上,AlphaFold2被形容为将改变一切的崭新AI突破。科学家花了数月,甚至数年时间,才终于理清AlphaFold2能力与局限性。

大约是在约翰·江珀John Jumper演讲的6个月后,谷歌子公司DeepMind发表他们结果,公开AlphaFold2底层代码,生物学家开始尝试使用这个工具。

阿纳斯塔西斯·佩拉基斯Anastassis Perrakis说:AlphaFold2发布第二天,我们试着把它装到我们图形处理单元GPU服务器上。

珍妮特·桑顿Janet Thornton表示:我原本以为AlphaFold2会失败,它取得惊人的成功。渐渐,人们开始意识到,AlphaFold2不仅不是威胁,可能成为加速研究的催化剂。它没有让结构生物学家失业,而是给他们提供新工具,让他们更好完成工作。

海伦·沃尔登Helen Walden说:如果你只是把结构生物学家看作解析蛋白质结构的技术专家,是的,结构生物学家会失业。这样说,好比认为,人类基因组计划,让基因组学家变得多余,他们不再能发表解析单个基因序列的论文。

许多情况下,结构生物学家目标是通过研究蛋白质的结构来发现功能。有了AlphaFold2,他们就能基于这种工具,在几分钟内生成蛋白质结构,提出关于蛋白质功能的假设,不必事先通过数月、甚至数年实验来解析结构。

保罗·亚当斯Paul Adams说:它在许多方面推动结构生物学向着更好方向发展,并非一件坏事,会让这个研究领域变得更加令人兴奋。

AlphaFold2未像一些人预测的那样,立即带来各种新药。研究人员很快了解到,这个工具有局限性:AlphaFold2预测不完美。

佩拉基斯说,它预测的结果,仍需通过实验验证,但你可以更快开始具体结构的研究。现在,当他学生开始一个新课题时,他们会首先使用AlphaFold2预测特定蛋白质结构,再用实验验证。

佩拉基斯认为,他与其他研究人员仍会在一定程度上继续使用X射线晶体学。为了得到初始蛋白质结构,许多人开始将深度学习预测的蛋白质结构,与先进的电子显微镜技术,例如冷冻电子显微术结合使用。

冷冻电子显微术cryo-EM,又称冷冻电镜术,是一种用于分析快速冷冻的含水生物样品的透射电镜成像技术,通过电子轰击样品进行分析。

将这两种技术相结合后,研究人员能迅速开展对蛋白质功能的研究,专注研究更有趣的科学问题。库雷希表示,AlphaFold2极大推动冷冻电子显微术应用。

转变开始。2022年6月,《科学Science》一期特刊揭示人类核孔复合体近原子水平分辨率的结构。对这个由30种不同蛋白质组成的庞大、复杂的蛋白质复合体,结构解析,几十年来一直是生物学中难题。

这群科学家使用AlphaFold2预测结果,填补核孔复合体中未能用冷冻电子显微术解析的部分。

江珀表示,当他读到这篇论文,看到其他科学家利用AlphaFold2取得生物学上的突破,就是在那一刻,他意识到AlphaFold2非常重要。

过去3年中,类似核孔复合体这样的发现,点缀了蛋白质科学领域的发展历程。

AlphaFold2预测了许多蛋白质结构,它们帮助科学家研究疾病,创造新的药物递送工具。美国博德研究所Broad Institute分子生物学家张锋说:它对我们非常有帮助。他用AlphaFold2设计一种分子注射器,用于将药物递送到人体细胞中。

除了药物递送,了解蛋白质的结构,也有助于药物开发:例如,如果研究人员能找到紧密贴合靶标蛋白形状,并能改变功能的分子,它就有潜力作为药物。

一些研究表明,AlphaFold2预测结果,并不如实验得到的结构有用,也有研究表明,AlphaFold2预测结果有效。总的来看,AI工具对药物发现的全面影响,仍在逐步显现。

在预测已知蛋白质结构与功能外,一些生物学家在尝试将AlphaFold2用于其他用途。他们转而用AI设计自然界中不存在的蛋白质,这一技术对设计新型药物至关重要。

开拓新领域

观看江珀在2020年CASP会议上演讲后,戴维·贝克David Baker几乎立即回到他的罗塞塔Rosetta算法工作中。

当时,谷歌尚未公开AlphaFold2底层源代码。贝克说道,即便如此,我们开始尝试他们介绍的一些想法。

谷歌DeepMind在《自然Nature》上发表AlphaFold2同一天,贝克与团队宣布AlphaFold2的竞争对手罗塞塔折叠RoseTTAFold,它也有极高的蛋白质结构预测精确度。

RoseTTAFold使用深度学习预测蛋白质结构,底层架构与AlphaFold2非常不同。托萨托说:科学想法一旦被提出,人们就可能对其进行逆向工程,尝试在其基础上进行构建,至少对拥有足够资源的人是这样。

RoseTTAFold不孤单。包括美国Meta在内的其他AlphaFold2竞争者,也开发自己的算法,用于解决蛋白质结构预测或相关问题。

一些公司扩展到蛋白质以外领域,例如拉斐尔·汤曾德Raphael Townshend所在的美国生物科技初创公司原子AI Atomic AI,使用深度学习解析RNA结构。

桑顿说道,单分子结构预测领域,目前没有算法能达到AlphaFold2的精度。我相信他们最终会做到这种精度,我认为要再现另一个 AlphaFold2时刻,将会非常困难。

CASP建立一种卓有成效的竞争传统。至少在大众眼中,贝克与江珀将这种竞争延续下去。

贝克说:他们可能觉得我在与他们竞争,我觉得他们只是启发了我们。

江珀对此表示欢迎,他说:让人们在这个科学基础上,继续开发非常重要。如果AlphaFold2没有知识上传承,对我将是件很悲哀的事。

贝克在发展他的项目传承,重点关注蛋白质科学新前沿领域,蛋白质设计。此前,生物学家受限研究自然界中存在的蛋白质,但在贝克设想的科学中,他们可以设计全新的蛋白质,这些人为设计的蛋白质,可以专门用于利用阳光、分解塑料、或作为药物与疫苗的基础。

荷兰胡布雷赫特研究所Hubrecht Institute结构生物学家丹尼·萨托Danny Sahtoe,曾在贝克指导下,完成博士后研究,他说:对目前自然界中不同类型的蛋白质,结构或形状的数量相当有限。理论上,存在更多可能性。如果能有更多形状,意味着蛋白质可以拥有更多功能。

现任美国华盛顿大学University of Washington蛋白质设计研究所Institute for Protein Design所长的贝克说,蛋白质设计,本质上是蛋白质结构预测的逆向问题。使用蛋白质结构预测算法时,科学家会将氨基酸序列输入深度学习算法,让它输出蛋白质结构。

蛋白质设计不同,蛋白质设计师,是将特定的蛋白质结构输入算法,让它输出氨基酸序列。紧接着,他们会基于模型输出的序列,再在实验室中构建出设计的蛋白质。

AlphaFold2与RoseTTAFold,无法生成这些序列,它们编程逻辑执行的是相反操作。

贝克基于RoseTTAFold神经架构,创建专门用于设计蛋白质的迭代版本,名为RoseTTAFold扩散RoseTTAFold diffusion,简称RF扩散。

萨托说,蛋白质设计领域存在很长时间,深度学习加速这一进程,它使切实可行的蛋白质计算机模型的设计过程变得极其快速。过去,训练有素的蛋白质设计师,需要数周或数月时间,才能创建新蛋白质的骨架。现在,他们几天之内,甚至一夜之间,就能完成。

贝克更新Foldit游戏,将他执念融入:玩家不再是构建蛋白质结构,而是设计蛋白质。这一尝试富有成效,基于一些玩家设计的蛋白质,贝克实验室撰写多篇论文。一名世界顶级Foldit玩家如今正就读于华盛顿大学,是贝克一位同事的研究生。

贝克说:我们真的理解蛋白质折叠过程吗?如果我们设计出能折叠成新结构的新序列,表明我们对蛋白质折叠有相当多了解。某种意义上说,你可以将它看作蛋白质折叠问题的一种解决方案。

相信与怀疑

AlphaFold2成功,改变生物学家对AI态度。长期以来,许多实验生物学家不相信计算方法,他们觉得一些机器学习方法可能会让数据看起来很好,实际使用时并非如此。

库雷希说道,谷歌DeepMind的成功,明确证明可以用它进行严肃科学研究。现在,任何对这件事的怀疑都会被人反问:AlphaFold2呢?

曾推进卷积神经网络研究的计算生物学家许锦波说:现在,生物学家开始相信我们的预测结果。以前,生物学家总是怀疑我们预测是否可靠。

这种信任的建立,要归功于AlphaFold2平台的一个特性:它不仅能生成蛋白质三维模型,还会自我评估预测的准确性,对结构中每个部分给出从0~100的置信度评分。

2022年7月,谷歌DeepMind发布2.18亿种蛋白质的结构预测,几乎涵盖世界上所有已知蛋白质。之后,亚当斯决定开始分析AlphaFold2自我评估结果。他将这些预测的结构,与已通过实验解析的蛋白质结构进行比较,独立评估它们准确性。

亚当斯说:好消息是,当AlphaFold2认为自己正确的时候,它通常非常正确。当它认为自己不对时,它通常也不对。

在AlphaFold2对其预测结果非常有信心,置信度评分不低于90分,满分为100分的情况下,大约在10%例子中,预测结果与实验结果不一致。

AI系统似乎具有一定的自我怀疑能力,这可能会导致人们过度依赖结论。

大多数生物学家将AlphaFold2视为预测工具,也有一些人走得太远。一些过去与结构生物学家合作的细胞生物学家与生物化学家,甚至用AlphaFold2取代结构生物学家,将其预测视为真理。

佩拉基斯说,有些科学家在发表论文中展示的蛋白质结构是错误的,任何结构生物学家都能看出来。他们会说:那是AlphaFold2预测的结构。

美国国立卫生研究院NIH的研究员劳伦·波特Lauren Porter表示:一些人对深度学习模型的能力过于自信。我们应该尽可能多使用深度学习模型,也需要以谨慎与谦逊态度来对待它们。

戴维·琼斯David Jones听说,有些从事计算解析蛋白质结构的科学家,在争取资金时遇到困难。他说:你知道的,普遍看法是,DeepMind做到了,为什么你还在做这个方向?

琼斯认为,这项工作是必要的,AlphaFold2并非无懈可击,他说:距离真正解决该领域的所有问题,依旧存在非常大差距,有些事情它做不到。

AlphaFold2在预测小型、简单蛋白质结构方面表现出色,在预测包含多个组成部分的蛋白质复合体时,准确性较低。它无法考虑蛋白质的环境因素,或蛋白质与其他分子的结合,这些因素会在自然状态下改变蛋白质形状。

例如,有时蛋白质需要被特定离子、盐或金属包围,才能正确折叠。

沃尔登说:目前,AlphaFold2在理解蛋白质所处环境方面还有些问题。她的团队通过实验,解析了几个AlphaFold2无法预测的结构。

自然界中存在几类动态蛋白质,它们功能十分重要,AlphaFold2对它们结构预测准确性较差。这些会发生形变的蛋白质,也被称为折叠转换蛋白质fold-switching protein,它们结构不是静态,形状会在与其他分子相互作用时发生变化。

即使是相同的氨基酸序列,有些蛋白质也会折叠成截然不同的形状。

波特说,折叠转换蛋白质,挑战了序列编码单一结构的范式,它们不只有一种结构。与用于训练DeepMind算法的数十万种静态、单一结构的蛋白质相比,用于训练的折叠转换蛋白质只有大约100个例子,肯定还有更多此类蛋白质存在。

波特表示,一般,这些算法是为了预测单个折叠结构而设计,有这样的表现不令人意外。

还有一些蛋白质,会像汽车专卖店外的充气人偶一样胡乱摆动。固有无序蛋白IDP或固有无序蛋白质区域缺乏稳定结构,它们会不断摇摆与重新形成。

丹麦哥本哈根大学University of Copenhagen计算蛋白质生物物理学教授克雷斯滕·林多夫-拉森Kresten Lindorff-Larsen说:它们在很多方面都被人忽视,仅仅是它们有点烦人。

林多夫-拉森表示,大约44%人类蛋白质,都包含一个由至少30个氨基酸组成的无序区域,这是一个相对较大的比例。AlphaFold2能预测某个区域可能是固有无序,但它不能告诉你这种无序状态具体是什么样。

对江珀,AlphaFold2最让他失望的点在于,它无法显示两种仅相差一个氨基酸即点突变的蛋白质之间的结构差异。

他说,点突变,有时会对蛋白质结构与功能产生相当显著影响,AlphaFold2常常会忽视这些区别,它会为两个序列生成相同结构。

2023年9月,DeepMind发布AlphaMissense,这是一种能预测此类点突变影响的深度学习算法。它无法展示结构上变化,会根据已知致病蛋白质中类似突变信息,告知用户该突变是否可能导致蛋白质致病或出现功能障碍。

就算AlphaFold2能够完美预测所有蛋白质结构,它远未达到模拟生命的程度。细胞中,蛋白质从来都不是单独行动的。

AlphaFold3 诞生

细胞内部复杂、混乱。细胞外膜,包裹细胞内的生化环境,这里密集挤满各种分子部件,蛋白质、信号分子、信使RNA与细胞器等。蛋白质彼此之间、与其他分子相互结合,这会改变它们形态与功能。

AlphaFold2在预测单个蛋白质结构方面表现出色,它并未帮助生物学家更深入理解蛋白质在这种复杂天然环境中的表现,这正是该领域当前研究方向。

蛋白质科学领域两大AI巨头,谷歌DeepMind与贝克领导的蛋白质设计研究所,目前正在改进他们深度学习算法,用于预测蛋白质在与其他分子相互作用时的结构。

2024年春天,两个机构都发表论文,描述他们在该领域类似进展。他们更新算法,AlphaFold3与RoseTTAFold All-Atom,使他们能预测蛋白质与蛋白质、DNA、RNA、其他小分子结合时的结构。

生物学家才刚开始测试这些更新,库雷希表示,到目前为止,AlphaFold3准确性远高于RoseTTAFold All-Atom,这次并不像AlphaFold2时刻那样,是一次巨大飞跃。对预测一些大分子,例如RNA结构,它的准确性仍低于其他基于物理的系统与实验方法。

即便如此,这些新算法仍朝正确方向迈出一步。蛋白质与其他分子之间相互作用,对其在细胞中功能至关重要。

为了开发出能与蛋白质结合,并按需改变活性的药物,研究人员需要了解两者形成的复合体结构。

亚当斯表示,两种算法都不太可能在短期内带来新药。他说,这两种方法的准确性有限,它们都在原有基础上有巨大进步。

DeepMind新产品还有一个重大变化,AlphaFold2底层代码开源,其他研究人员可以研究该算法,并将其改造后用于自己项目。

谷歌目前选择将AlphaFold3源代码作为商业机密保护起来,不是公开分享。库雷希说:至少目前,没人能像使用AlphaFold2那样,运行与使用AlphaFold3。

早在AlphaFold3发布前,研究人员就在测试AlphaFold2,看它能否提供有关蛋白质在不同构象下的有用信息。

美国布朗大学Brown University的化学与物理学副教授布伦达·鲁本斯坦Brenda Rubenstein,对激酶很感兴趣,这是一类能激活其他蛋白质的蛋白质。具体来说,她想了解一种会导致癌症的激酶作用机制,以便她针对这种激酶开发更精确药物。鲁本斯坦的实验室,使用一种基于物理的方法,通过牛顿定律映射原子的三维坐标,来对激酶的结构建模,这项研究耗费2年半时间。

鲁本斯坦说道,大约1年前,我们说能不能更快完成这个过程。

他们尝试以一种新的方式使用AlphaFold2,通过给算法输入相关蛋白质数据,她发现AlphaFold2能以超过80%准确性,预测该激酶在不同构象下的结构。

库雷希说,如果用正确方式使用AlphaFold2,就能让它输出多个不同构象,鲁本斯坦的实验室是发现这一点的几个实验室之一,这件事非常振奋人心。

库雷希希望,深度学习能在2040年前,实现模拟整个细胞及其内部的所有结构与动力学。要实现这一目标,需要在实验与计算两方面都取得飞跃性进展。

捷足先登

对许多生物学家,AlphaFold2是他们一直在等待的突破,CASP目标一直都是创建能根据序列预测蛋白质结构的计算工具。

如此,许多人忍不住要问:如此多专家奋斗几十年情况下,为何相对较新的团队能破解蛋白质的代码?

不可否认,谷歌DeepMind的计算机与蛋白质科学家团队,为这个问题带来全新见解。与此,蛋白质科学的土壤已变得肥沃,准备好迎接深度学习的革命,库雷希说道,这些事情不是凭空出现的。

2020年CASP赛前,许多研究人员都预料到,蛋白质结构预测的突破会通过AI实现。汤曾德说:一切都在朝那个方向发展。他们没想到这种突破,会来自市值数十亿美元的科技公司,也没想到它会来得这么快。

一些人认为,AlphaFold2不是什么新的科学成就,是巧妙的工程设计。一些人对贝克的算法没能夺冠感到惊讶,另一些人并不意外,谷歌DeepMind拥有无与伦比的资源。

桑顿说,每年大约有100个实验室参加CASP,他们开始采用AI技术,他们可能没有DeepMind那样的AI专业知识,也没有那样的算力,DeepMind可以使用无限算力。

桑顿推测,谷歌在蛋白质科学方面缺乏专业知识,这可能释放他们创造力。她表示,他们心无旁骛,专注构建出色的人工神经网络。

蛋白质生物学家背负很多包袱:开发AI工具时,他们总希望能捕捉到蛋白质折叠过程中,原子层面分子物理与化学过程。

DeepMind采用不同方法:把氨基酸序列数据转化为三维结构,至于如何实现,不重要。

沃尔登表示:他们没有试图解决蛋白质折叠问题,我想这是此前许多预测方法尝试在做的事。相反,他们只是简单粗暴将原子的最终位置映射到空间中。有趣的是,他们可能正是因此才解决蛋白质结构预测问题。

对一些生物学家,这种方法没能解决蛋白质折叠问题。从结构生物学的早期阶段开始,研究人员就希望能了解氨基酸链折叠成蛋白质这一过程背后的规则。

随着AlphaFold2的出现,大多数生物学家认为,结构预测问题已经解决,蛋白质折叠问题并未解决。

埃伦·钟Ellen Zhong说:现在,你只是有了黑箱,它能以某种方式告诉你折叠后的状态,无法告诉你如何到达那个状态。

布朗大学的计算机科学家迈克尔·利特曼Michael Littman表示,这不是科学家解决问题的方式。

美国约翰·霍普金斯大学Johns Hopkins University生物物理学荣誉退休教授乔治·罗斯George Rose说,这听起来可能像是语义上的争论,但不是这样。AlphaFold2可以基于它对数十万个蛋白质结构的分析,识别出给定氨基酸序列可能的折叠模式,它无法告诉科学家关于蛋白质折叠过程的任何信息。

罗斯说:对许多人,你不需要知道这些,他们不在乎。但科学,至少在过去500年左右时间里,它一直致力理解事情发生过程。罗斯认为,要理解以蛋白质为基础的生命动态、机制、功能与本质,你需要完整的故事,这正是深度学习算法无法告诉我们的。

对约翰·莫尔特John Moult,机器做到一些自己无法理解的事情,这没什么关系。他说:我们都习惯让机器做我们做不到的事情。比如,我没法跑得像车快。对试图研究蛋白质,只需要大致了解外观的分子生物学家,如何达到这个目标,并不重要。

波特表示:在我们真正了解蛋白质折叠的原理前,我们永远不会有100%可靠的预测方法。我们必须了解基本的物理原理,才能做出最有依据的预测。

库雷希说:我们一直在调整目标。我认为,核心问题解决了。现在重点是,接下来会发生什么。

即使生物学家还在继续争论这些话题,对这个发生改变的领域,其他人开始展望未来,也回顾近来的发展历程。

有时,佩拉基斯会对过去工作方式产生一阵怀旧之情。2022年,他的团队用X射线晶体学解析一种参与微管为细胞提供结构支撑的巨型棒状结构修饰酶的结构。

佩拉基斯说:我意识到,我再也不会那样做。过去,在工作几个月后,第一次看到结构被解析出来时,会让人有种非常特别的满足感。

AlphaFold2没有让实验变得过时,相反,它凸显实验的必要性。它将历史上截然不同的两个学科联系在一起,开启一场新的、激动人心的对话。

新世界

波特感叹道,70年前,人们认为蛋白质是胶状物质。再看现在我们能看到什么,无论是自然界中存在的,还是人为设计的蛋白质,这样一个庞大的蛋白质世界,在我们眼中变成一个又一个结构。

佩拉基斯表示,相比AlphaFold诞生前,如今的蛋白质生物学领域变得更加令人兴奋。这种兴奋来自许多方面,包括基于结构的药物发现可能会重新振兴,科学家提出假设的速度会变快,它给理解细胞内复杂的相互作用带来希望。

库雷希说:这种感觉就像是当年基因组学的那场革命。对生物学家,无论是实验科学家,还是在电脑前运行程序的计算科学家,这里的数据都太多太多,他们才刚开始弄清楚如何处理这些数据。

正如世界各地由AI带来的其他突破一样,这一突破可能存在上限。AlphaFold2的成功,建立在训练数据的基础上,即由耐心的实验人员精心解析的数十万个蛋白质结构。AlphaFold3与相关算法,在预测分子复合体结构方面,取得一些成功,但准确性落后它的前辈在单一蛋白质结构上的表现,部分原因是可用的训练数据显著减少。

桑顿说,蛋白质结构预测问题,几乎是AI解决方案的一个完美案例,算法可以在数十万个以统一方式收集的蛋白质结构数据上进行训练。蛋白质数据库PDB,可能只是生物学中有组织的数据共享的特例。如果没有高质量的数据用于训练算法,它们无法做出准确的预测。江珀表示:我们很幸运,在我们遇到这个问题时,它正好到了可以解决的时机。

没人知道深度学习在解决蛋白质结构预测问题上的成功,能否延续到其他科学领域,哪怕只是生物学其他领域。

但像库雷希这样一些人对此持乐观态度,他说,蛋白质结构预测真的只是冰山一角。例如,化学家需要进行成本高昂的计算。库雷希说,借助深度学习,这些计算的速度,比以前快了100万倍。

AI 能推动解决特定类型的科学问题,但在推进知识进展方面,它对科学家的帮助可能有限。

库雷希表示,历史上,科学一直是关乎理解自然的,也就是理解生命与宇宙背后过程。深度学习工具,揭示的是解决方案,而并非过程。如果科学通过这些工具向前发展,它还是真正的科学吗?

库雷希继续说,如果你能治愈癌症,还会在乎所使用的疗法是如何起效的?未来几年,这将是我们会不断争论的问题。如果许多研究人员决定放弃理解自然的过程,AI不仅会改变科学,它也会改变科学家。

CASP组织者们正面临不同的问题:如何延续他们竞赛与会议。AlphaFold2是CASP的产物,它解决人们组织这个会议原本要解决的主要问题。

莫尔特说:如今的CASP,到底是为什么?对我们,这是巨大的冲击。

2022年,CASP会议在土耳其安塔利亚市举行。谷歌DeepMind未参赛,该团队的存在感很强。琼斯说:无非就是人们使用或多或少的AlphaFold。他表示,这个意义上说,谷歌还是赢了。

如今,一些研究人员对参加CASP兴趣减弱。许锦波说:一看到那个结果,我就转变研究方向。也有一些人仍在继续改进自己算法,比如琼斯涉足结构预测领域,但这对现在的他更多只是一种爱好。

诸如库雷希与贝克等其他人,在继续开发新的结构预测与设计算法。在与一家市值数十亿美元的公司竞争的前景面前,他们毫不畏惧。

莫尔特与会议组织者们也在努力改进,下一轮CASP已于2024年5月开放报名。他希望深度学习能征服结构生物学更多方面,比如RNA或生物分子复合体。

莫尔特说:这种方法在蛋白质结构预测这个问题上奏效,结构生物学领域还有许多其他相关问题。

下一次CASP会议,将于2024年12月在加勒比海碧蓝的海水旁举行。届时,微风和煦,或许讨论的氛围会十分与睦。

曾经激烈的跺脚声早已平息,至少表面上是这样。2024年竞赛会是什么样,谁也无法预测。如果从过去几届CASP中寻找线索,莫尔特知道,他只能期待一件事,那就是惊喜。

诺贝尔物理学奖颁给AI教父,详解不能不知道的AI物理学起源

时间:2024年10月8日

来源:环球科学

字数:4,641

北京时间2024年 10 月 8 日17 时 45 分许,约翰·J.霍普菲尔德John J. Hopfield 与杰弗里·E.辛顿Geoffrey E. Hinton,因通过神经网络研究,对现代机器学习作出奠基性贡献,获得 2024年诺贝尔物理学奖。

约翰·J.霍普菲尔德

霍普菲尔德,美国物理学家、神经科学家,普林斯顿大学教授,1933年美国伊利诺伊州出生,1958年获得康奈尔大学博士学位;1982年发明著名的霍普菲尔德神经网络Hopfield neural network,这是第一个能够储存多种模式,具备记忆功能的神经网络模型,是神经网络发展早期一座重要的里程碑。霍普菲尔德神经网络的诞生,为递归神经网络的发展,铺平道路,提出的能量最小化原理,对解决优化问题产生深远影响。

杰弗里·E.辛顿

辛顿,英裔加拿大计算机科学家、神经科学家,加拿大多伦多大学教授,前谷歌大脑负责人。

辛顿英国伦敦1947年出生,1978年获得爱丁堡大学AI博士学位。辛顿是神经网络早期、一直没有放弃的重要研究者之一。

20世纪 80年代,他为将反向传播算法backpropagation引入多层神经网络训练,做出重要贡献,发明玻尔兹曼机,一种在霍普菲尔德神经网络基础上发展而来的随机递归神经网络。

2012年,辛顿与两位学生 Alex Krizhevsky、Ilya Sutskever 发明的AlexNet,在计算机视觉竞赛 ImageNet 中,以压倒性优势取得冠军,创造深度神经网络发展里程碑,激发大量采用卷积神经网络CNN与图形处理器GPU加速深度学习的研究。

辛顿、Yoshua Bengio、Yann LeCun,称为深度学习三巨头、AI教父 ,共同获得2018年图灵奖。

2023年5月,ChatGPT横空出世半年后,辛顿宣布从谷歌辞职,以便能够自由谈论AI风险。他对AI恶意滥用、引发的技术性失业、人类生存风险,表达深切担忧。

许多人体验过计算机翻译语言、解释图像,甚至进行合理对话的能力。不太为人所知的是,这种技术对科学研究更加重要,包括对大量数据分类与分析。一种名叫人工神经网络artificial neural network的结构,推动机器学习在过去15~20年间迅猛发展。如今人们谈论的AI,一般指的就是这种技术。

计算机不能思考,机器可以模仿记忆与学习等功能。2024年诺贝尔物理学奖得主,为此做出贡献。他们利用物理学基本概念与方法,开发出利用网络结构处理信息的技术。

机器学习系统与传统软件不同。传统软件工作方式类似食谱:软件接收数据,按照明确描述进行处理,生成结果,就像一个人采购食材,按照食谱加工成蛋糕一样。相反,机器学习中,计算机通过一个个例子进行学习,能够处理模糊、复杂到无法通过人类逐步指令来处理的问题。一个典型例子是解读图片,识别的物体。

模仿大脑

人工神经网络利用全部网络结构来处理信息。起初,研究神经网络的科学家,只是想要理解大脑工作机制。

20 世纪40年代,研究人员开始探索大脑神经元与突触网络背后的数学原理。心理学领域为这一领域提供重要线索,神经科学家Donald Hebb假设指出,学习之所以发生,是当神经元共同工作时,它们之间连接得到加强。

科学家循这样想法,通过计算机模拟构建人工神经网络,重现大脑网络功能。这些模拟中,节点构成大脑神经元,每个节点被赋予不同值,突触由节点之间连接表示,这些连接可以被加强或削弱。Donald Hebb假设,至今仍是通过训练来更新人工网络的基本规则之一。

20世纪 60年代末,一些令人沮丧的理论结果,导致许多研究人员怀疑神经网络永远不会真正有用。

到 20世纪 80年代,一些重要思想,包括2024年两位获奖者工作产生的影响,重新点燃人们对人工神经网络兴趣。

联想记忆

想象一下,你试图回忆一个相当不寻常、很少使用的词,比如用于描述电影院或者无障碍通道中那种倾斜地面的词汇。你在脑海中搜寻:它有点像斜面ramp,或许是滑坡radial?不,不是。对了,是斜坡Rake。

这种通过搜索相似词,来找到正确词汇的过程,让人联想到物理学家约翰·霍普菲尔德John hopfield 1982年发现的联想记忆模型。霍普菲尔德神经网络能够存储模式,可以重现这些模式。当网络接收到一个不完整或稍有失真的模式时,该方法能够找到与之最相近的已存储模式。

霍普菲尔德运用在物理学领域背景,探究分子生物学中理论问题。有一次,他受邀参加一场关于神经科学的会议,接触到有关大脑结构的研究。会议内容令他着迷,让他开始思考简单神经网络的动力学特性。当神经元共同作用时,它们能产生新的、强大的特性,如果只关注网络中每一个独立神经元,是很难察觉这些特性。

1980年,霍普菲尔德离开彼时就职的普林斯顿大学,研究兴趣已超越物理学同僚们的研究领域。他接受加州理工学院Caltech在南加州帕萨迪纳的化学与生物学教授职位。在那里,他得以利用学校的计算机资源进行免费实验,发展他对神经网络的构想。

他并未放弃自己物理学基础,从中汲取灵感,理解由众多协同工作的小组件构成的系统,如何产生新的有趣现象。他尤其受益具有特殊特性的磁性材料,这些特性源于原子自旋,一种使每个原子成为微小磁体的性质。相邻原子的自旋,会相互影响,这使得自旋方向一致的区域得以形成。他利用描述自旋相互影响时材料特性如何变化的物理学原理,构建一个包含节点与连接的模式网络。

网络用地形保存图像

霍普菲尔德构建的神经网络中,节点与节点之间连接的强度是不同的。每个节点可以存储一个单独的值,在霍普菲尔德早期工作中,这个值可以是0或1,就像黑白照片中像素一样。

霍普菲尔德用物理学中自旋能量,来描述这个网络的整体状态。能量是通过一个公式计算,该公式利用所有节点的值,与它们之间所有连接的强度。

霍普菲尔德神经网络,通过将图像输入到节点中进行编程,节点被赋予黑色0或白色1的值。能量公式会调整网络的连接,使得存储的图像能量更低。

当另一个模式输入到网络中时,程序会依照特定规则遍历每个节点,看看如果改变该节点的值,网络的能量是否会降低。

如果发现将黑色像素变为白色会降低能量,则改变颜色。这个过程会持续进行,直到能量再也无法降低。当实现这一点时,网络通常能重现训练时所用的原始图像。

如果你只存储一种模式,这可能看起来并不惊人。你可能会想,为什么不直接保存图像,与要测试的另一幅图像进行比较?

霍普菲尔德的方法之所以特别,是它可以存储多幅图像,经常能通过网络区分它们。

霍普菲尔德将在网络中搜索特定保存状态的过程,比作一个小球在山丘与山谷之间滚来滚去,滚动的球因摩擦而减慢。

如果球从一个特定位置被放下,它将滚入最近的谷底,停在那里。如果给网络输入的模式,接近某个已经被存储的模式,它将以同样的方式继续前进,直到到达能量景观中某个谷底,找到记忆中最接近的模式。

霍普菲尔德神经网络可以用来重现包含噪声或被部分擦除的数据。

图片来源:Johan Jarnestad/The Royal Swedish Academy of Sciences

霍普菲尔德等人,继续深入研究霍普菲尔德神经网络功能的细节,包括可以存储任何值的节点,不仅仅是0或1。

如果你将节点视为图片中像素,它们可以有不同颜色,而不仅是黑色或白色。改进后的方法,使得存储更多图片,并区分它们成为可能,即使这些图片非常相似。只要信息是由许多数据点构建,识别或重构任何信息都是可能的。

19 世纪物理学分类法

记住图像是一回事,理解一张图像的意思需要再多一点点努力。

即使是年幼的孩子,也能自信分辨出一只动物是狗、猫,还是松鼠。起初小孩可能会偶尔出错,很快他们就可以做到几乎每次都正确。

即使没有看到任何关于物种或哺乳动物等概念的图表或解释,小孩也能学会这一点。在接触过每种动物的几个例子后,孩子便会逐渐明晰不同的动物类别。通过观察、体验周围环境,人们能学会识别猫,或理解一个单词,或进入房间,注意到有些东西发生变化。

当霍普菲尔德发表关于联想记忆的论文时,杰弗里·辛顿Geoffrey E. Hinton正在美国卡内基梅隆大学Carnegie Mellon University工作。他曾在英格兰与苏格兰学习实验心理学与AI,当时他就思考:机器是否能像人类一样学会处理模式,自行分类与解读信息。

辛顿与同事Terrence Sejnowski一起,从霍普菲尔德神经网络出发,结合统计物理学的思想,扩展、构建新的模型。

统计物理学描述,由许多相似元素组成的系统,例如气体中的分子。追踪气体中所有独立分子的行为非常困难,甚至可以说不可能。我们可以将所有分子视作一个整体,确定气体的总体特性,如压力或温度。气体分子各自以不同速度在一定体积内扩散,仍能产生相同的集体特性,这有许多潜在方法。

统计物理学可以分析各个组件能够共同存在的各种状态,计算它们出现的概率。有些状态比其他状态更有可能发生,这取决于可用能量的多少,19 世纪物理学家路德维希·玻尔兹曼Ludwig Boltzmann曾用方程来描述这种行为,辛顿的网络正是利用这一方程。

1985年,他以玻尔兹曼机这一引人注目的名称,发表这一神经网络。

识别同类新例

玻尔兹曼机通常使用两种不同类型的节点:一种节点接受信息,被称为可见节点;另一种节点构成隐藏层,隐藏节点的值及其连接,也会影响整个网络的能量。

这种机器,通过逐一更新节点值的规则运行。最终,玻尔兹曼机,将进入这样一种状态:节点的模式可以变化,网络的整体性质保持不变。

根据玻尔兹曼方程,每种可能的模式,都有由网络能量决定的特定概率。当机器停止运行时,它已生成一种新模式,这使得玻尔兹曼机成为生成模型的早期实例。

玻尔兹曼机能够学习,不是通过指令,而是通过输入的示例学习。它的训练方式是更新网络连接中的值,使得在训练时输入到可见节点的示例模式,在机器运行时出现的概率最高。

如果同一个模式在训练过程中重复出现多次,这种模式的出现概率会更高,训练还会影响机器输出与训练示例相似的新模式概率。

经过训练的玻尔兹曼机,能够识别它未曾见过信息中的熟悉特征。想象一下,当你遇到一位朋友兄弟姐妹,你立刻就能看出他们一定是亲戚。

同样如果玻尔兹曼机遇到一个属于训练数据集中某一类别的新示例,它就能识别出来,能将其与不相似的信息区分开来。

最初形式下,玻尔兹曼机效率相当低,寻找解决方案需要很长时间。当它以各种方式发展时,情况变得更有趣,辛顿一直在探索这些发展。后来版本过简化,一些单元之间连接已被移除。结果表明,这可能会使机器更高效。

20世纪 90年代,许多研究人员对人工神经网络失去兴趣,辛顿是继续在该领域工作的人之一,他帮助开启新一轮激动人心的成果爆发。

2006年,他与同事Simon Osindero、Yee Whye Teh 、Ruslan Salakhutdinov 共同开发一种方法,通过一系列分层堆叠的玻尔兹曼机来预训练网络。这种预训练,为网络中连接提供更好起点,优化识别图像中元素的训练。

玻尔兹曼机通常被用作更大型网络的一部分。例如,它可以根据观众喜好来推荐电影或电视剧。

机器学习:当下与未来

约翰·霍普菲尔德、杰弗里·辛顿,自 20 世纪 80年代以来的工作,为 2010年左右开始的机器学习革命奠定基础。

我们现在所见证的AI盛况,受益能被用于训练网络的海量数据,算力巨大提升。如今人工神经网络通常非常庞大,由多层构成。这些被称为深度神经网络,它们训练方法被称为深度学习。

快速回顾霍普菲尔德1982年关于联想记忆的文章,可以让我们对这一情况有所了解。

文章中,他使用包含30个节点的网络。如果所有节点都相互连接,会有435个连接。节点有各自值,连接有不同强度,总共有不到500个参数需要跟踪。他尝试一个包含100个节点的网络,对当时的计算机过于复杂。我们可以将其与如今以ChatGPT为代表的大语言模型进行比较,这些模型构建为网络,可以包含超过一万亿个参数。

许多研究人员正在开发机器学习的应用领域,哪些领域最具可行性还有待观察,围绕这项技术的发展与使用,引发广泛伦理讨论。

物理学为机器学习的发展提供工具,反过来,观察物理学作为一个研究领域如何从人工神经网络中受益也很有趣。

过去诺贝尔物理学奖所涉及领域中,充满机器学习的身影,包括使用机器学习来筛选与处理发现希格斯粒子所需的大量数据。其他应用,包括减少测量黑洞碰撞产生的引力波的噪声,或寻找系外行星。

近年来,这项技术开始应用在计算、预测分子与材料的性质,例如计算决定蛋白质分子功能的结构,或者找出哪种新材料可能具有最佳性能,以用于更高效的太阳能电池。

AI 教父Hinton获诺奖后,奖金计划捐出,Diss Sam Altman

时间:2024年10月9日

来源:智东西

字数:5,151


Hinton 物理学是神经网络早期灵感缪斯,现阶段研究关系不大

诺贝尔物理学奖授予了推动人工神经网络发展的约翰·J·霍普菲尔德John J. Hopfield与杰弗里·E·辛顿Geoffrey E. Hinton。诺奖罕见颁给AI专家,图灵奖得主、深度学习之父的辛顿,表示大吃一惊。

谷歌为辛顿举办庆功宴,谷歌CEO桑达尔·皮查伊Sundar Pichai、谷歌首席科学家杰夫·迪恩Jeff Denn、OpenAI前联合创始人伊利亚·苏茨克维Ilya Sutskeve等悉数到场。实属罕见,一个诺贝尔物理学奖的庆功宴,竟然不见物理学大牛。

部分参与庆功宴人士合影

左图: 左四为辛顿,右一Ilya Sutskeve; 右图右二为Sundar Pichai/图源X

辛顿如何看待这次获奖?为什么诺贝尔物理学奖颁给AI专家?这又将对未来AI发展有什么影响?

诺贝尔物理学奖公布不久,辛顿接受《纽约时报》、瑞典电视台、每日新闻、瑞典电视频道TV4、瑞典报纸等多家媒体、多伦多大学新闻发布会的采访,针对上述问题进行回应。

辛顿提到,对于惊讶自己获得诺奖的原因,神经网络发展的前期阶段很大程度依赖物理学的想法,他研发的玻尔兹曼机,就是在早期阶段,帮助AI研究克服训练深度神经网络的障碍,最近AI这项工作与物理学关系较少。

辛顿目前最常用AI工具是GPT-4,他不会完全信任它。伴随AI发展,他认为在未来20年某个时候,AI将比人类更聪明。

辛顿看好机器人技术发展前景,让AI能够熟练操纵事物,目前我们在这方面比计算机或人工神经网络好得多。

他呼吁加强对AI安全、由好奇心驱使的基础研究的支持。

辛顿称,他已经76岁,不会再进行前沿研究,将花时间倡导人们从事安全工作。他特别自豪,我的学生解雇Sam Altman。他认为 OpenAI CEO Sam Altman现在更关心利润,不是安全,我认为这很不幸。

关于诺奖奖金使用,辛顿说要全部捐给慈善机构,他将获得550万瑞典克朗,折合约375万人民币。

该奖项授予霍普菲尔德20世纪80年代初开发的霍普菲尔德网络的技术,以及随后几年由辛顿协助开发的玻尔兹曼机相关技术。

辛顿成为历史上,首个获得计算机界诺贝尔奖图灵奖与诺贝尔物理学奖的科学家。

今天AI模型与物理关系不大,玻尔兹曼机作用像酶

得知辛顿博士获得诺贝尔物理学奖后不久,《纽约时报》通过电话联系到他。

《纽约时报》: 当你听到今天早上新闻时,你的反应是什么?

辛顿: 我非常震惊,我从来没有想到过这一点。

《纽约时报》: 神经网络是计算机技术,这与物理学有何关系?

辛顿: 霍普菲尔德网络、及其进一步发展的玻尔兹曼机,是基于物理学。霍普菲尔德网络使用能量函数,玻尔兹曼机使用统计物理学的思想。神经网络发展的那个阶段,在很大程度上依赖物理学的想法。

用于构建今天使用的AI模型,实际上是一种不同的技术,称为反向传播Back Propagation,这与物理学关系不大。

《纽约时报》: 玻尔兹曼机与反向传播之间有什么关系?

辛顿: 现在没有太多联系,它们是我们如何让神经网络运行的两种替代理论。

早期,我使用玻尔兹曼机,预训练反向传播网络来设法将它们结合起来,现在人们不这样做了。

《纽约时报》: 预训练是什么意思?你能用读者能够理解的语言进行解释吗?

辛顿: 我想起物理学家理查德·费曼,获得诺贝尔奖时所说的话。

一位记者问他:费曼教授,你能用几分钟解释一下你为何获得诺贝尔奖?费曼回答道:听着,如果我能在几分钟内解释清楚,那就不值得获得诺贝尔奖。

《纽约时报》: 可以肯定的说,玻尔兹曼机器对AI研究是一条死胡同,研究将往什么方向发展?

辛顿: 我认为这个想法就像一种酶,酶可以帮助人跨越障碍,即使它不是最终解决方案的一部分。

玻尔兹曼机就像一种酶,它让我们克服如何训练深度神经网络的障碍,这使得训练他们变得更容易。一旦我们学会如何做到这一点,我们就不再需要玻尔兹曼机。

《纽约时报》: 你是否直接与约翰·霍普菲尔德,就这些想法进行过合作?

辛顿: 我读过他的论文,我主要合作者之一特里·塞诺夫斯基Terry Sejnowski与霍普菲尔德一起工作,并获得博士学位。

《纽约时报》: 你获得这个物理学奖,是不是很奇怪?

辛顿: 如果诺贝尔有计算机科学奖,我们工作显然更合适,但没有。

《纽约时报》: 这是一个很好的表达方式。

辛顿: 这也是一种暗示。

《纽约时报》: 是的,也许我们需要诺贝尔的计算机科学奖。无论如何,你因帮助创造了一项你现在担心会给人类带来严重危险的技术,而获得诺贝尔奖。你对此有何感想?

辛顿: 获得诺贝尔奖,可能意味着人们会更认真对待我。

《纽约时报》: 当你警告未来的危险时,会更加认真地对待你吗?

辛顿: 是的。

经常使用GPT-4,接到获奖电话,取消核磁共振扫描

诺贝尔物理学奖宣布时,辛顿接受了几家媒体线上采访。

主持人: 早上好,辛顿教授。请接受我们对你获得诺贝尔物理学奖的最热烈祝贺,你现在感觉怎么样?

辛顿: 非常感谢,我惊呆了,我没想到会发生这种事。

瑞典电视台: 你记得你意识到自己取得突破时的情景吗?这些发现的缘由或灵感是什么?

辛顿: 我记得与两位导师有过几次合作,我非常感谢大卫·格拉梅尔哈特David Rommelhart与特里·萨诺夫斯基Terry Sanofsky。

在格拉梅尔哈特帮助下,我们重新发现反向传播算法,那是1982年初。

在萨诺夫斯基的帮助下,他与我发现了一种用于具有隐藏单元的霍普菲尔德网络的学习算法。我记得很清楚,我们参加在罗切斯特举行的一次会议,霍普菲尔德发表演讲,我第一次了解到神经网络的霍普菲尔德能量函数。

之后,萨诺夫斯基与我开始研究如何将神经网络,推广到具有隐藏单元的霍普菲尔德网络。

1982年初,我们成功提出适用于具有隐藏单元的霍普菲尔德网络的学习算法。对我而言,最激动人心的时刻,是与格拉梅尔哈特一起研究反向传播算法,与萨诺夫斯基一起研究玻尔兹曼机。

波兰电视台: 神经网络与机器学习未来能做什么?你如何预测这项技术,将对我们文明产生多大影响?

辛顿: 我认为它将产生巨大影响。

它将与工业革命相媲美,不会在体力上超越人类,是在智力上超越人类,我们没有体验过拥有比我们更聪明的东西会是什么样。

许多方面,AI都大有裨益。

医疗保健等领域,AI将为我们提供更好医疗保健服务。

几乎所有行业,AI都将提高工作效率。人们将能够在更短时间内,利用AI助手完成相同工作量。这意味生产力将大幅提高,我们必须担心一些可能的不良后果,尤其是这些事情失控的威胁。

《每日新闻》: 2023年,你在接受《纽约时报》采访时说,你对部分工作感到后悔,AI存在风险,你现在对此有何感想?

辛顿: 后悔有两种意思。

后悔是你做了一些明知不该做的事,感到内疚。

还有一种后悔,是你做了一些事,如果在同样情形下,你会再做,结果可能并不好。

我有第二种后悔,如果在同样情形下,我会再做同样的事。我担心,这种情况的总体后果,可能是比我们更聪明的系统最终会掌控一切。

瑞典电视频道TV4: 我想知道玻尔兹曼机,会产生什么类型的AI?你研究什么样的AI?

辛顿: 我参与了两种不同学习算法。

一种是玻尔兹曼机,这是一种带有隐藏单元的霍普菲尔德网络学习算法。我们最终找到一个实用版本,并不是目前神经网络取得主要进展的原因。

另一种是反向传播算法,这是让神经网络学习任何东西的方法。反向传播算法,带来AI应用激增,识别图像、理解语音与处理自然语言的能力。这不是玻尔兹曼机做的,而是反向传播算法。

瑞典报纸: 你有最喜欢的AI工具吗?

辛顿: 我经常使用GPT-4,每当我想知道任何事情的答案时,我都会问GPT-4。我不完全信任它,它会产生幻觉,几乎所有事情上都不是很好的专家,但这非常有用。

半岛电视台英语频道: 你接到诺奖电话时,在哪里?它对你有什么影响?

辛顿: 我在加州一家廉价酒店,没有互联网连接,电话信号不太好。我今天本来要做核磁共振扫描,我想我得取消。

支持伊利亚离开OpenAI,Sam Altman更关心利润

今天,多伦多大学还在线上举办表彰与庆祝2024年诺贝尔物理学奖获得者杰弗里·辛顿的活动。

辛顿在多伦多大学度过大约30年的出色学术生涯,多学科研究项目,不仅与AI、机器学习相关,还与物理学、认知心理学、神经生物学、数学优化与信息论相关。

表彰活动上,辛顿首先提及一起进行研究的两位导师与许多学生,自豪称:我的一个学生解雇Sam Altman。

问题: 现在加拿大的研究格局,与刚开始时有何不同?今天在加拿大取得更多研究突破的最大瓶颈是什么?

辛顿: 一个很大区别是,人们现在认识到神经网络是有效的,大部分情况是相似的,加拿大有加拿大高级研究所的实力雄厚组织,这对进行研究的人们有很大帮助。

我认为加拿大主要问题,是做研究没有美国那么多资金,它使用资金的方式相当明智,特别是此类研究的主要资助委员会,他们将资金用于好奇心驱动的研究、所有先进的神经网络研究,不是为在应用问题上投入金钱,而是为让科学家跟随他们好奇心去尝试与理解事物,加拿大在这方面非常擅长。

问题: 你此前警告不受控制AI的危险,我们对它现在工作原理了解不够,我们如何避免灾难?

辛顿: 我们目前不知道如何避免这一切,这就是为什么我们迫切需要更多研究,我提倡最优秀的年轻研究人员,应该致力AI安全,政府应该迫使大公司提供相应计算设施。

问题: 你能详细说明一下你对AI的担忧?你是否相信它可能会变得比人类更聪明?你为什么相信这会发生、多快会发生?

辛顿:我认识的大多数顶尖研究人员,都相信AI将变得比人类更聪明。对这一预期的时间维度有所不同,很多人相信这将在未来20年某个时候发生,有些人相信这会发生得更快,有些人认为这需要更长时间,相当多人相信,未来20年某个时候,AI将比我们更聪明,我们需要认真思考会发生什么。

问题: 当你刚得知自己获奖时,你第一个打给谁?她反应是什么?

辛顿: 我姐姐,她在澳大利亚说,我的天。

问题: 今天早上得知诺贝尔奖得主的消息时,你感到大吃一惊,这一天你过得怎么样?

辛顿: 我睡得很少,当时是加州凌晨1点,电话接通时,我已睡了大约1小时,挂了电话后,我可能又睡了大约1小时,我现在睡眠不足。有很多人试图联系我,还收到很多年前老朋友的留言。

问题: 当你得知这个奖项时,你用大吃一惊这个词,为什么你这么惊讶?

辛顿: 我完全不知道我被提名,我不是物理学家。获得物理学奖,对我非常令人惊讶,我很高兴诺贝尔委员会认识到人工神经网络领域取得的巨大进步。

霍普菲尔德的工作与物理学密切相关,我与特里· 辛诺夫斯基,在玻尔兹曼机上所做的一些早期工作,受到统计物理学启发,最近这项工作与物理学关系较少,我很惊讶。

问题: 你能否详细说明之前在电话会议上,关于Sam Altman的评论?

辛顿: OpenAI建立之初,非常强调安全性,主要目标是开发AGI,确保它是安全的,随着时间推移,事实证明,Sam Altman更关心利润,不是安全,我认为这很不幸。

问题: 你如何看待AI不确定未来、如何更好了解潜在机遇与风险?政府会考虑介入吗?为更严格监管AI,政府如何更好支持AI研究?

辛顿: 我认为政府可以鼓励大公司在安全研究上花费更多资源,目前几乎所有资源都用于使模型更好,正在进行一场激烈的竞争。

一方面,模型变得越来越好,我们需要在AI安全方面,做出类似努力,这部分努力,需要超过1%,可能需要1/3。

问题: 关于诺贝尔奖金,有哪些计划?

辛顿: 我没有具体计划,打算把它捐给慈善机构,我会捐一些给神经多样性年轻人孤独症或阿斯伯格提供工作,我会再捐给其他一些慈善机构。

问题: 很难预测会发生什么,如果你必须在一些粗略的关注领域进行冒险,那会是什么?

辛顿: AI有很多不同风险,他们都有不同解决方案,直接风险是诸如虚假视频破坏选举之类的事情,我们已经看到政客要么指责其他人使用虚假视频,要么自己使用虚假视频与虚假图像,这是一个迫在眉睫的危险。

网络攻击等事件,也会带来非常直接危险。例如2023年,钓鱼攻击的数量增加1200%,大型语言模型使得钓鱼攻击变得非常容易,你无法再通过拼写错误与语法奇怪的事实来识别它们。

问题: AI领域令人兴奋的下一个前沿技术是什么?

辛顿: 我已经76岁,我不会做更多前沿研究,我会花时间倡导人们从事安全工作。

我认为机器人技术中,有非常令人兴奋的前景,让AI能熟练操纵事物,目前我们在这方面比计算机或人工神经网络好得多。我认为大型语言模型在推理方面会变得更好,OpenAI与谷歌的最新模型,在推理方面变得更好。

问题: 我们很好奇在今天新闻发布会上,还有什么我们没有提到,你想提及的问题?

辛顿:我们简单提到一件事,好奇心驱动基础研究的作用,人工神经网络基础工作,都是由大学研究人员完成,研究人员只是追随他们好奇心,资助这种研究非常重要,它不像其他类型研究昂贵,它为后来非常昂贵,涉及大量技术的事情奠定基础。

结语:机器学习、物理学研究相辅相成

人工神经网络,是以生物神经网络为模型,2024年两位诺贝尔物理学奖获得者的工作,都借鉴统计物理学,利用物理学训练人工神经网络,为当今强大的机器学习奠定基础。

此次诺贝尔物理学奖的颁布,表明物理学理念正在推动深度学习革命兴起。如今,深度学习开始回报物理学,它能准确、快速模拟从分子与材料,到整个地球气候的各种系统。

通过将诺贝尔物理学奖授予霍普菲尔德与辛顿,表明诺贝尔奖委员会对人类利用这些进步来促进人类福祉与建立可持续发展世界的期望。

正如辛顿所言,此次获得诺贝尔物理学奖在一定程度上,能使整个AI行业未来更重视他对AI风险的观点。

详解2024诺贝尔生理学或医学奖:他们解锁调控生命的隐藏密码

时间:2024年10月7日

来源:环球科学

字数:7,409

北京时间2024年10月7日17时30分许,两位美国科学家维克托·安布罗斯Victor R. Ambros与加里·鲁夫昆Gary Ruvkun,因发现微RNA/microRNA及其在转录后基因调控中的作用,获得 2024年诺贝尔生理学或医学奖。

维克托·安布罗斯

安布罗斯,美国发育生物学家,马萨诸塞州大学医学院教授,1953年美国新罕布什尔州出生,1975年在麻省理工学院获得学士学位,之后师从诺奖得主戴维·巴尔的摩,在麻省理工学院获得博士学位。

加里·鲁夫昆

鲁夫昆,美国分子生物学家、哈佛大学及麻省总医院遗传学教授,1952 年美国加州出生,1973年在加州大学伯克利分校获得学士学位,1982年在哈佛大学获得博士学位。

20世纪 80年代末,安布罗斯与鲁夫昆同在麻省理工学院罗伯特·霍维茨Robert Horvitz的实验室担任博士后研究员,霍维茨是2002年诺贝尔生理学与医学奖得主之一。

在霍维茨实验室里,两位年轻的科学家开始研究不起眼的小蠕虫,秀丽隐杆线虫,这将为他们打开一扇通往基因调控领域的新大门,为今天获得诺贝尔奖工作奠定基础。

我们染色体中储存的信息,是身体内所有细胞的一本说明手册。每个细胞都含有相同的染色体,每个细胞都包含完全相同的基因集合与指令集合。不同类型细胞,如肌肉细胞、心脏细胞、神经细胞,大不相同,它们都具有自己独有的特征。

这些差异如何产生,答案在于基因调控。如果说生命是一出交响乐,基因调控便是指挥棒、是节拍器,它允许每种细胞只选择与自己相关的指令。

2024年诺贝尔生理学或医学奖得主,维克托·安布罗斯与加里·鲁夫昆,对不同类型的细胞发育过程充满兴趣。他们发现微RNA,一类新型的小RNA分子,在基因调控中发挥关键作用。

这一研究揭示一种全新的基因调控原理,对包括人类在内的多细胞生物至关重要。

人们一开始,对发生在转录后的基因调控颇感意外,这一发现将基因调控领域的研究扩展到一个全新维度:蛋白质在细胞核中调控RNA转录与剪接,微RNA在细胞质中控制mRNA翻译与降解。

微RNA及其在转录后基因调控中的作用

多细胞生物,从单细胞生物祖先演化而来时,体内每种细胞类型都会获得专门功能,需要越来越复杂的基因调控机制。

除了作用于调控序列的DNA结合因子介导的转录水平的基因调控外,随着复杂生物演化,其他形式的控制系统逐渐出现。

数亿年时间里,编码微RNA的基因,在多细胞生物的基因组中逐渐发展,以在mRNA稳定性与蛋白质翻译水平上发挥转录后调控作用。

直到1993年,维克托·安布罗斯与加里·鲁夫昆发现微RNA及其基因调控方式,这些才完全为人所知。

2024年,两位诺贝尔奖得主研究了因lin-4与lin-14遗传位点变异,而出现发育缺陷的突变秀丽隐杆线虫:安布罗斯实验室克隆lin-4基因,惊讶发现它不编码蛋白质。相反,它编码一个由22个核苷酸组成的非编码RNA。与此,鲁夫昆实验室,发现lin-4通过lin-14 3'非翻译区3'-UTR中的多个元件调控lin-14一种核蛋白。

通过比较序列信息,他们发现短链非编码RNAlin-4与lin-14对应基因的3'-UTR元件之间存在部分序列互补性。这首次揭示一种在概念上新颖的调控RNA类型:微RNA。

2000年,鲁夫昆实验室发现高度保守的let-7微RNA,随后科学家进一步在包括人类在内的多种动物中发现同源的微RNA。这一发现引发动物界微RNA的广泛克隆与测序研究,结果表明微RNA囊括一大类调节元件,控制庞大的蛋白质编码基因网络。

安布罗斯与鲁夫昆的发现,完全出人意料,揭示一种由微RNA介导、演化上保守的转录后调控机制,在动物发育与成年生物体的组织功能中起着关键作用。

基因的调控机制

生命可以控制自己在何时何转录基因、产生RNA,将其翻译成蛋白质,这是生物中一个极其基础的过程。

例如,胰岛素由胰岛中β细胞产生,视蛋白由视网膜中细胞产生。针对不同细胞精确特异性基因调控指令被编码在其遗传物质中,通过序列特异性的DNA结合蛋白发挥作用。

弗朗索瓦·雅各布François Jacob、雅克·莫诺Jacque Monod,因发现基因的调控机制,1965年获得诺贝尔生理学或医学奖。在单细胞与多细胞真核生物中,DNA 结合转录因子是高度保守的,而在多细胞生物体内出现额外的基因调控层级,以确保在任何特定时间,每种细胞中都能正确产生RNA与蛋白质。

细胞类型特异性的功能调控。每个细胞都包含一套相同染色体,具有完全相同的基因组。细胞类型特异性功能指的是,在每种不同类型的细胞中,只有一部分特定的基因被激活。图片来源:诺贝尔生理学或医学委员会。

制图:Mattias Karlén

真核生物模型,在遗传研究中具有不可估量的价值,带来许多意想不到的发现。半个多世纪前,悉尼·布伦纳Sydney Brenner将秀丽隐杆线虫Caenorhabditis elegans引入到遗传学研究中。

这种生物每一代的寿命较短,身体透明,具有易于进行遗传操作的特性,得到广泛研究。布伦纳、约翰·萨尔斯顿John Sulston、罗伯特·霍维茨Robert Horvit利用这种线虫,揭示在器官发育过程中,遗传基因如何控制细胞分裂、分化、死亡,这些发现,使他们获得 2002年诺贝尔生理学或医学奖。

20世纪 70年代,布伦纳实验室,通过秀丽隐杆线虫的突变筛选,发现lin-4突变体e912。这些线虫具有一些明显表型:许多细胞类型与形态结构完全缺失,例如因阴门发育失败导致卵子积聚,这似乎是由一些特定细胞谱系的发育程序出现重复而引发。

在lin-4线虫突变体中,观察到的显著发育中断表明,lin-4编码发育时序中一个主调控因子。大量具有不序发育缺陷的异时性突变体被鉴定出来,包括霍维茨实验室发现的第二个突变体lin-14 突变体。

存在发育缺陷的异时性线虫突变体。秀丽隐杆线虫的lin-4与lin-14突变体的发育,均被干扰。lin-4突变体线虫的细胞谱系发育程序出现重复,导致没有形成阴门,内部卵子积累,lin-14突变体的体型较小,缺乏幼虫程序,这一程序决定生物幼虫发育与行为的遗传与分子机制。线虫图片来自 Ambros, 2008

安布罗斯正在跟随戴维·巴尔的摩David Baltimore研究脊髓灰质炎病毒基因组的结构与复制。获得博士学位后,他加入霍维茨实验室。作为博士后研究员,安布罗斯立即着手对异时性突变体进行遗传分析,发现lin-14 突变体具有与lin-4 突变体相反的发育时序缺陷。在lin-14突变体中,幼虫程序完全缺失。值得注意的是,安布罗斯后来发现lin-4是lin-14的负调控因子。

在此期间,鲁夫昆在 Frederick Ausubel 指导下,完成细菌遗传学博士学位。在欧洲旅行期间,他学会异时性突变体的细胞谱系分析,对线虫遗传学开始产生浓厚兴趣。

随后,他与 Martin Chalfie 与霍维茨进行讨论,进一步激发他利用秀丽隐杆线虫来研究这些问题的兴趣。

1982年,鲁夫昆开始在 Walter Gilbert 与霍维茨的实验室,进行联合博士后研究。

发现微RNA介导转录后基因调控

在霍维茨实验室,安布罗斯与鲁夫昆开始他们漫长的克隆lin-14历程。当时,通过遗传学确定基因座的DNA序列,是一项艰巨的任务。经过多年实验,他们成功使用经典的限制性片段长度多态性方法确定该区域。

在此期间,安布罗斯与鲁夫昆都获得教职:安布罗斯就职于美国哈佛大学,鲁夫昆在麻省总医院与哈佛医学院任职。他们致力自己的研究问题,继续进行分子分析。

鲁夫昆证明,lin-14 是一种在发育过程特定阶段表达的核蛋白,在 L1 阶段、幼虫的第一阶段,表达量高,在lin-4与lin-14发生突变的个体中,表达量会发生改变。

有趣的是,研究人员发现lin-14的功能获得突变体,其3'-UTR域存在缺失,导致lin-14蛋白在 L1 阶段之后仍能被检测到。

3'-UTR元件的破坏,对蛋白质序列没有影响。鲁夫昆推测,一种作用于mRNA稳定性、核输出或翻译的转录后机制,可能介导lin-14的时间切换。

相比lin-14有若干个突变体,科学家只发现一个lin-4突变体e912。安布罗斯实验室着手通过限制性片段长度多态性与DNA印迹探针来克隆lin-4基因。

通过沿着染色体序列,依次反复测试较小的基因组片段,研究它们能否挽救lin-4突变的表型,他们精确定位一个693个碱基对长的、被SalI限制性内切酶切下来的片段。

多轮开放阅读框ORF预测与克隆重测序后,他们排除许多错误选项,开始怀疑lin-4基因可能是一个非编码RNA,它的ORF序列较短。他们将移码突变,引入到秀丽隐杆线虫的基因组中,结果并未影响lin-4的功能,这证实他们的怀疑。

1991年,他们通过RNA印迹法与RNA酶保护实验检测lin-4的转录本,发现两个长度分别为61与22 个核苷酸的短RNA转录物。

两种短lin-4转录物的鉴定。RNA印迹法的实验结果,从左至右依次为野生型、lin-4 突变体与用Sal I片段挽救的lin-4突变体的总RNA。研究人员用放射性标记的 lin-4RNA作为探针,并用 U6 作为对照。图片来源:Lee, Feinbaum 与 Ambros, 1993。

在独立解析出 lin-4安布罗斯实验室与 lin-14鲁夫昆实验室的序列后,1992年 6 月 11 日晚,安布罗斯与鲁夫昆交换lin-4与lin-14基因的序列数据。两人都注意到lin-4非编码RNA与lin-14的3'-UTR 中的多个元素之间存在显著的部分互补性。

意识到这一观察的重要性后,两个实验室进一步开展一系列实验,证明lin-4微RNA通过与位于3'-UTR 上的元件碱基互补配对来调控lin-14的mRNA。他们这一开创性发现, 1993年发表在《细胞Cell》杂志上,两篇论文以背靠背方式发表。

lin-4与lin-14RNA中互补序列元件。 通过比较lin-4与lin-14的克隆序列,他们发现长度为22个核苷酸的lin-4RNA与lin-14的3'-UTR中的重复元件存在部分互补性。 图片来源: 诺贝尔生理学或医学委员会。 插图: Mattias Karlén

基于秀丽隐杆线虫的lin-4序列,安布罗斯实验室在其他线虫物种中鉴定出包含lin-4的克隆。这些实验表明,来自其他线虫的lin-4克隆,能够挽救lin-4突变的秀丽隐杆线虫的表型。他们筛选超过20,000个突变染色体,鉴定出第二个lin-4突变体ma161,该突变体包含单个核苷酸突变。值得注意的是,该突变位于互补序列内,进一步支持lin-4微RNA与lin-14 的 3'-UTR 元件之间互补碱基的功能重要性。

鲁夫昆实验室比较野生型与lin-14功能获得突变体中lin-14蛋白与RNA的含量。突变体中lin-14蛋白水平提高4~7倍,RNA含量没有差异,这表明lin-14是在转录后水平即RNA转录完成后受到调控的。

将lin-14的3'-UTR转入报告基因后,报告基因的转录后调控与lin-14相似,表明异源3'-UTR足以控制mRNA翻译。

进一步,研究人员将lin-14 3'-UTR的较小片段转入报告基因,直至识别出一个功能性的 124 个核苷酸长的 3'-UTR 片段。该 3'-UTR 区域包含多个与lin-4部分互补的序列,该区域在双桅隐杆线虫C. briggsae中也是保守的。

通过对新发现的lin-4微RNA与来自所有物种的全面的核苷酸序列数据库进行计算分析,研究人员发现,与lin-4相匹配的序列仅存在其他线虫中,例如双桅隐杆线虫。一个关键问题存在:微RNA的存在,是否是线虫特有现象,还是在整个动物界中都具有深远功能影响的保守性特征?

保守的let-7微RNA

首个微RNA基因lin-4面世7年后,第二个微RNA基因let-7也被发现。

鲁夫昆实验室进行一项遗传筛选,重点关注一类突变体,它们可以抑制lin-14与 egl-35 位点突变的合成不育表型。let-7编码一个由 21个核苷酸构成的短链RNA,该RNA与多个异时性基因的3'-UTRs包括 lin-14、lin-28、lin-41、lin-42 与daf-12具有互补性。

let-7的缺失,会导致成虫重复出现幼虫阶段的细胞命运,这表明微RNA可能在调控细胞系形成的阶段特异性时序方面,发挥更广泛的作用。

下一个突破也来自鲁夫昆实验室。他们发现,与lin-4不同,let-7 基因在多种动物中具有演化保守性。科学家将let-7微RNA的序列,与核苷酸数据库进行比对,结果在果蝇与人类中均发现匹配序列。

在秀丽隐杆线虫中,let-7的一个已知靶标是lin-41,这是一种在斑马鱼与果蝇中具有同源蛋白的蛋白质。

令人欣慰的是,斑马鱼与果蝇lin-41同源基因的3'-UTR均显示出与let-7的互补性。多种人体组织中也存在let-7微RNA,这表明let-7与哺乳动物细胞的基因表达普遍相关。

与线虫类似,let-7微RNA在果蝇中表现出时序调控性,这表明let-7在昆虫、甲壳类与线虫中具有保守作用。

值得注意的是,科学家在软体动物与环节动物的成体阶段,检测到时序性质的let-7表达,这些物种没有幼虫阶段。脊椎动物没有明显的幼虫阶段,发育过程中也出现时序调控的let-7表达,包括在成年斑马鱼中的强烈表达。

令人印象深刻的是,在具有左右对称性的动物中,let-7 的表达也是时序调控,这种特性可能是在这些动物从双胚层物种,即从两个主要胚层发育而不是三个,如人类与其他脊椎动物,分化后演化产生的。let-7 在演化上高度保守,大大增加人们对微RNA作为基因表达后转录调控因子的兴趣。

let-7 RNA表达及微RNA的演化保守性。

左图:一个后生动物的演化树,突出显示能检测到let-7微RNA表达+或没能检测到let-7微RNA表达-的物种分支。具有相似let-7 RNA表达发育模式的物种早期阶段无let-7,但成年期表达 let-7用Dev.表示。

右图:微RNA基因在多细胞生物的基因组中演化,并扩展超过5亿年。

图片来源:诺贝尔生理学或医学委员会。制图:Mattias Karlén

随着let-7发现,利用小RNA克隆技术,多个实验室开始在人类及其他物种中寻找其他微RNA。

例如,Thomas Tuschl实验室从人体与果蝇组织中克隆出新的微RNA,David Bartel实验室从线虫中分离出新的微RNA,安布罗斯实验室也进行类似研究。

如今,这些综合证据已非常具有说服力:动物界中存在大量调控性微RNA,可能在基因调控中发挥重要作用。

分子生物学与测序技术的进步,使得我们已在人类基因组中鉴定出超过一千种微RNA基因。

目前,微RNA基因的数据库miRBase已包含超过38,000个发卡前体与48,860个成熟的微RNA基因序列,涵盖271个物种;就连在病毒里,科学家也发现编码微RNA的基因。

受益更多微RNA克隆、全基因组序列技术的日益完善,科学家可以更好找到微RNA与3'-UTR区域之间的碱基配对规则。

David Bartel、Christopher Burge 、Stephen Cohen 实验室提出将实验与比较基因组学方法相结合的研究规范,专门用于识别微RNA靶标。

这些研究表明,微RNA通常与目标mRNA具有部分互补性,主要集中在微RNA的种子区域。该研究揭示,每个微RNA可能调控多个蛋白质编码基因,许多基因的3'-UTR区域表现出与微RNA种子序列的极度保守性互补。

有趣的是,与细胞类型或谱系特异性微RNA共表达的基因,缺乏该特定微RNA的目标位点。

相比之下,这类微RNA靶点,在相邻细胞与组织中表达的基因中很常见。这些观察结果强化一种假说,微RNA在多细胞生物的细胞系形成、细胞类型稳定性中具有重要功能。

微RNA的生物合成与功能

在克隆其他微RNA基因的,多个研究团队也投入大量精力来理解微RNA的生物合成及其作用机制。

微RNA基因的转录策略多种多样。许多微RNA基因,是独立的转录单元,有时会成簇存在,其他微RNA位于蛋白质编码基因的内含子中。

典型的初级微RNA pri-microRNA,由RNA聚合酶 II 转录,具有发卡结构。这种发卡结构作为底物,由细胞核内的特定微处理器,一种包含Drosha内切酶的异三聚体复合物进行加工,来切断双链以产生前体微RNA pre-microRNA,通常为60~70个核苷酸长度,由安布罗斯实验室首先检测到。Exportin 5 与 RAN-GTP 促进前体微RNA向细胞质的运输。

随后,前体由Dicer,一种最初由Greg Hannon实验室鉴定的内切酶,核糖核酸酶III家族成员之一进一步加工,形成微RNA双链。

这些微RNA链,会被加载到含有 Argonaute 蛋白的沉默复合物上,另一个随从链会被取代。

一旦微RNA链,被加载到沉默复合物中,它就可以通过减少翻译与/或促进mRNA降解来执行具有序列特异性的负调控。

这种调控过程,会涉及衔接蛋白质NRC6与多聚腺苷酸结合蛋白PABPC,它们可以招募脱腺苷酶复合物,缩短mRNA的多聚腺苷酸尾巴,基于细胞中的环境,例如细胞所处的发育阶段及其类型,导致mRNA降解、翻译被抑制。

微RNA功能处理与执行的机制,可用于其他基于RNA的沉默机制,通常称为RNA干扰RNAi。包括小干扰RNA siRNAs、内源性piwi相互作用RNA piRNAs与重复相关小干扰RNA rasiRNAs。

有关双链RNA,可以诱导序列依赖性基因沉默的发现,使安德鲁·Z.法尔Andrew Z. Fire与克雷格·C.梅洛Craig C. Mello,获得2006年诺贝尔生理学或医学奖。RNAi在低复杂性的植物与动物中,主要用于防御病毒感染,对抗不必要的基因组移动元件活动,但微RNA在发育过程与成体的不同细胞中,会参与mRNA的转录后调控。

为此,微RNA已演化出与其目标mRNA序列相应的部分互补性,以调整对每个mRNA目标的影响,例如 siRNAs 通常是外源的,与特定RNA目标序列具有完全互补性,会切割这些序列。

1999年,David Baulcombe 证明植物中的转录后基因沉默与具有特异性的短RNA对靶序列进行处理有关,这进一步将不同领域中的观察联系起来。

微RNA的演化及其生理作用

微RNA基因的出现与发展,与更复杂的生物体的演化紧密相关。

早期两侧对称动物的演化过程中,微RNA基因的数量显著增加,据推测,它们在原口动物与后口动物分开之前的两侧对称动物的最后共同祖先中发挥作用。

那时起,随着复杂生物体中出现更特化的细胞类型与组织,又出现数百个额外的微RNA基因。

早期的后生动物海绵、植物、两种单细胞真核生物物种中,科学家发现微RNA基因。微RNA可能在演化过程中多次出现,包括出现在大约 6 亿年前多细胞动物早期谱系,或者 10 亿年前植物与动物的共同祖先中。

值得注意的是,许多在演化上古老的微RNA基因,在后来生物中都得以保留。这些基因很少在演化过程中丢失,这表明它们在基因调控中起着至关重要作用。

通过消除微RNA生物合成途径中的组分,科学家证明微RNA在多细胞生物发育与组织功能中关键作用。

负责在细胞质中处理前体微RNA的 Dicer 的缺失,在小鼠与斑马鱼中具有胚胎致死性。

在果蝇与小鼠中,单个或一组微RNA基因的缺失,会导致强烈的表型变化。多个微RNA基因均作用于相同的目标序列,可能存在冗余作用,导致单个微RNA基因的功能被掩盖。

这些系统中的冗余性,阻碍科学家对单个微RNA基因的功能进行深入研究,它也展示该系统的稳健性,解释为何该系统不易被病毒等外界因素轻易操控。

为突出微RNA的基础作用,值得关注的是,在两侧对称生物中共享、演化上最为保守的微RNA基因,会在胚胎发育早期发挥作用,特别在哺乳动物中演化出微RNA在胚胎发育的后期阶段发挥作用。

相比之下,物种特异性的微RNA基因,通常在成体细胞类型中发挥作用,而不是在胚胎发育过程中。通过对不同演化保守性的微RNA基因的系统性敲除实验,科学家发现这些模式显而易见。在动物发育过程中,微RNA特定的调控作用,包括调控发育时序、细胞命运的形成与稳定性、普遍生理学与内稳态。

通过选择性将 Dicer 从转基因小鼠体内敲除,研究人员已阐明微RNA在成体细胞与组织中的功能。

例如,在B细胞成熟过程的早期,敲除 Dicer1 ,会导致该细胞分化停滞在祖 B 细胞阶段。在胚胎发育的第15.5天,从神经元中敲除Dicer1,会导致新生儿早早死去,伴随小头畸形、神经元树突分支减少与树突棘长度增加。

胚胎发育两周时,在分裂后的小脑浦肯野细胞中敲除Dicer1,会引发小脑退化与共济失调肌肉运动不协调。

中脑多巴胺能神经元中Dicer1的缺失,会导致渐进性神经元丧失与运动活动减少。

研究人员在其他多种细胞类型与组织中,也观察到严重的表型,证明微RNA在发育过程与成体细胞类型的功能中具有关键作用。

随着人们发现越来越多与特定微RNA基因突变或相关生物合成通路中的成分突变相关的综合征,微RNA在人类发育与机体功能中的重要性变得显而易见。

例如,Dicer1综合征,是一种罕见的遗传性疾病,由Dicer1基因突变引起,患者易患肾、甲状腺、卵巢、宫颈、睾丸、脑、眼与肺的肿瘤。这些患者体内,通常Dicer1的一个等位基因存在使其失活的胚系突变,降低细胞中功能性Dicer1蛋白的含量。这些个体容易发生额外的体细胞突变,往往在儿童期就发展出肿瘤。

微RNA基因的碱基配对部分,即种子序列较短,使得它们不太可能因随机突变而改变。人们已知微RNA基因的种子序列中存在与疾病相关的突变,包括与进行性听力损失相关的 miRNA-96突变,导致 EDICT 综合征一种罕见的眼疾,表现为虹膜发育不全、内皮营养不良与先天性白内障的miRNA-184 突变,导致先天性骨骼疾病的miRNA-140-5p突变。

目前,针对代谢紊乱、心血管疾病、神经退行性疾病与癌症等疾病,基于微RNA的诊断与治疗方法正在取得进展。


六合年度报告全库会员,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能时代专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能时代专题第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


智能时代专题第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


六合商业研选付费专题报告,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

元宇宙专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能电动汽车专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

相关研报:

【智能时代】现象级游戏《黑神话:悟空》的思考,游戏二元属性,文化与科技

【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中

诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会

人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来

九宇资本赵宇杰:智能时代思考, 认知思维,存在原生、降维、升维三波认知红利

九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI

九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体

人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字

九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿

九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切

【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上

【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付

【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启

【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起

【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆

【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横

【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动

【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现

九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切

【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会

九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变

【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集

【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集

【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集

【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变

【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐

九宇资本赵宇杰:对智能电动汽车产业的碎片化思考

九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术

【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓

【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异

【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国

【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆

【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村

六合君3周岁生日,TOP 60篇经典研报重磅推荐

下午茶,互联网世界的三国杀

5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代

新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式

【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇

知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期

从APP Store畅销榜4年更替,看内容付费崛起

新三板破万思考:新三板日交易量10年100倍?

九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会

九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会


九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态 |2016 GNEC 新经济新营销峰会

必阅读免责声明与风险提示







请到「今天看啥」查看全文