►ACTG四种碱基,抽象成图中4个不同颜色不同结构的镂空立方体,可以通过三种正交的方式解构为两两组合:右侧投影,阳文M(aMino,氨式)= A和C,阴文K(Keto,酮式)= G和T;左侧投影,阳文R(puRine,嘌呤)=A和G,阴文Y(pYrimidine,嘧啶)=C和T;底面投影,阳文W(Weak,双键)=A和T,阴文S(Strong,三键)=C和G。在ECC测序中,每个碱基均通过三次“投影”进行了测量,再通过三个投影重构出原来的序列。artwork by Zitian
撰文 | 李晓明
责编 | 陈晓雪
● ● ●
在国际顶尖期刊上沉寂多年的测序方法研究领域,11月6日迎来了一篇重磅论文——基于信息理论来修正错误的高准确度荧光产生DNA测序方法。
这篇发表在Nature Biotechnology的最新工作介绍了一种纠错编码(ECC)测序法。7位作者均来自北京大学北京未来基因诊断高精尖创新中心,责任作者是中心成员、北京大学教授黄岩谊。
“我熟悉岩谊的工作,这是一项高度创新、意义重大、非常有冲击力的研究,它将在实践领域产生重大影响。”第一时间获悉这一重要突破的哈佛大学系统生物学教授、Wyss研究所核心成员尹鹏告诉《知识分子》,“他们的工作将以前所未有的精度解码基因组信息,从而为研究和诊断因基因变异发生的不同疾病带来全新的认识。”
据《知识分子》了解,这一工作从启动到发表,历时7年,其中种种挑战与考验,也是论文的作者们未曾预料到的。“我觉得把它做成,我个人评价还是蛮优雅的。”黄岩谊说,“最初也没想到会有这么艰难,但是干了也就干了,慢慢你就发现它有趣的地方在哪儿了。”
DNA的本质是脱氧核糖核酸苷链。20世纪30年代,科学家发现DNA是由四种碱基A、T、C、G构成的长分子。1953年,沃森和克里克揭示了DNA双螺旋结构,其中A与T配对,C与G配对。这四种碱基的排列序列决定了遗传信息,生命之所以能够代代相承、生生不息的奥秘就藏在其中。
然而,人的基因组就含有多达30亿个碱基对,理论上有无穷的排列组合的可能。人与人的基因组差别虽然只有千分之一,但由于DNA上碱基序列的不同,终归千人千面。
当科学家试图解读这神秘难懂的遗传密码时,测序技术便是强有力的解码工具。从上世纪70年代起,许多科学家开始集中力量攻克这一领域。我们熟悉的著名华人生物学家吴瑞教授,就是这一领域的先驱。
1977年,弗雷德里克·桑格发明了第一代测序技术中最后占领垄断地位的“双脱氧终止法”(后也被称为“桑格法”)。他测定的第一个基因组序列,是噬菌体X174,全长5375个碱基,而在此前人们最多能测80个碱基。
桑格法测序的发明,使得人类获得了窥探生命遗传差异本质的能力。其特点是测序读长(reads)可达1000bp(碱基对,base pair),准确性高,但成本高、通量低严重影响了其大规模应用。但是正由于其精度很高,它依然是基因检测的金标准,是对于下一代测序结果进行评估和验证的主要手段。
以1977年为开端,人类步入了基因组学时代。以改进的桑格测序法为基础,2001年,美、英、法、德、日、中六国合作历时十余年、累计投入约30亿美元,完成了人类基因组计划。这是历史上第一个人类全基因组序列的测序工作,不过当时测得的基因组是几个人的综合,而不是一个人的。
转眼又过去了几年,人类解读基因密码的进程突飞猛进,“下一代测序方法”(next generation sequencing)应运而生,其显著特征是高通量,不仅成本大幅下降,周期也迅速缩短。原来需要数年之间做出一个人类个体全基因组序列的测序工作,逐渐减少到只需1个月时间、花费十几万美元,到2011年前后又陡然下降到花费1万美元、一周时间即可完成。这种技术上的快速进步使得大规模测序时代真正到来。
“下一代测序方法”诞生了几个明星级产品。主要的技术路线以罗氏公司的454技术,Illumina公司的Solexa技术,以及Life Technologies公司的SOLiD技术、IonTorrent技术等几个为代表。虽然具体指标上各有千秋,但都可以做到一次对几十万到几百万条甚至更多DNA分子进行序列测定。这种高通量测序能够对一个物种的转录组和基因组进行细致全貌的分析。
从科研领域到日常生活,下一代测序技术已经取得广泛应用,但是其必须给予PCR (聚合酶链式反应,一种可以快速复制大量产生相同DNA片段的技术)扩增,由于其指数扩增过程中不够精确,一旦拷贝件出错,错误就会被传下去,结果就不准确了,成本、准确性等关键问题仍然存在。各国科学家都在致力于新的测序解决方案。目前,以单分子测序为主要特征的“第三代”测序技术已经初露端倪,但是在成本、准确性和通量方面还不能与基于大量分子的DNA测序仪相竞争。
“就像中国需要自己的飞机一样,中国也需要自己的测序仪”
2009年前后,售价动辄近百万美元的“下一代测序仪”在市场竞争中拼杀正酣。其中Illumina公司的仪器开始占据越来越多的市场。
这一年,哈佛大学教授谢晓亮课题组在实验室里发明了一种新型的测序技术,并做出过一个测序仪原理样机,但因起步较晚,没有形成产品,只是在2011年在Nature Methods首次报道了这种荧光发生测序技术。它的原理巧妙之处在于在DNA互补链合成时可以释放同所延伸核苷酸数目相等的荧光分子,利用这一反应可以实现低错误率的边合成边测序(SBS,sequencing by synthesis)。
但是谢晓亮并未放弃做中国自己的测序仪的想法。他已经看到新一代的测序仪将会对医学产生革命性贡献,通过对人的基因组测序,将为预防、检测和治疗疾病提供个体化的解决方案。
而中国有数千家测序服务公司,当初只能斥巨资引进国外测序仪,但是并不具备在技术源头的解决方案,更没有自己的测序仪。
►在一次公开演讲中,谢晓亮表示,“就像中国需要自己的飞机一样,中国也需要自己的测序仪”。
2010年,谢晓亮回到母校北京大学,牵头创建北京大学生物动态光学成像中心,首批PI里就有黄岩谊。当年因化学竞赛成绩优异保送北大化学系,黄岩谊一口气读完化学博士,又先后在加州理工学院应用物理系研究光学,在斯坦福大学生物工程系研究微流芯片与分子生物学,做了4年的博士后,拥有极好的跨学科研究背景。正是谢晓亮心中理想的研发测序仪的人选。
测序技术的开发正是这样一个跨学科、高度综合的技术活,涉及生物医学、计算机、微电子学、光学、材料科学和精密加工等多学科技术。
►论文通讯作者黄岩谊拥有化学、光学、分子生物等跨学科的研究背景
2010年秋,黄岩谊“刚刚申请了一点钱,可以养活自己的组”,架不住谢晓亮“忽悠”,启动了测序仪课题。
未曾想,一干就是7年。
他先去了一趟哈佛大学谢晓亮课题组看了他们做的原理样机。
拿回来为开发荧光发生测序技术而制备的少量化合物,黄岩谊开始重复他们的实验。
这个时候,黄岩谊的组里来了一位北大化学系大三的学生,陈子天。他当时加入黄组的原因是,“不是纯做化学的,也做生物,也做微流控芯片,好玩”。
入组不久,陈子天就和他的师兄一起,为黄岩谊在北大生科院的合作者搭建了一个拍植物幼苗生长状况的高通量装置,并且开发了算法程序。“和化学一点关系都没有,每五分钟拍一次,看幼苗长了几微米,算生长曲线;生科院的老师和同学研究它的生物学意义。”看到陈子天玩得得心应手,黄岩谊像捡到了宝贝一样,开始给他各种项目练手。
2011年,黄岩谊得到了北京市科委的经费支持,课题组可以采购一点必要的零件,买一些必要的设备和试剂,真正开始了新的测序方法研发。
“那时候,我们甚至还没有通风柜,最简单的有机合成都无法做。”黄岩谊回忆道。2011年,段海峰从谢晓亮在哈佛的组里博后出站,回国加入了黄岩谊组,从头建设了一个可以做有机合成实验的实验室,开始了对荧光发生测序底物的研究。
段海峰首先解决了团队测序底物化学合成的问题。毕竟没有反应性能出色的底物,测序方法的性能也就大打折扣。从此,测序的研发工作就再也没有断过粮了。
“没有他,团队的科研就无法正常进行。”黄岩谊说,当时这些原料背后有很多化学的基础原理,不做的时候很难体会,当需要把它做成一个真正有用的方法时才发现,每一个细节都需要做到极致,合成怎么做,测序反应怎么做,芯片怎么做,表面怎么做,方法怎么做,环环相扣,每一个环节都做到极致才会有后面的结果。
►段海峰首先解决了团队测序底物化学合成的问题
2010年前后,主流的Illumina测序仪读长不过几十个碱基,454和SOLiD测序仪还活跃在市场上。天天在实验室捣鼓的陈子天当时觉得也许还有追上的机会,但很快,商业的力量促使测序技术飞速进步,他感到实验室被拉开的距离越来越大。
主流的高分辨测序通常采用边合成边测序策略,通过聚合酶(polymerase),以一条DNA模版为基础,合成它的互补序列,如果知道加进去的碱基是什么,根据A/T、C/G配对原则,就能反推其对面是什么,所以通过测定参与延伸反应的碱基类型和数目,就可以推测出DNA模版的序列信息。
但是这种测序策略的短板也很明显,由于对化学反应本身的错误没有有效的检查和改正机制,导致了当前高通量测序技术的准确性往往被限制在聚合酶的保真度、信号与序列的线性度、信号检测的灵敏度这几个因素上。
新的测序方法的机会在哪里呢?“当时谢老师实验已经能重复,但这样肯定发不了文章,我当时是本科生,倒也不在乎发文章,但总想着要做点科学出来。”陈子天憋着一股劲。
段海峰就像组里的定海神针,依然一点一点的琢磨,一点一点的改进荧光碱基的分子结构。他需要四次有机合成才能得到一组四个碱基,有一次陈子天等不了,拿到一个刚出炉的碱基就想试,他加进来三种没有标记荧光的天然碱基反应物,心里想,反正这三个是没信号的,索性就混在一起反应好了,跳过这个区域。那一刻,脑门突然闪现灵光。
“1+3混着测可以延长读长,但需要多测几轮,才能用算法解开,得出准确的测序结果”,他一口气跑到黄岩谊办公室。“那2+2呢?”黄岩谊进一步问道。
“至少有几天时间,我们还没有脱离出思想的束缚——就是认为测序一定要直接能够测出碱基的方法才行”,陈子天说,不过最终还是想通了,在2+2方案中(即两种碱基与两种碱基反应),即使每一个反应都无法确定碱基种类,也可以通过多轮测序结果,经由算法进行纠错和校正,从而推导得到一个精确的序列。
►论文的第一作者、研究的主要推动者陈子天。开始做这个课题的时候,还是一名大三学生,如今已经博士毕业,现在做博士后研究。
这种策略在通信等领域中被称作ECC,是一种能够实现“错误检查和纠正”的技术,已经存在并应用了半个世纪的时间。其实质是通过对信息存储和传递过程进行有效编码,可极大消除信息存储和传输错误出现的可能性。例如光盘有轻微划伤,也可以充分利用信息冗余来保障在部分信息出现损失的前提下仍可复原全部信息内容。
置换到测序的语境中,ECC测序方法通过创建三个正交简并序列,通过交替的双基反应生成序列,将信息冗余和测序过程结合,可以发现和纠正测序中产生的错误。而荧光发生测序方法恰好具有独特的优势使得这种结合变得可行。
与现在新一代测序仪市场上基本处于垄断地位的Illumina测序化学原理不同,荧光发生测序技术不对作为反应原料的核苷酸3’端羟基进行封闭性化学修饰,因而可自由连续延伸,从而提供了ECC测序的可能。
2014年秋,历经改进化学,测试动力学,优化算法,反复多次之后,黄岩谊组在实验中拼出来三个序列,然后开始不断重复,折磨了几个月,终于验证了ECC测序法。
实验证实,新的测序方法能够在前200bp中把误差全部消除,做到完全精准无错。与主流测序化学方法比较而言,ECC不仅检测快速,而且准确度很高,兼具优点。
“我们当然很开心。新的测序方法真的在我们手中实现了。”黄岩谊回忆道:整个过程完全打破了学科界限,从化学合成开始想,从分子开始想,从酶、从生物的问题开始想,一直做到工程实现仪器的功能,全流程打通,然后做优化,仪器要平衡,性能又要好,时间也要符合需求,等等,非常考验人,但当这一切都做到了,那种感觉是非常好的。
“那个瞬间特别爽!”陈子天仿佛打怪通关一样开心:“作为一个做化学本科的人,从物理化学实验,一直做到分子生物,光学,做仪器,做流体,最后做到计算机算法。从头到尾回想一下,觉得什么都玩遍了。”
2015年春节过后,整个课题组陷入到另外一种煎熬之中——怎么把这种新的测序方法给别人讲清楚。“我们很努力,反复修改我们的表述,数学的展示方式,花了很长时间画图,数学描述也花了将近一年时间,才把文章投出去。”黄岩谊说。
►论文作者之一、博士研究生乔朔。在这一工作中负责反应动力学数据的获取和解读、芯片表面修饰及表征以及模版的扩增反应
最终在11月6日上线的这篇革命性测序方法的文章只有8页,然而作为它的附件文档,却长达109页。其中事无巨细地交代了化学原理、实验方案、数学描述、计算模拟、工程实现等等细节。
“整个实验一环扣一环是怎么解决的,我们是怎么思考的,以后还有什么别的应用,我们可以公开给大家讲,很多东西都放进去了。”黄岩谊说,“这篇文章没有秘密,我们全部公开,希望别人理解里面优美的地方,很难的地方,能够知道我们是怎么做的。”
“这是非常重要、也是非常原创的文章,不同于那些quick-and-dirty paper(快速生产的论文),这是岩谊回国后最重要的工作”。哈佛大学教授、北京未来基因诊断高精尖创新中心主任谢晓亮告诉《知识分子》,ECC测序方法将把下一代测序仪的精准度进一步大幅提升。谢晓亮也是这篇论文的作者之一。
文章写道:高精度测序方法将有助于各种应用,包括婴儿基因突变检测,循环肿瘤DNA或高度异质性肿瘤组织中的母体血和稀有突变鉴定。而ECC技术可以从根本上提高数据质量,满足精准医学的精度要求。
尹鹏就此向《知识分子》评论道:“这是非常令人兴奋的工作,是在中国产生的原创研究、切实有效的研究。我对它之于学术研究以及临床实践的影响很乐观。”
《知识分子》:开发一种新的测序方法,这件事到底有多难?
黄岩谊:这是一个典型的多学科交叉的问题;既是一个科学问题,也是一个工程问题。ECC测序法从科学上讲,并不神秘,它不是一个“发现”型的科学问题,但是仍然需要解决一些非常关键的而且挺有挑战性的细节问题,不是简单地应用已有知识。例如,开发测序用的微流控芯片,研究测序酶反应的物理化学过程,新型荧光核苷酸底物的有机合成,信息论编码解码的理论开发等等。这些问题每一个即使独立地看,也都是很有趣的科学问题。但是,光解决这些科学问题,还只是长途旅行的开始,并不能保证能走到结束。更重要的是,研究中需要从工程科学的角度考虑问题,保证这一方法不仅仅只是纸上谈兵,写出可能性;而是可以在实验室做出原理样机,验证可行性。
在研究过程中,还是很艰苦的;很多时候不能直接感觉到关键突破口在哪里,需要花很多时间摸索,才逐渐了解解决关键问题的途径。然后,还是艰苦的“学习-尝试-犯错-改正”循环。很多已有的知识,不能直接应用,需要融会贯通后,才能理解是否可以应用于解决我们的问题,期间犯过很多错误,也走过弯路。所以,对于工程问题的解决,不是简单地应用一些已有的技术或知识,而是需要从基本原理出发,从基础科学出发,理解并解决了一个个的科学问题,才能解决工程问题。
►论文作者之一、博士研究生周文雄,承担了关键的数学推导、算法优化以及编程实现
《知识分子》:这么难的事情干成了,是不是特别有成就感?
黄岩谊:讲原理很简单,这个我不觉得有什么骄傲的。但是我觉得把它做成,我个人评价还是蛮优雅的。最初也没想到会有这么艰难,但是干了也就干了,慢慢你就发现它有趣的地方在哪儿了。当然,也有很多没干出来的时候,一般外人不知道,人们多数看到的都是干出来了的,只看见贼吃肉,没看见贼挨打。
《知识分子》:用7年的时间发一篇文章,课题组是怎么挺过来的?
黄岩谊:论文中所展示的数据和进展,实际上是2014年年底之前的结果。2015年之后的进展,更加有意思,只不过现在还没有总结。2014年的下半年,当我们获得预期的实验结果时,是最令人激动的时刻。而后,从2015年的春节开始,我们花了一年时间,断断续续地画图,试图将这一工作更加清晰、更加有条理地展示;然后又花了大约一年时间断断续续把论文写了,论文的写作工作量也不小;最后投稿到发表大约又是一年。论文的第一作者陈子天,是这个工作最主要的推动者,他开始做这个课题的时候,还是我实验室的一个本科生,做着做着博士都毕业了,现在是博士后。
虽然文章发在一个高分杂志上,但这并不是我们最看重的,能把这个想法在工程上实现才更有挑战性,也更有价值。
最难熬的不是做实验,而是没钱干活了。2013年,我们经历了一段时间的困难,那时经费紧张,无法维持应有的研发速度,那时候差点儿就放弃了,工作陷入停顿,人员也不容易稳定,但是我们团队几个核心成员还是挺了下来,熬过了最艰苦的一年。后来得到了国家自然科学基金的支持,特别是自然科学基金开始支持具有原创性的科研仪器设备的研究,这个特别符合我们这个课题的理念。有了这些经费的支持,才有了2014年的那些数据,才写成了这篇论文。2015年和2016年,我分别加入了北大-清华生命科学联合中心和北京未来基因诊断高精尖创新中心,得到一些稳定经费的支持,使得这个工作的一些后续工作可以持续开展下去。
《知识分子》:整个研究取得突破的关键是不是采用ECC策略的idea?
黄岩谊:将ECC编码改错方法与荧光发生SBS测序化学的结合,是重要的一个想法,挺好的;然而如何做出来,却不是有了想法就可以轻松实现的,也不是增加人手或者查查文献就能解决的。
我们借鉴了一个在信息传播跟通信领域已经用了很长时间的一个思想,这个不难想,我从来觉得idea不重要,或者说是idea重要,但idea不值钱,最重要的是怎么把它做出来。做到比想到更重要。
我一点不觉得扔出一个ECC概念是什么神奇的事情,你看任何一本讲通讯的书里面,都会有这样的知识,教课书20世纪50年代写的跟现在一样清楚。我觉得能把它做出来,里面每一步的细节都是要花时间的,所以它是一个很有趣的课题。我们里面除了化学,还需要想很多数学、工程、编程、生物学的不同问题,它是一个整合到一起的多学科的课题。对学生来说,挑战很大,学生需要能够自主的很快从一个学科跳到另一个学科,把它融合到一起。然后还需要一个小团队,把每个学生比较擅长的地方,能够融到一起。
►论文作者之一、博士研究生康力,绝大多数最后获取的用于统计的测序实验,原始结果都出自他手
《知识分子》:你如何评价课题组的几位成员?
黄岩谊: 我特别感谢这个优秀的团队,在过去几年中,能够有机会和这样一个团队一起工作,同甘共苦,我觉得非常幸运。论文的作者名单中,每个人都非常重要,都不可替代。拿篮球队做个比喻,陈子天、周文雄、乔朔、康力、段海峰,他们五个是场上队员,是真正的主角;我和谢晓亮教授,就算教练和领队吧。
尤其要说到第一作者陈子天博士,他就是场上队长了。他参与了全部的研究内容,从底物的测定、样机的研发到数据的处理,从总体上把握并协调了具体的实验工作和数据处理流程,是这个课题得以顺利进展的核心人物。他本科毕业于北京大学化学学院,博士毕业于北京大学工学院。在七年过程中,他从课题的第一天开始,就一直在团队中,并随着课题的进行,从一个本科生成长成为一个优秀的科学家,不仅具有严谨的科学态度,而且同时掌握了工程科学的管理技能,具有巨大的潜力。最近几年,他一直带领团队的其他成员持续推进ECC测序法的进一步进展。
一个球队,不是只有场上队员。我们这个课题也是这样,许多人在这些年的摸索中提供了重要的帮助和支持,虽然没能成为论文的作者,但是他们功不可没。
注:文中图片均来自受访者。
参考文献:
Highly accurate fluorogenic DNA sequencing with information theory–based error correction.Nature Biotechnology,doi:10.1038/nbt.3982
制版编辑: 斯嘉丽|
▼▼▼点击“阅读原文”,了解课程详情,立享限时特惠!