专栏名称: 赛先生
赛先生由百人传媒投资和创办。文小刚、刘克峰、颜宁三位国际著名科学家担任主编,告诉你正在发生的科学。 上帝忘了给我们翅膀,于是,科学家带领我们飞翔。
目录
相关文章推荐
科普中国  ·  吃饭前的 1 ... ·  5 天前  
混沌巡洋舰  ·  克里斯·弗里思:我们对世界的感知是一种幻象 ·  1 周前  
51好读  ›  专栏  ›  赛先生

史上引用次数最高的100篇论文有多少是诺奖级别的?

赛先生  · 公众号  · 科学  · 2017-01-20 18:04

正文


Nature

*原文链接内有互动式图表*

*建议横屏阅读*

原文以The top 100 papers为标题,发布在2014年10月29日的《自然》新闻上

原文作者:Richard Van Noorden、Brendan Maher和Regina Nuzzo


《自然》在此探究那些历史上引用量最高的论文。

发现高温超导体,确定DNA双螺旋结构,首次观测到宇宙膨胀加速……这些科研突破都收获了诺贝尔奖和国际声望,但是报告这些发现的论文却无一跻身有史以来引用次数最高的百篇论文之列。

引用指的是在论文中引述前人的研究成果,是作者表明其方法、观点和发现来源的标准方式。引用次数一般被用作衡量一篇论文重要性的粗略指标。50年前,Eugene Garfield发表了科学引文索引(SCI),SCI是追踪科学文献引用次数的首次系统性尝试。为纪念SCI诞生50周年,《自然》杂志邀请目前拥有SCI的汤森路透公司列出了有史以来引用次数最高的100篇论文。此次统计涵盖了汤森路透Web of Science的全部内容,Web of Science是SCI的在线版本,其中也包括社会科学、艺术人文、会议论文和一些书籍数据库。纳入统计的论文的发表时间为1900年至今(2014年10月)。

结果令人惊讶。首先,引用次数要达到惊人的12119次才能跻身百强榜,许多最为著名的论文都没有上榜,而少数上榜的著名论文的确属于经典发现,比如首次观测到碳纳米管(排名第36位)。但是,上榜的绝大多数都是描述实验方法或软件的论文。现在,这些发现已成为了各自领域内所必不可少的工具。

例如,有史以来上引用次数最多的是1951年发表的一篇论文,描述了一种确定溶液中蛋白质含量的测定方法。迄今为止,该论文的引用次数已超过305000次,这曾让论文的第一作者、已故美国生物化学家Oliver Lowry感到困惑不已。“虽然我知道它实际上算不上一篇伟大的论文……但是它的反响是如此之大,我还是不免暗自得意,”他在1977年如此写道。

学术文献的庞大数量意味着百强论文都极其超群。汤森路透的Web of Science包含约5800万条文献记载,如果将其比作乞力马扎罗山,那么引用次数最高的100篇论文仅相当于山顶的1厘米。只有14499篇论文的引用次数超过1000次,约占1.5米的高度(请参阅“论文如山”)。与此同时,山麓部分的论文可能只被引用了一次——它们约占所有文献的一半。

没有人完全明白为什么有些论文高居“山顶”,而有些论文名气虽大,但引用次数却一般,不过研究人员的习惯或可解释一部分原因。荷兰科学和技术研究中心的主任Paul Wouters表示,许多关于研究方法的论文“成为了一种标准引用,好让其他科学家明白作者在做的是什么样的研究”。科学家的另一种常见做法使得真正的基础性发现(比如爱因斯坦的狭义相对论)的引用次数低于其应得水平:这些发现是如此的重要,以至于很快便进入课本,或者被当作耳熟能详的术语,不需要添加引用就能直接纳入正文。

引用次数中也充满了其他干扰因素。举例来说,论文引用的总量增加了,但发表时间早的论文有更多的时间来累积引用量。生物学家倾向于比物理学家更频繁地引用他人的研究成果。而且,并非所有领域发表的论文数量都是一样的。因此,现代文献计量学家在衡量一篇论文的价值时,会避免采用简单地计量引用次数这种粗陋的方法:相反,他们更偏向于比较发表时间接近、领域相当的论文的引用次数。

汤森路透的名单也不是唯一的排名系统。谷歌学术也为《自然》编制了自己的百强著作名单(请参阅“谷歌百强著作排名”)。谷歌学术的名单有更大的引用量作为基础,因为谷歌的参考文献是从更大(但分类不佳)的文献库,包括大量书籍中筛选的。在谷歌编制的著作名单中,经济学论文较为突出。谷歌学术的名单也包括了汤森路透没有分析的书籍。但在科学论文方面,两份名单有许多重合。

虽然引用次数存在种种缺陷,但这种老式的“名人堂”做法依然有其价值。其它暂且不表,它至少可以提醒我们科学知识的本质:为了取得激动人心的科学进步,研究人员依赖于相对默默无闻的论文来描述实验方法、数据库和软件。

成千上万次的引用将一些介绍关键研究方法的论文推上了科学的乞力马扎罗山之巅,它们至关重要,却鲜少引起关注。下面,《自然》杂志将带领各位读者认识其中一二。

Photo by Kyle Bean; Design by Wesley Fernandes/Nature


生物技术

数十年来,引用次数最高的百强论文一直被蛋白质生物化学主导。1951年发表的一篇论文介绍了测定蛋白质含量的劳里法(Lowry),一直稳居第一。不过许多生物化学家表示,劳里法和与之竞争的布拉德福蛋白质定量法(发表该方法的论文排名第三)都已经有点过时了。排名第二的论文介绍的是用于另一种蛋白质分析的Laemmli缓冲液。这些技术的支配地位可归因于细胞及分子生物学领域的高引用量,在这些领域内,这些技术仍然是不可或缺的工具。

在百强论文所描述的生物技术中,至少有两项获得了诺贝尔奖。排名第四的论文描述的DNA测序方法为已故的Frederick Sanger赢得了1980年的诺贝尔化学奖。排名第63位的论文描述的是聚合酶链式反应(PCR),一种复制DNA片段的方法,它为美国生物化学家Kary Mullis赢得了1993年的诺贝尔奖。这两种方法帮助科学家探索和操控DNA,推动了延续至今的遗传学研究革命。

其它方法受到的赞誉更少一些,但也并非籍籍无名。20世纪80年代,意大利癌症遗传学家Nicoletta Sacchi与波兰分子生物学家Piotr Chomczynski在美国合作,发表了一种从生物样本中提取RNA的迅速而廉价的方法。随着该方法的广泛流行(目前引用数排名第五),Chomczynski对该技术进行了改良,取得了专利权,并创建了一个销售试剂的公司。目前任职于美国罗斯威尔帕克癌症研究所的Sacchi表示,她并没有从中获得大量金钱报酬,但看到许多伟大的发现建立在她的研究基础之上,她感到心满意足。举例来说,这项技术对非编码短RNA分子研究的爆炸式增长功不可没。“从科学角度来说,我认为那才是一种巨大的奖励,”她说。 

生物信息学

Sanger的研究成果推动了基因测序领域的快速发展,这推高了介绍序列分析方法的论文的排名。一个重要的例子是基本局部比对搜索工具(BLAST),二十年来,对于研究基因和蛋白质行为的生物学家来说,这是一个无人不知的工具。用户只需要在网络浏览器中打开程序,插入一个DNA、RNA或蛋白质序列,不出几秒钟,他们就能看到来自成千上万种生物体的相关序列,还有与这些序列功能有关的信息,甚至还有相关文献的链接。BLAST是如此的受欢迎,以至于关于这一程序不同版本的论文在名单上出现了两次,分别位列第12和第14位。

但是,受引用习惯变化的影响,BLAST被Clustal挤到了后面。Clustal是BLAST的一个补充工具,可以一次比对多个序列。Clustal让研究人员得以描述不同生物体序列之间的演化关系,在看似不相关的序列中发现匹配,并预测在基因或蛋白质特定位点发生的变化可能会对其功能产生什么影响。一篇1994年的论文描述了该软件的用户友好型版本ClustalW,目前排名第10位。关于一个较新的版本ClustalX的一篇1997年论文排名第28位。

开发ClustalW的团队来自德国海德堡的欧洲分子生物学实验室,当初设计的是让该程序在个人计算机,而非大型计算机上运行。不过,在来自私营公司的计算机科学家Julie Thompson于1991年加入实验室后,该软件改头换面。“原来的程序是生物学家写的——我很想找个委婉的方式来表达这一点,”Thompson说,她现在就职于法国遗传学、分子与细胞生物学研究所。Thompson重新编写了程序,帮助它应对当时产生的基因组数据的数量和复杂性,并将它改进得更易于使用。

BLAST和Clustal背后的团队对彼此的论文排名都存有好胜之心;不过他们之间的竞争十分友好,都柏林大学学院的生物学家、Clustal成员Des Higgins说。“BLAST是个颠覆性的工具,他们所获的每一次引用都是理所应得的。”

系统发生学


另一个被基因组测序拉高排名的领域是研究物种间演化关系的系统发生学。

排名第20位的论文介绍了邻接法,这种方法根据物种间演化距离的一些测度,比如遗传变异,来快速高效地找到大量生物在系统发生树上的位置。它将有亲缘关系的生物联系起来,一次一对,直到系统树解析完成。20世纪80年代,体质人类学家斋藤成也在加入根井正利在得克萨斯大学的实验室后帮助设计了这项技术,以研究人类演化和分子遗传学。当时,这两个领域正开始迎来信息爆炸。

“当时,我们体质人类学家面临的情况有点像今天的大数据,”目前任职于日本国立遗传学研究所的斋藤说。邻接法让研究人员有望在不耗尽计算资源的情况下,用大规模数据集构建出系统发生树。(在另一篇排名前100位的论文中,文中的Clustal程序算法也借鉴了这种策略。)

排名第41位的论文描述的是如何将统计学应用到系统发生学中。1984年,华盛顿大学的演化生物学家Joe Felsenstein改编了一种名为自助法(Bootstrap)的统计工具,以推断演化树不同部分的准确性。Bootstrap对一个数据集多次重复采样,然后使用得到的估计结果的方差来确定单个分支的置信度。虽然这篇论文累积引用次数的速度不快,但到了20世纪90年代至21世纪初,分子生物学家开始意识到在预测中使用这种技术的必要性后,它的流行程度大为上升。

Bootstrap的概念由斯坦福大学的统计学家Bradley Efron于1979年提出。Felsenstein认为这一概念远比自己的工作更基础,但他把这种方法应用在了解决生物学问题上,这意味着他的工作得以被更为广泛的研究者群体引用。Felsenstein获得的高引用数也是他当时忙得不可开交的结果,他说自己把所有内容都塞进了一篇论文里,而不是发表多篇有关相同主题的论文,后一种做法可能会稀释单篇论文获得的引用次数。“我没法就相同的东西再多写四篇论文,”他说。“这是因为我太忙了,而不是我特别有原则的缘故。”

统计学

芝加哥大学的统计学家兼统计史专家Stephen Stigler表示,虽然百强论文中有许多是关于统计学的,但“对我们统计学家来说,它们完全不是最重要的”,而是已被证明对广大科学家最有用的。

在很大程度上,这种交叉成功源于不断从生物医学实验室涌现的数据。例如,被引用最频繁的统计学论文(排名第11位)是美国统计学家Edward Kaplan和Paul Meier在1958年发表的,它能帮助研究人员找到某一群体(如临床试验的参与者)的生存模式。这篇论文介绍了现在被称为卡普兰-迈耶估计(Kaplan–Meier)的统计量。排名第二的统计学论文(居第24位)是英国统计学家David Cox在1972年发表的论文,他在文中进一步拓展了这种生存分析,将性别和年龄等因素包含在内。

卡普兰-迈耶论文是一匹黑马,一开始几乎没有获得任何引用,直到20世纪70年代,随着计算能力的飞速上升,让非计算机专家也能使用该方法后,情况才有改观。统计方法的简洁性和易用性也提高了这一领域论文的受欢迎程度。排名第29位的是英国统计学家Martin Bland和Douglas Altman发表的一篇论文,文中介绍了一种以可视化方式展现两种测量方法一致性的方法,现在称为Bland–Altman图。另一位统计学家比Bland和Altman早14年提出了相同的观点,但是Bland和Altman用易于使用的方式呈现了这种方法,从此为他们的论文赢来了大量引用。

百强论文中最老和最新的统计论文讨论的是相同的问题——数据多重比较,但它们来自极为不同的科学环境。美国统计学家David Duncan1955年发表的论文(排名第64位)能比较几个分组,而以色列统计学家Yoav Benjamini和Yosef Hochberg于1995年发表的有关控制错误发现率的论文(排名第59位)则适用于来自基因组学或神经科学成像等领域的数据,这些领域需要比较以数十万计的数据,其规模是Duncan难以想象的。正如Efron所说:“这展示了计算机起初缓慢,随后加快对统计理论和统计实践产生影响的过程。”

谷歌百强著作排名


Web of Science并非唯一可用的引用索引。谷歌学术也为《自然》编制了有史以来引用次数最高的前100部著作名单。其中三分之二为汤森路透未包括的书籍。“人们一直将焦点放在期刊上,但别忘了,书籍也自成一个世界,”领导谷歌学术团队的软件工程师Anurag Acharya说。在谷歌编制的名单中,排名第4位的是一本名为《分子克隆》(Molecular Cloning)的指南书,它是分子生物学实验室技术的基石。Acharya指出,谷歌的名单表明研究论文也能产生和书籍一样的影响力。在谷歌和汤森路透提供的两份排名中,排名前三的论文是一样的,只是各自顺序不太一样。


谷歌学术还编制了一份只包括论文的百强名单,其中许多与Web of Science的名单重合。不过,可以明显看到的是,只有三分之一出头的论文和前一份名单不一样,其中,有许多经济学和心理学论文上榜,这或许是因为相比较之下,这些领域的论文获得的来自书籍的引用更多。举例来说,排名第21位的是1976年发表的一篇关于公司管理行为的论文(M. C. Jensen & W. H. Meckling J. Financ. Econ. 3, 305–360; 1976),谷歌名单显示它获得了45,119次引用,但是Webof Science显示的引用次数仅为8,372次(谷歌给出的大部分引用次数都高于Web of Science,但是相差5倍很不寻常)。在新入围谷歌学术名单的论文中,排名最高的是Claude Shannon于1948年发表的论文(第4名),它标志着现代信息论的诞生(C. E. Shannon Bell Syst. Tech. J .27, 379–423; 1948。谷歌学术名单显示其引用次数为69,273次,而Web of Science给出的引用次数为10,239次——刚好跌出前100名。


谷歌学术编制的引用次数最高的前十篇论文(含书籍)名单

谷歌学术/WoS排名(整体)

谷歌学术/WoS被引次数

被引论文/书籍

1/2

223,131/213,005

Laemmli, U. K. Cleavage of structural proteins during the  assembly of the head of bacteriophage T4. Nature 227, 680–685 (1970).

2/1

192,710/305,148

Lowry, O. H., Rosebrough, N. J., Farr, A. L.  & Randall, R. J. Protein measurement with the folin phenol reagent. J. Biol. Chem193, 265–275 (1951).

3/3

190,309/155,530

Bradford, M. M. A rapid and sensitive method  for the quantitation of microgram quantities of protein utilizing the  principle of protein-dye binding. J. Anal. Biochem72, 248–254 (1976).

*

172,540

Sambrook, J., Fritsch, E. F. &  Maniatis, T. Molecular Cloning (1989).

*

110,822

Press, W. H. Numerical  Recipes: The Art of Scientific Computing (1992).

*

91,237

Yin, R. K. Case Study  Research: Design and Methods (1984).

*

73,818

Kuhn, T. S. The Structure  of Scientific Revolutions (1962).

*

70,807

Zar, J. H. Biostatistical  Analysis (1974).

4/在前150名

69,273/10,239

Shannon, C. E. A mathematical theory of  communication. Bell Syst. Tech. J27, 379–423 (1948).

*

67,824

Cohen, J. Statistical  Power Analysis for the Behavioral Sciences (1969).

*

64,956

Goldberg, D. E. Genetic  Algorithms in Search, Optimization, and Machine Learning (1989).

*

64,761

Glaser, B. G. & Strauss, A.  L. The Discovery of Grounded Theory: Strategies for Qualitative  Research (1967).

5/4

64,031/65,335

Sanger. F., Nicklen, S. & Couslon, A. R.  DNA sequencing with chain-terminating inhibitors. Proc. Natl Acad. Sci. USA 74, 5463–5467 (1977).

6/5

62,344/60,397

Chomczynski, P. & Sacchi, N. Single-step  method of RNA isolation by acid guanidinium thiocyanate phenol chloroform  extraction. J. Anal. Biochem. 162, 156–159 (1987).

*

61,929

Maniatis, T., Fritsch, E. F. &  Sambrook, J. Molecular Cloning: A Laboratory Manual (1982).

*

60,957

Nunnally, J. C., Bernstein, I. H.  & Berge, J. M. F. T. Psychometric Theory (1967).

*

58,915

Rogers, E. M. Diffusion of  Innovations (1962).

7/8

56,923/46,145

Becke, A. D. Density-functional thermochemistry. III. The role  of exact exchange. J. Chem. Phys. 98, 5648–5652 (1993).

8/7

54,365/46,702

Lee. C., Yang, W. & Parr, R. G.  Development of the Colle-Salvetti correlation-energy formula into a  functional of the electron density. Phys. Rev. B 37, 785–789 (1988).

*

54,067

Porter, M. E. Competitive  Advantage: Creating and Sustaining Superior Performance (1985).

9/15

53,696/36,132

Murashige, T. & Skoog, F. A revised  medium for rapid growth and bio assays with tobacco tissue cultures. Physiol. Plant. 15, 473–497 (1962).

10/17

53,423/34,532

Folstein, M. F., Folstein, S. E. &  McHugh, P. R. Mini-mental state — practical method for grading cognitive  state of patients for clinician. J. Psychiatr. Res. 12, 189–198 (1975).

*未包括在Web of Science中的书籍。《自然》无法找到谷歌学术记录为高引用的所有论文或书籍链接。以上数据由谷歌学术直接提供。


密度泛函理论(DFT)

无论是药物分子还个金属块,理论科学家想给物质建模时,一般会使用软件来计算材料电子的行为。掌握这一知识后,研究者就能了解材料的许多其它特性:比如蛋白质的反应性,或地球外核液态铁的导热性。

这种软件主要建立在密度泛函理论(DFT)的基础上,这一理论无疑是物理学领域被引最频繁的概念。在排名前100的论文中,有12篇与之有关,包括2篇位居前十的论文。牛津大学的材料物理学家Feliciano Giustino表示,DFT在本质上是一种使无法实现的数学运算变得简单的近似法。他说,为了研究硅晶体中的电子行为,研究人员需要考虑每一个电子、每一个原子核是如何与所有其它电子和原子核相互作用的,为此,他们需要分析10的21次方TB的数据——远远超过任何计算机可能达到的计算能力,而DFT将数据需求缩减至仅几百KB,标准笔记本电脑就能处理。

半个世纪前,理论物理学家Walter Kohn引领了DFT的发展,他的两篇相关论文目前分别排名第34和第39位。Kohn意识到,假设每一颗电子都作为被抹平的均值,而非单个个体对所有其它电子作出反应,他就能计算出系统的属性,比如最低能量态。这一理论涉及的数学运算在理论上十分直接明了:系统作为连续的流体运行,但每个点的密度都不一样。密度泛函理论由此得名。

然而,Giustino介绍,研究人员用了几十年时间才找到将该理论应用于现实材料的方法。在排名前100位的论文中,有两篇是关于构建最受研究者欢迎的DFT方法和软件包的技术方法的。其中一篇排名第8位,作者是加拿大达尔豪斯大学的理论化学家Axel Becke,另一篇排名第7位,作者是美国理论化学家Chengteh Lee、Weitao Yang和Robert Parr。1992年,计算化学家John Pople(他与Kohn共同获得了1998年的诺贝尔奖)在他广受欢迎的Gaussian软件包中纳入了DFT一种形式。

Becke表示,即使不完全理解该理论,软件用户也有可能引用原始理论论文。“(DFT的)理论、数学运算和计算机软件是专门的,是量子物理学家和化学家关注的对象,”他说。“但应用是无尽的。在基础层面上,DFT可用于描述化学、生物化学、生物学、纳米系统与材料的所有内容。地球上的一切都依赖电子的运动,因此,DFT确实是万事万物的基础。”


晶体学


20世纪70年代,德国哥廷根大学的化学家George Sheldrick开始编写软件辅助晶体结构的解析。回顾当时的情况,他说:“这种项目拿不到经费。我的工作是教化学,只在业余时间编写程序;我把它当成一种爱好。”但是,四十多年过去了,他编写的软件成为了定期更新的SHELX程序套件,现在已成为了最受欢迎的分析工具之一,用于解析穿过晶体的X射线散射图样,以揭示原子结构。

2008年后,SHELX的受欢迎程度愈发明显起来。当时,Sheldrick发表了一篇关于该系统历史的综述论文,并表示在使用任何SHELX程序时都可以将这篇论文作为一般引用。读者照做了。在过去6年里,这篇综述论文累积了将近38000次引用,跃居百强名单第13位,并且成为过去20年来发表的论文中排名最高的。

百强名单也包括了其它在晶体学和结构生物学中至关重要的其它工具。比如,介绍用于分析X射线衍射数据的HKL套件的论文(排名第23位);介绍用于分析蛋白质结构在几何学上是否正常的PROCHECK程序的论文(排名第71位);还有介绍用于描绘分子结构的两种程序的两篇论文(分别排名第82位和95位)。美国国立卫生研究院的数据科学副主管Philip Bourne表示,这些工具是确定晶体结构的基石。

排名第22位的是一篇非同寻常的1976年论文。作者Robert Shannon是化工巨头杜邦公司的一名研究人员,他编制了一系列不同材料离子半径的完整列表。伦敦帝国理工学院的材料科学家Robin Grimes表示,物理学家、化学家和理论家在查找有关离子大小的数值时(离子大小往往与物质的其它特性密切关联)仍会引用该论文。因此,这篇论文成为了有史以来正式引用次数最高的数据库。

“我们常常几乎不假思索地引用这类论文,” Grimes的一位研究同事Paul Fossati说。对于百强名单中的许多方法和数据库相关论文来说,情况也基本是这样。这份名单揭示了计算和大型数据集分析对研究的影响有多强大。但它也表明,对于位居引用次数高位的具体某一篇方法论文或数据库来说,其排名也取决于运气和环境。

耶鲁大学化学家Peter Moore表示,尽管如此,这也为研究人员上了一堂生动有力的课。“如果你想要的是引用次数,”他说,“那就设计一种让人们可以做他们想做的实验,或者更轻松地做实验的方法,这能让你获得远远多于发现宇宙奥秘的引用次数。”

本文来源于微信公众号“Nature自然科研”,经授权转载。


投稿、授权等请联系:[email protected]

您可回复"年份+月份"(如201510),获取指定年月文章,或返回主页点击子菜单获取或搜索往期文章。

赛先生为知识分子公司旗下机构。国际著名科学家文小刚、刘克峰担任《赛先生》主编。

我们相信,每个人都可以成为“赛先生”。


微信号:iscientists


长按图片识别二维码,关注我们

点击“阅读原文”,加入科学队长!