专栏名称: 解螺旋

解螺旋——医生科研最好的帮手。无论你是科研零基础，抑或初窥门径，你都可以在解螺旋获得极大的提升，从而面对基金、论文、实验游刃有余。解螺旋课堂是所有热爱科研技能学习的医生聚集地，解螺旋会员是医生科研全方位的贴心助手，加入我们，体验改变。

注意！这些句子和词上了Nature“黑名单”

解螺旋 · 公众号 · 医学 · 2017-04-06 19:04

正文

Discussion写作模板 | SCI作图 | qPCR曲线 | 自噬相关mTOR信号 | ELISA实验

作者：麦子（转载请注：解螺旋·医生科研助手）

瑞典的一组科研人说，跟100多年前相比，现在的科学论文文本，已经越发地没有穿透力了。好像的确如此呢。

随便找一篇Nature上的文章（Nature还常常将自己相对“亲民”的气质引以为荣），你总能在摘要中找到类似这样的句子：

Here we show that in mice DND1 binds a UU(A/U) trinucleotide motif predominantly in the 3' untranslated regions of mRNA, and destabilizes target mRNAs through direct recruitment of the CCR4-NOT deadenylase complex.

不过，瑞典那份调研说，学术论文难读的问题，还不仅仅在于类似例句中这样密密麻麻的术语。

卡洛林斯卡研究院的神经科学家，William Hedley Thompson，和他的同事们一起做了这份文献调研。他们分析了1881年到2015年间，在122种高分生物医学期刊上发表的70万篇英文论文的摘要。这份调研报告已于3月28日在BioRxiv上刊登了预印本。

芜草丛生的，还有一堆“科研黑话”，例如一些多音节词，本来没什么科技含义，却成了科研论文中的标配专用语。包括“robust”、 “significant”、 “furthermore” 和 “underlying”，虽然日常也能见到，但在科研论文中却异常普遍。这些词倒不是天生晦涩，但堆在一起，读着就让人头大。

小学四年级的词汇量？

Thompson和他的小伙伴们用TreeTagger软件分析文本，检测指标包括每个单词的音节，每个句子的单词数，以及一篇文章中有多少词不属于预设的常用词汇库（New Dale–Chall词汇表，简称NDC），即所谓的难词数量。

在此基础上计算了FRE分数和NCD分数，FRE越低可读性越差，后者反之。

分析结果显示，自1881年以来，文章的可读性是明显稳步下滑的。

为了看看文章摘要的可读性是否能代表全文的可读性，作者们又从PubMed下载了6家OA期刊的文章，约14万篇，同样计算了这两个分数。

结果显示，虽然摘要比全文难懂一些，但两者的相关性还是很高的（FRE：r =0.58, p < 10-15；NDC：r = 0.63, p < 10-15）。核密度估计图就展示了FRE评分：

作者们想，这究竟是为什么呢？

他们首先觉得，会不会共同作者越多，文章可读性就会越好一些。刚开始是观察到一点迹象，但随着时间的变化，这个趋势又没了。

作者数量和FRE评分随时间变化的关系

其次，他们也观察到，下图中NDC常用词汇表（2949个词，红色）、“科研黑话”（2140个词，蓝色）和常用科技术语（2949个词，绿色）在文章中出现的频率，也随时间出现了稳定的变化：

如果说，是人类科学知识的增长要求用到越来越复杂的术语，那么大概能解释常用词汇的减少和科技术语的增多。若果真如此，那么常用词汇库也许要扩充。

但这还是不能解释跟“科研黑话”越来越多有什么关系。他们还分析了几个颇具代表性的“黑话”随时间出现的频率：

最后作者们表示摊手。的确，文章难读懂的话，对公众理解、科学相关的政策制定都是个问题；而对于科研人员来说，同一成果的可重复性，也跟文章描述的研究方法是否明确易懂息息相关。

不过这份研究的分析技术也遭到了吐槽。

《读者的大脑》一书的作者，佛罗理达大学的Yellowlees Douglas指出，那个NCD常用词汇库，基本上代表了美国四年级学生的理解能力，才10岁左右，能不能用于科研文献的研究还是个问题。更有争议的是，用音节计数的方法来量化也太简单粗暴了，如此一来，“orange”和“praxis”是一样的。

西北大学研究科学出版趋势的物理学家LuísAmaral也说，1960年前的数据太少了，变数大，可靠性也不高；而1960年以后的趋势又不甚明显。

而且，要区分科技术语和行业黑话也不太容易。术语越来越多也未必是坏事，它反映了科技领域，出现了越来越多有用的技术和概念。比如“sequencing”，1980年之前它不是什么科技词汇，但现在它俯拾即是，又有谁抱怨呢？

装逼的句子结构

词汇只是一方面，可能真的不容易说清，但句子结构的确就是个大问题。用简短易懂的词汇也可以造出读不懂的句子，秘诀就是把语法全还给老师。

这也是Douglas的书中提到过的：读者希望有序地接触新概念，而不必翻来覆去地查找，这句话的这个动词是由哪个名词发出的，或者不得不手动疏理一个信息量巨大且复杂的句子。遇到术语再去查都没问题，但句子太复杂，你就只好一个人玩耍了。

不过，文章是否易懂，还要看它有没有给出足够且切题的信息。常常读文献的人可能会遇到，有的文章中，某些论证环节给跳过了，或者一些关键细节又漏掉了。犹其当你发现，不止你读不懂，专家们也一头雾水时，会不会可惜当初花这么多时间琢磨了一篇烂文。

这种流行趋势是怎么造成的呢？Douglas怀疑，许多文章的初稿都是刚入门的小师弟小师妹写的，他们本来就不会判断什么才是好文。读到了艰涩的文章，觉得“哇好高大上！我都看不懂！”然后千方百计啃下它（可能根本没啃下来），又赶紧去模仿它，于是写出了更加不明就里的文章，代代相传。

所以嘛，写文章为什么要追求装逼的词汇和句子。犹其是咱们本来就要辛苦学英文的，简直瞎折腾，瞎掺和。如果Douglas的怀疑是真相，那么简化科学语言的使命，就落到青椒们手上了呢→_→

至于哪里有好文可以模仿，Nature的顾问编辑Philip Ball建议先放下那只Nature，19世纪达尔文的作品不错，还有上世纪的演化生物学家Dawkins。另外，其他普通文学作品对培养语言鉴赏力也有帮助，比如小说家Dickens。

麦子觉得，要说19世纪末，《天演论》比《物种起源》要好读一些。不过那个时代的中译本，就会是这种专门为了区分鸿儒和白丁而搞出来的画风：

严复译的《天演论》第一段

彼时，白话文运动还没有到来。所以，一只中国的生科党穿越回19世纪末嘛，就变成外文不难家里难，好尴尬=_=

最后，不知大家有没有注意到，科研论文越来越难读，不是显而易见人尽皆知不言而喻且人神共愤的嘛，这帮神经科学家居然搞了数据，作了这么漂亮的图，还写了文章，好有格调！不做实验就能出成果啊！

参考资料：

1.It's not just you: science papers are getting harder to read

2.The Readability Of Scientific Texts Is Decreasing Over Time