专栏名称: 解螺旋
解螺旋——医生科研最好的帮手。无论你是科研零基础,抑或初窥门径,你都可以在解螺旋获得极大的提升,从而面对基金、论文、实验游刃有余。解螺旋课堂是所有热爱科研技能学习的医生聚集地,解螺旋会员是医生科研全方位的贴心助手,加入我们,体验改变。
51好读  ›  专栏  ›  解螺旋

注意!这些句子和词上了Nature“黑名单”

解螺旋  · 公众号  · 医学  · 2017-04-06 19:04

正文

Discussion写作模板 | SCI作图 | qPCR曲线 | 自噬相关mTOR信号 | ELISA实验

作者:麦子(转载请注:解螺旋·医生科研助手)


瑞典的一组科研人说,跟100多年前相比,现在的科学论文文本,已经越发地没有穿透力了。好像的确如此呢。

 

随便找一篇Nature上的文章(Nature还常常将自己相对“亲民”的气质引以为荣),你总能在摘要中找到类似这样的句子:

 

Here we show that in mice DND1 binds a UU(A/U) trinucleotide motif predominantly in the 3' untranslated regions of mRNA, and destabilizes target mRNAs through direct recruitment of the CCR4-NOT deadenylase complex.

 


不过,瑞典那份调研说,学术论文难读的问题,还不仅仅在于类似例句中这样密密麻麻的术语。

 

卡洛林斯卡研究院的神经科学家,William Hedley Thompson,和他的同事们一起做了这份文献调研。他们分析了1881年到2015年间,在122种高分生物医学期刊上发表的70万篇英文论文的摘要。这份调研报告已于3月28日在BioRxiv上刊登了预印本。

 

芜草丛生的,还有一堆“科研黑话”,例如一些多音节词,本来没什么科技含义,却成了科研论文中的标配专用语。包括“robust”、 “significant”、 “furthermore” 和 “underlying”,虽然日常也能见到,但在科研论文中却异常普遍。这些词倒不是天生晦涩,但堆在一起,读着就让人头大。

 

小学四年级的词汇量?

 

Thompson和他的小伙伴们用TreeTagger软件分析文本,检测指标包括每个单词的音节,每个句子的单词数,以及一篇文章中有多少词不属于预设的常用词汇库(New Dale–Chall词汇表,简称NDC),即所谓的难词数量。

 

在此基础上计算了FRE分数和NCD分数,FRE越低可读性越差,后者反之。

 

分析结果显示,自1881年以来,文章的可读性是明显稳步下滑的。



为了看看文章摘要的可读性是否能代表全文的可读性,作者们又从PubMed下载了6家OA期刊的文章,约14万篇,同样计算了这两个分数。

 

结果显示,虽然摘要比全文难懂一些,但两者的相关性还是很高的(FRE:r =0.58, p < 10-15;NDC:r = 0.63, p < 10-15)。核密度估计图就展示了FRE评分:



作者们想,这究竟是为什么呢?

 

他们首先觉得,会不会共同作者越多,文章可读性就会越好一些。刚开始是观察到一点迹象,但随着时间的变化,这个趋势又没了。

 

作者数量和FRE评分随时间变化的关系

 

其次,他们也观察到,下图中NDC常用词汇表(2949个词,红色)、“科研黑话”(2140个词,蓝色)和常用科技术语(2949个词,绿色)在文章中出现的频率,也随时间出现了稳定的变化:



如果说,是人类科学知识的增长要求用到越来越复杂的术语,那么大概能解释常用词汇的减少和科技术语的增多。若果真如此,那么常用词汇库也许要扩充。

 

但这还是不能解释跟“科研黑话”越来越多有什么关系。他们还分析了几个颇具代表性的“黑话”随时间出现的频率:



最后作者们表示摊手。的确,文章难读懂的话,对公众理解、科学相关的政策制定都是个问题;而对于科研人员来说,同一成果的可重复性,也跟文章描述的研究方法是否明确易懂息息相关。

 

不过这份研究的分析技术也遭到了吐槽。

 

《读者的大脑》一书的作者,佛罗理达大学的Yellowlees Douglas指出,那个NCD常用词汇库,基本上代表了美国四年级学生的理解能力,才10岁左右,能不能用于科研文献的研究还是个问题。更有争议的是,用音节计数的方法来量化也太简单粗暴了,如此一来,“orange”和“praxis”是一样的。

 

西北大学研究科学出版趋势的物理学家LuísAmaral也说,1960年前的数据太少了,变数大,可靠性也不高;而1960年以后的趋势又不甚明显。

 

而且,要区分科技术语和行业黑话也不太容易。术语越来越多也未必是坏事,它反映了科技领域,出现了越来越多有用的技术和概念。比如“sequencing”,1980年之前它不是什么科技词汇,但现在它俯拾即是,又有谁抱怨呢?

 

装逼的句子结构

 

词汇只是一方面,可能真的不容易说清,但句子结构的确就是个大问题。用简短易懂的词汇也可以造出读不懂的句子,秘诀就是把语法全还给老师。

 

这也是Douglas的书中提到过的:读者希望有序地接触新概念,而不必翻来覆去地查找,这句话的这个动词是由哪个名词发出的,或者不得不手动疏理一个信息量巨大且复杂的句子。遇到术语再去查都没问题,但句子太复杂,你就只好一个人玩耍了。

 

不过,文章是否易懂,还要看它有没有给出足够且切题的信息。常常读文献的人可能会遇到,有的文章中,某些论证环节给跳过了,或者一些关键细节又漏掉了。犹其当你发现,不止你读不懂,专家们也一头雾水时,会不会可惜当初花这么多时间琢磨了一篇烂文。

 

这种流行趋势是怎么造成的呢?Douglas怀疑,许多文章的初稿都是刚入门的小师弟小师妹写的,他们本来就不会判断什么才是好文。读到了艰涩的文章,觉得“哇好高大上!我都看不懂!”然后千方百计啃下它(可能根本没啃下来),又赶紧去模仿它,于是写出了更加不明就里的文章,代代相传。

 

所以嘛,写文章为什么要追求装逼的词汇和句子。犹其是咱们本来就要辛苦学英文的,简直瞎折腾,瞎掺和。如果Douglas的怀疑是真相,那么简化科学语言的使命,就落到青椒们手上了呢→_→

 

至于哪里有好文可以模仿,Nature的顾问编辑Philip Ball建议先放下那只Nature,19世纪达尔文的作品不错,还有上世纪的演化生物学家Dawkins。另外,其他普通文学作品对培养语言鉴赏力也有帮助,比如小说家Dickens。

 

麦子觉得,要说19世纪末,《天演论》比《物种起源》要好读一些。不过那个时代的中译本,就会是这种专门为了区分鸿儒和白丁而搞出来的画风:

 

严复译的《天演论》第一段

 

彼时,白话文运动还没有到来。所以,一只中国的生科党穿越回19世纪末嘛,就变成外文不难家里难,好尴尬=_=

 

最后,不知大家有没有注意到,科研论文越来越难读,不是显而易见人尽皆知不言而喻且人神共愤的嘛,这帮神经科学家居然搞了数据,作了这么漂亮的图,还写了文章,好有格调!不做实验就能出成果啊!

 

参考资料:

1.It's not just you: science papers are getting harder to read

2.The Readability Of Scientific Texts Is Decreasing Over Time