Thompson和他的小伙伴们用TreeTagger软件分析文本,检测指标包括每个单词的音节,每个句子的单词数,以及一篇文章中有多少词不属于预设的常用词汇库(New Dale–Chall词汇表,简称NDC),即所谓的难词数量。
在此基础上计算了FRE分数和NCD分数,FRE越低可读性越差,后者反之。
分析结果显示,自1881年以来,文章的可读性是明显稳步下滑的。
为了看看文章摘要的可读性是否能代表全文的可读性,作者们又从PubMed下载了6家OA期刊的文章,约14万篇,同样计算了这两个分数。
结果显示,虽然摘要比全文难懂一些,但两者的相关性还是很高的(FRE:r =0.58, p < 10-15;NDC:r = 0.63, p < 10-15)。核密度估计图就展示了FRE评分:
作者们想,这究竟是为什么呢?
他们首先觉得,会不会共同作者越多,文章可读性就会越好一些。刚开始是观察到一点迹象,但随着时间的变化,这个趋势又没了。
作者数量和FRE评分随时间变化的关系
其次,他们也观察到,下图中NDC常用词汇表(2949个词,红色)、“科研黑话”(2140个词,蓝色)和常用科技术语(2949个词,绿色)在文章中出现的频率,也随时间出现了稳定的变化:
如果说,是人类科学知识的增长要求用到越来越复杂的术语,那么大概能解释常用词汇的减少和科技术语的增多。若果真如此,那么常用词汇库也许要扩充。
但这还是不能解释跟“科研黑话”越来越多有什么关系。他们还分析了几个颇具代表性的“黑话”随时间出现的频率:
最后作者们表示摊手。的确,文章难读懂的话,对公众理解、科学相关的政策制定都是个问题;而对于科研人员来说,同一成果的可重复性,也跟文章描述的研究方法是否明确易懂息息相关。
不过这份研究的分析技术也遭到了吐槽。
《读者的大脑》一书的作者,佛罗理达大学的Yellowlees Douglas指出,那个NCD常用词汇库,基本上代表了美国四年级学生的理解能力,才10岁左右,能不能用于科研文献的研究还是个问题。更有争议的是,用音节计数的方法来量化也太简单粗暴了,如此一来,“orange”和“praxis”是一样的。
西北大学研究科学出版趋势的物理学家LuísAmaral也说,1960年前的数据太少了,变数大,可靠性也不高;而1960年以后的趋势又不甚明显。
而且,要区分科技术语和行业黑话也不太容易。术语越来越多也未必是坏事,它反映了科技领域,出现了越来越多有用的技术和概念。比如“sequencing”,1980年之前它不是什么科技词汇,但现在它俯拾即是,又有谁抱怨呢?