相信你肯定听过这样的说法:学英语不用记那么多单词,学好常用的那几千个就足够了,老外常用的单词也就那么几个而已。事实真的是如此吗?究竟多少词汇量才够用?
在继续讨论这个话题之前,我们需要了解一个概念:词汇覆盖率。
词汇覆盖率是指文本中有多大比例的词汇出自于特定词表。因为这些词表都是根据词汇量水平按照词频分布而成,所以词汇覆盖率与词汇量水平密切相关。词汇覆盖率与阅读理解的水平也有直接联系。国外语言学家 Laufer [1]在1997年的研究表明二语读者需要掌握文章中所有词汇的95%,才能对文章获得大致的理解。即,如果要独立完成阅读任务,必须要做到平均每20个词中只有一个词不认识。如果要做到充分理解,则需要掌握文章中所有词汇的98%及以上。另一位研究者 Carver [2]指出,对于英语母语者,词汇覆盖率也要达到98%-99%才能充分理解文本。也就是说,如果要实现有效阅读,词汇覆盖率至少要达到95%。
回到前面的问题,只掌握常见的几千个单词是否够用呢?这里我给“够用”下一个定义:能看懂《经济学人》,《时代周刊》,《纽约时报》等外刊,能听得懂BBC,VOA等新闻以及英语演讲。
为了验证这个说法是否靠谱,我做了一些统计。
这里以读懂《经济学人》所需词汇量为例,介绍一下统计过程。
统计需要用到的工具和材料:
1.AntConc
AntConc 是由在日本早稻田大学执教的英国学者 Laurence Anthony 研发的一款语料库检索软件。它可以应用于中小规模的词频统计、语料检索,信息筛选等。我在之前的文章怎样快速入门考研高频词汇?中曾经介绍过该软件的用法。软件的下载地址是:http://www.laurenceanthony.net
2.BNC 词表
BNC 是英国国家语料库 (The British National Corpus) 的简称,该语料库是目前网络上可直接使用的最大语料库之一,也是目前世界上最具代表性的当代英语语料库之一。英国国家语料库针对英语词频统计给出了一个BNC 15000 词表。这份词表覆盖了英国本土出版物语料中最常使用的15000个单词。这份 BNC 词表的下载地址是:http://www.audiencedialogue.net/susteng.html
3.经济学人文本
《经济学人》是英国经济学人集团发行的一本政经老牌杂志,其文章用词风格和难度可以作为外刊的典型代表。这次统计我随机选取了2016年的四期杂志,总词数为367992。为了保证分析统计结果的准确性,对其中不影响阅读的1327个专有名词以及简写进行了删除,因此总词数为366665。
本次统计我从BNC词表中按照词频分别选取了前6000,前8000,前10000,前12000以及前15000个单词,利用 AntConc 软件的词表筛选功能,统计出366665词的《经济学人》文本中,有多少词落在各个词表的范围。得到的统计结果如下:
从统计图中可以看出,《经济学人》的36万多词文本中,只有 92.57% 的单词落在BNC词表中前8000词区间中。也就是说,假如你的词汇量是8000,那么你只能读懂《经济学人》文本的92.57%,按照上面的词汇覆盖率标准,这样的覆盖率并不能保证顺利理解文本。如果你的词汇量达到了10000,那么你大概可以读懂 95.05%的《经济学人》,基本可以理解文本内容。如果词汇量达到了15000,你的词汇覆盖率会上升到97.92%,基本达到了充分理解的程度。
由此看来,“掌握几千个单词就够用”这种说法在阅读中并不靠谱。即使你词汇量达到8000,读起野生外刊仍然会捉襟见肘。如果想要比较舒服地读懂外刊,那么你的词汇量最好不要低于12000。
那么,熟练掌握几千个单词对听力够用吗?答案也是否定的。认真听过BBC以及VOA的同学应该会留意到,这些听力材料的难度并不比原版外刊低多少,要听懂它们仍然需要10000以上的词汇量。
关于词汇量与听力的关系,这里还有一个例子可以佐证。
下面是马丁·路德·金的著名演讲 I have a dream 演讲稿片段。由于当时面对的听众是广大受教育程度不高的黑人底层民众,演讲稿会相对比较“平易近人”,以确保每个人都能够听懂。但这样的演讲稿仍然出现了不少“超纲词”。
Five score years ago, a great American, in whose symbolic shadow we stand today, signed the Emancipation Proclamation. This momentous decree came as a great beacon light of hope to millions of Negro slaves who had been seared in the flames of withering injustice. It came as a joyous daybreak to end the long night of their captivity.
But one hundred years later, the Negro still is not free. One hundred years later, the life of the Negro is still sadly crippled by the manacles of segregation and the chains of discrimination. One hundred years later, the Negro lives on a lonely island of poverty in the midst of a vast ocean of material prosperity. One hundred years later, the Negro is still languished in the corners of American society and finds himself an exile in his own land. And so we've come here today to dramatize a shameful condition.
上面加粗的大部分单词词频都落在前10000词以外,换句话说,如果你的词汇量不过万,那么你会有很大几率听不懂马丁·路德·金的演讲。
因此,仅仅掌握几千个单词并不足够。我们需要的,是更大的词汇量。那么,多大的词汇量才算“够用”呢?
下面是词汇量测试网站 http://www.testyourvocab.com 统计出的英语母语人士词汇量分布表:
可以看出,24岁左右的成年人词汇量中位数接近25000,考虑到词汇测试的误差,这一数字应该落在20000到25000区间。
因此,真正够用的词汇量应该尽可能接近或达到英语成年母语者的中位数水平,即在两万到两万五左右。当然,词汇积累并不是一件一劳永逸的事情,每个人的词汇量会随着英语学习时间的增加而不断增长,这是一个持续一生的过程。
附:
词汇量测试网站:http://www.testyourvocab.com
关于词汇量提升,可参考文章:你是怎样将词汇量提升到2万以上的?
参考文献:
[1] Laufer, B. How much lexis is necessary for reading comprehension? [J]. In P. Arnaud and H. Bejoint (ed.). 1992, 13: 126-132.
[2] Read, J. Assessing Vocabulary [M]. Cambridge: Cambridge University Press