一、单词的由来
语言并不神秘。它的本质就是事件与发音之间的对应关系。在人类开口说话之前,各种各样的动物语言早就已经无处不在了。
假如有一只鸟,在面临危险时总是发出“咕咕”声,在发现食物时总是发出“啾啾”声,而在求偶时总是发出“喳喳”声。只要这种对应关系是确定的,那么在广义上,我们就可以说这是鸟儿的语言。
可能有人不同意这个定义。历来有一种观点,认为人类与动物之间存在着一条语言鸿沟。人类拥有发达的语言系统,而动物则一点儿也没有。
在这些人看来,鸟类在不同情况下的鸣叫,只是与瞳孔放大或口水分泌一样的自然发应。所以要承认它是语言,必须还要证明它有主动地把信息传递给同伴的作用。
研究证明,非洲的长尾黑鄂猴,至少可以用固定的10种声音来表达10种意思。科学家用重播录音的方法证明来其有效性。播放“鹰来了”,猴子们会下树。播放“豹来了”,猴子们会上树。播放“高级成员”,猴王及其亲属会往喇叭方向看。播放“低级成员”,其它的猴子会向喇叭方向看。
这样看来,即使按照狭义的标准,我们也不得不承认长尾黑鄂猴拥有语言。不过动物语言的发展水平到此为止。后续的发展就必须建立在人类的智慧水平上了。
现在我们可以设想一下,如果用长尾黑鄂猴的语言来表达更多的信息,其结果大致是这样的:
老虎来了,发A声。
老虎走了,发B声。
狮子来了,发C声。
狮子走了,发D声。
豹子来了,发E声。
豹子走了,发F声……
如果猛兽的种类和行为再多一些,很快发音就不够用了。当然,发音“不够用”是一个相对问题。理论上只要增加音节,发音总量是可以无限增加的。“啊呀”,“啊呀啊”,“啊啊啊呀”,“呀呀啊啊啊”……
但是,使用更长音节的代价是,语言的构造和学习更加困难,表达效率也更低下。可能你一大段话还没喊完,老虎已经扑到面前了。所以语言进化的历史,就是人类千方百计,不断提升发音表达效率的历史。
那么,现在的问题就变成了要怎样去节约发音。人类的智慧高于其它动物,所以他们能够分析这些事件的内涵联系。
他们发现“老虎来了”和“老虎走了”有一个共同点,说的都是“老虎”在做动作。而“狮子来了”和“豹子来了”也有一个共同点,说的都是一种猛兽“来了”。
把这些事件的内涵共同点提取出来,就成了单词。前一个就是名词“老虎”,后一个就是动词“来了”。
单词的发明是人类语言脱离动物语言的一大飞跃。只要命名了N种动物,以及这些动物的M种行为,就可以用N+M种发音来对应N*M种事件。
比如在上面那个例子当中,一共有“老虎”、“狮子”、“豹子”3种动物,N=3,每种动物有“来了”和“走了”2种行为,M=2,那么只需要N+M=5个单词,就可以表达N*M=6种情况,5比6节约了17%的发音。
不要小看这17%,需要表达的内容越多,使用单词带来的效率提升就越大。如果N=100,M=20,N+M=120,N*M=2000,那么单词系统对发音的节约就达到了94%。这个数字已经很惊人了吧。实际上,人类语言所能表达的事物又何止千万呢。
反过来说,如果没有那么多东西需要表达,那么N和M的数值就都很小。这时候使用单词带来的效率提高就不是很明显,也许单词系统就不会产生。
原始爱斯基摩语就是一种没有单词系统的语言。所有意思都是直接用一组超长音节来表示的。比如“我们走”就是pisuktugut,“带着狗走”就是qinmiqtuqtuq,诸如此类。
估计是北极的环境过于单调,需要表达的意思太少。所以以前的爱斯基摩人宁可直接运用复杂但是现成的句子,也不愿意去区分什么单词组合。
在语言学上,像这类没有单词系统的语言被称为“抱合语”。
二、单词的屈折
如果把语言的进化比作万里长征,那么单词的出现只是迈出了第一步。接下来的演绎又将如何呢?我们现在来看这样2个事件:
A
:武松杀死了老虎。
B
:武松被老虎杀死
了。
首先,还是按照单词由来的逻辑,把这几个事件的内涵共同点提取出来。那么很快3个单词就出现了:“武松”、“老虎”、“死了”。
但是这里存在一个很大的问题。你想象一下,如果有一个原始人,他可不懂什么语法,就在那儿变着法儿呼喊着这3个单词:
X
:“老虎”“死了”“武松”。
Y
:“武松”“老虎”“死了”。
Z:
“死了”“老虎”“武松”。
……
你会怎么理解?到底是武松打虎,还是虎打武松?鬼才知道。
这时候,最简单的办法就是告诉这个原始人,谁活着,谁就是“牛B”,谁死了谁就是“弱B”。然后原始人就重新开始喊了:
X
:“弱B老虎”“死了”“牛B武松”。
Y
:“牛B武松”“弱B老虎”“死了”。
Z:
“死了”“弱B老虎”“牛B武松”。
……
这一回我们终于懂了。虽然听起来还是有点儿费力,但是意思很明确,肯定是武松打死了老虎,而不可能是反过来。
总结起来,我们就是在“武松”和“老虎”这两个单词上附加一些变化。当它处于主动地位时,就附加上“牛B”的发音。当它处于被动地位时,就附加上“弱B”的发音。前者就叫做名词的“主格”,后者就叫做名词的“宾格”。
当然,除了名词可以有格的变化,其它单词也可以有各种形态变化。在语言学上,单词的形态变化被称为“屈折”。进化到屈折这一步的语言,被称为“屈折语”。
“屈折语”家族比“抱合语”大得多。拉丁语是其中比较典型的一种。我们来看一个拉丁语的例子(
灰字可略过
)。
在拉丁语中,父亲实施动作时称为pater(主格),父亲接受动作时称为patrem(宾格),儿子实施动作时称为filius(主格),儿子接受动作时称为filium(宾格),动词我们这里只举一个例子amat,意思是爱。
如果把父亲的“主格”和儿子的“宾格”放在一起,3个单词任意排列组合,得到的6句话都是一个意思,即父亲爱儿子。
如果把儿子的“主格”和父亲的“宾格”放在一起,得到的6句话就都是儿子爱父亲
(灰字可略过)
。
父亲爱儿子
|
儿子爱父亲
|
Pater amat filium.
|
Filius patrem amat.
|
Pater filium amat.
|
Filius amat patrem.
|
Filium amat pater.
|
Patrem amat filius.
|
Filium pater amat.
|
Patrem filius amat.
|
Amat pater filium.
|
Amat patrem filius.
|
Amat filium pater.
|
Amat filius patrem.
|
在拉丁语中,所有的信息都通过词汇的屈折来表达。句式结构不传递任何信息。但是很明显,每个句子中的主宾结构都是对应的,父亲为“主格”等于已经说明儿子为“宾格”,反之亦然。
所以2个单词同时进行屈折的结果是,要么屈折相互匹配,则总有
1
条信息是冗余的,要么屈折不能相互匹配,则全句的意思无法理解。
拉丁语的这种特性是比较原始的,但也不无好处。因为拉丁语的使用环境比较混乱,前承波斯语、希腊语,后启罗曼语、日耳曼语。各种语言相互借词,拼读极易混乱。
这时候,多处屈折可以相互验证,冗余信息起到复查的作用。一旦发现屈折不匹配,读者就可以警觉起来,回头去考证这句话到底哪里出了问题,而不会轻易地误解误信。
凯撒大帝那句著名的口号“Veni!Vidi!Vici!”,意思是“我来了!我看见了!我征服了!”。
这3个单词,从外形上看极为简洁,但内涵其实相当繁复,因为每个词都采用相同的屈折,等于是把“直陈语气+主动语态+第一人称单数+过去时态……”的信息重复了3遍。
为什么这样说?请看后续的分析。
三、从屈折到黏着
人类对事件进行分析,发明了单词。人们又对单词进行分析,发明了屈折。下一步,很自然地是对屈折进行分析了。
拉丁语的屈折是极其丰富的,它有6种时态,6种人称,3种语气和3种语态。比如上面提到过的amat,它是表达“爱”这个意思的现在时形态+第三人称单数+直陈语气+主动语态。
区区4个字母,表达出这么多层意思,好像很简洁。但是这种简洁是有代价的。
我们把amat的屈折不完全列表如下
(灰字可略过)
:
直陈式主动语态
|
现在时
|
过去进行时
|
将来时
|
现在完成时
|
过去完成时
|
将来完成时
|
第一人称单数
|
amō
|
amabam
|
amabō
|
amī
|
ameram
|
amerō
|
第二人称单数
|
amas
|
amabās
|
amabis
|
amistī
|
amerās
|
ameris
|
第三人称单数
|
amat
|
amabat
|
amabit
|
amit
|
amerat
|
amerit
|
第一人称复数
|
amamus
|
amabāmus
|
amabimus
|
amimus
|
amerāmus
|
amerimus
|
第二人称复数
|
amatis
|
amabātis
|
amabitis
|
amaistis
|
amerātis
|
ameritis
|
第三人称复数
|
amant
|
amabant
|
amabunt
|
amērunt
|
amerant
|
amerint
|
还有:
直陈式被动语态
|
现在时
|
过去进行时
|
将来时
|
现在完成时
|
过去完成时
|
将来完成时
|
第一人称单数
|
amar
|
amabar
|
amabor
|
amatus
|
amatus
|
amatus
|
第二人称单数
|
amaris
|
amabāris
|
amaberis
|
amatus
|
amatus
|
amatus
|
第三人称单数
|
amatur
|
amabātur
|
amabitur
|
amatus
|
amatus
|
amatus
|
第一人称复数
|
amur
|
amabāmur
|
amabimur
|
amavī
|
amavī
|
amavī
|
第二人称复数
|
amaminī
|
amabāminī
|
amabiminī
|
amavī
|
amavī
|
amavī
|
第三人称复数
|
amantur
|
amabantur
|
amabuntur
|
amavī
|
amavī
|
amavī
|
还有……算了。
以上洋洋洒洒,竟然还只是1个动词的变化。是不是很有点触目惊心的感觉?难怪在中世纪欧洲,凡是能够掌握拉丁语的都可以算是大学问家。拉丁语如此,其它“屈折语”也都有类似的问题。
不过一门语言存在的意义,绝不能仅仅是供少数精英秀智商之用。一方面,人类语言需要表达的意思确实越来越复杂,要求越来越精细。另一方面,人类的记忆力极限又要求词汇屈折的复杂度又不能无限增加。在这种情况下,“屈折语”已经走进了死胡同,人类语言的进化必须得另辟蹊径。
如何另辟蹊径?我们还是举一个例子来说明。为方便起见,我们只看3种时态:现在时,过去时和将来时,以及2种语态:主动和被动。
拉丁语相关的语法规则如下
(灰字可略过)
:
规则1:动词-t结尾改为-erat结尾,表示过去时态。
规则2:动词附加后缀ur,表示被动语态。
规则3:动词-t结尾改为-bit结尾,表示将来时态。
规则4:动词附加后缀us,表示过去时+被动语态。
规则5:动词-t结尾改为-bitur结尾,表示将来时+被动语态。
结果如下表:
|
现在时
|
过去时
|
将来时
|
主动
|
amat
|
amerat
|
amabit
|
被动
|
amatur
|
amatus
|
amabitur
|
对应6种不同的情况,拉丁语就指定了6种屈折,形态各自完全不同。上面那些庞大的表格就是这样产生的。作为对照,我们再来看英语是怎么处理这些时态语态的
(灰字可略过)
:
规则1:动词附加后缀ed,表示过去时态,其中was是be的过去式。
规则2:动词之前增加will,表示将来时。
规则3:动词之前增加be动词,表示被动语态。
这样处理的结果就是:
|
现在时
|
过去时
|
将来时
|
主动
|
love
|
loved
|
will love
|
被动
|
be loved
|
was loved
|
will be loved
|
英语的规则和结果都明显比拉丁语简洁。这里面关键的一点,就是英语用前后缀的方法,实现了屈折的“可叠加”。
英语的规则1和规则3的叠加,代替了拉丁语中的规则4。英语的规则2和规则3叠加,代替了拉丁语中的规则5。
在这里,N+M式的节约效应再一次出现。对应3种时态和2种语态,拉丁语设置了2*3=6种屈折。英语则设置了3种时态前后缀和2种语态前后缀。
因为前后缀之间可以相互叠加,所以这2+3=5种前后缀就可以把拉丁语的6种屈折全都表达出来。而且正如前面已经指出过的,N和M的数字越大,节约效应就越强。
把屈折的规律提取出来,设置为前后缀,运用时就像是
黏着在词根上一样,还可以相互叠加。采用这种语法的语言称为“黏着语”。
用“前后缀组合”的方式表达屈折,相比于对应每一种情况分别设定,显然大大提高了效率,更有条理,从而也更容易理解。
人类语言的进化,至此又进一步。
四、英语的分析化
相比于拉丁语,英语实现了大量的黏着化,提高了效率。但是英语也保留了许多特殊的屈折方式,并没有完全进化成“黏着语”。
比如所有名词都没有主、宾格了,就剩下“你、我、他”3个代词还有。所有的动词都没有人称变化了,偏偏第三人称单数还有。
倒是像日本、土耳其这样的新兴民族国家,借着近代化的浪潮改革语言。一步到位实现了完全的黏着化。
其实这也容易理解,城市里最光鲜的建筑一定是新造的,百年老店再怎么改建也不可能脱胎换骨。
我们在前面已经阐明,语言进化的动力来自N+M的节约效应。屈折形式越多,N和M的数值越大,节约效果就越明显。
拉丁语的屈折多如牛毛,实行黏着化的潜在收益很大。但是英语的名词已经基本没有格,语态只剩下2种,时态也基本黏着化了。所以英语进一步实行完全黏着化的收益并不明显。
如果英语不去朝着黏着化去发展,难道就在原地踏步吗?不太可能。近代以来,英语承载着最沉重也最精密的人类思想交流,它当然在发展。只不过它不再是利用“黏着化”来提高效率,而是走上了“分析化”的道路。
我们先来看几个英语“分析化”的例子。
还记得拉丁语那6句话1个意思的“父亲爱儿子”么?在英语里,它只有:father loves son这一种说法。谓语loves前面的就是主语,后面的就是宾语。把语句的顺序定死,主格和宾格的屈折直接就省掉了,连黏着化也用不着。
再来看猫的尾巴,古典的表达应该是cat's tail,但是在实践中直接称cat tail即可。因为只能是猫有尾巴,不可能是尾巴有猫,名词直接当形容词用,在这里属格也省了。
同理,size of the shoe,通常只说shoe size就可以了,肯定没人会理解错。
不仅英语单词的屈折可以变化,连句子成份也可以参与变化。比如let it go是个句子,但如果把it省略变成let go,就可以当动词使用。
再比如2个介词应该不能连续使用,但是go on这个词组通常被视为一个单词,于是go on to do也能够成立了。
这样的例子还能举出很多很多。甚至汉语中的“好久不见”,也被借入到英语,成了long time no see,完全无语法可言,但是简洁又形象。
我们之前所说的语言进化,都是从单词到屈折,再从屈折到黏着。而所谓“分析化”,说白了,就是跳出这条进化路径。
既不要黏着,也不要屈折,直接把单词“拼接”在一起。不讲究什么语法逻辑。只要大家都认,就行。
英语的“分析化”,其实是英国国势变迁的一个结果。随着英国成为日不落帝国,英语成为了国际通用语言,越来越多的外国人,在世界的各个角落里,使用着带有他们母语风格的或者干脆是临时创造的英语。
这个过程极大地丰富了英语的表达方法。而这些“创造”中能够留存下来,得到大家公认的,通常就是那些最简洁的表达。
所以“分析化”的本质就是用经验代替规则。而它的根本追求就是一条:更高的效率。
在印欧语系的各种语言中,英语的“分析化”程度是最高的,语法特例也是最多的。曾经有一个语言学的笑话,说的是欧洲大陆的各国语言群起而挖苦英语。
西班牙语嘲笑英语读音乱。因为西语的发音与拼写一一对应,单词本身就是音标。德语嘲笑英语拼写乱。因为德语的拼写非常规则,每个音节都很清楚。法语嘲笑英语语法乱,因为法语的语法既精确又严密,绝不允许擅越雷池半步。
不过,无论欧陆语言笑得多么开心。稳坐世界通用语宝座的语言始终是英语,而不是它们。
因为英语“分析化”背后的思路就是允许习惯大于语法,依赖实践经验而不是顶层设计。只要不影响理解,又可以提高效率,任何改进都可以接受。也只有这样,才能够达到“兼收并蓄,海纳百川”的境界。也只有这样,才能与它世界通用语的地位相匹配。
在宏观上,“分析化”的思路与英美法系的判例法思想是相通的。英语国家自下而上地积累判例,欧陆国家自上而下地推行法典。
前者处在科技、社会、文化的领先位置,最优先的追求是灵活和创造。后者始终处在追赶者的位置,有机会去总结和学习,因而可以追求逻辑上的精美。
五、大道至简
“黏着化”,从屈折发展而来,自上而下,逻辑一脉相承,就是有点儿“不接地气”。
“分析化”,建立在使用者的经验和共识之上,自上而上,简洁有效率,但是又显得缺乏章法。
这两者到底哪一种才是人类语言进化的最终方向?千百年来,语言学的研究汗牛充栋,却没争出个所以然来。下面我们换个视角,看看IT技术的发展能不能给我们一点儿启发。
现代科学家们曾经长期致力于机器翻译领域,希望能够让电脑“读懂”人类语言。一开始他们尝试以单词为砖头,语法为图纸,像建造大楼一样,一砖一瓦地去建立理解。但是很快他们发现这种运算的复杂度接近无穷大。
因为语言的理解,首先是建立在对现实世界的理解上的。就像前面那个“猫有尾巴”还是“尾巴有猫”的例子。用不着在语法里作相关规定,作者在说话的时候,已经假设读者具备关于现实世界的基本常识。
其次,理解也是建立在语篇和语境上的。比如一长段话最后来一句“怎么样”,跟先来一句“怎么样”后面接一长段话,完全是两个效果。也可能某句话单独拿出来的话,缺主语缺谓语,完全不能理解。但是跟其它句子放在一起就又能理解了。
最后,理解还是建立阅读者的体验上的。同样的一个“好”字,只说1遍是这个意思,但是连续重复3遍可能就成了另一个意思了。