专栏名称: Something about Everything
目录
相关文章推荐
51好读  ›  专栏  ›  Something about Everything

一个玩得停不下来的Google神器:Ngram

Something about Everything  · 知乎专栏  ·  · 2015-08-16 16:08

正文

你想知道某个词在16世纪以来8种语言的800多万册书中出现的频率是如何变化的吗?Google Ngram可以满足你~ 这是Google Books下的一个丧心病狂的项目。他们极其暴力地扫描了从1500年到2008年之间出版的8116746册书(据估计占人类历史上所有出版书目总数的6%),然后进行了OCR识别,建成了世界上最大的电子书数据库,然后他们又通过一系列算法从万亿级别的原始数据中识别出单个的词语和短语,构成了一个语料库(详细的方法论请看这里: aclweb.org/anthology/P/ )。8种语言包括英语、法语、德语、意大利语、西班牙语、俄语、希伯来语、汉语,其中英语占到大约56%。

这个语料库是完全对公众开放的。任何人都可以去 Google Books Ngrams Viewer 查询任何一个或几个词在过去500年内在书籍中的出现频率变化趋势,有点像Google Trends的图书版。而专业人士或纯粹闲得蛋疼的geek们也可以下载完整的语料库自行分析: storage.googleapis.com/

作为外行,Google的这个神器真是让我玩得根本停不下来~ 我来简单演示一下,把大家带入坑~

正式开始前先说明几点:

  1. 我不知道Google是如何选择和获取这6%的图书的,不确定是否会有系统性选择偏差,也不确定图书的幸存者偏差有多严重,所以看图得出的结论并不能随意外推。
  2. 语料库的内容完全来自出版图书,而不包括未出版图书或其他形式的文字,也不包括正在指数级增长的网络和电子信息。与Google Trends的高度实时性不同,图书的滞后性较长,只能在比较大的尺度上看趋势变化。
  3. 同一个词在不同时期的语义、用法和拼写可能会非常不同,需要谨慎解读结果。
  4. 我在这里选择以英语而非中文为例。一方面是因为英语的语料库最大,且英语在最近几百年来的图书中的使用率总体看来看是最广的,比较能够反映现实世界的一些变化。另一方面,汉语的字、词识别的难度很高,可能正确率不及英语,而且现代汉语和历史上不同时期的汉语的语义差异比较大,古文和现代文很多时候很难比较。不过近几十年的汉语数据应该还是不错的,我在最后也会放几个例子。
  5. 下面每张图里横轴是时间,纵轴是出现率,先给几个常用词做个baseline给大家感觉一下:

比如这里"the"占了5%,也就是说英语里大约每20个词里有一个是"the"

----------------------------------------------------------------------------------------------------

正式开始~超多图预警!

先来看看几个国家的出现率变化情况:

看点:英国和法国的逐渐没落、美国的崛起、德国在两次世界大战中刷存在感、苏联/俄罗斯的崛起和没落、中国在20世纪下半叶比较稳定的出现率。

再看看资本主义和共产主义之争:

可以讲的故事太多了,大家自己脑补吧。

君王和人民:

王国、国家和民族:

革命、独立、殖民:

自由、民主、共和:

《独立宣言》里的"Life, liberty and the pursuit of happiness"

战争与和平:

科技和宗教:

注意最近二十年的势头逆转了,但这也有可能是因为科技更多更快地转到网络等平台,而在书籍中出现得相对变少了。

计算机和互联网相关:

品牌的兴衰史:

部分学科的发展势头:

一些平权运动的发展:

健康、环境、污染等问题的关注度越来越高:

天堂和地狱(地狱一直很坚挺啊):

今天,昨天,明天:
“明天”在最近几十年里逆袭了“昨天”,算是好迹象吧,不过"today"好像是20世纪才开始普及的,以前的英语都用什么词表示“今天”的呢?...(经评论提醒,似乎以前"today"是写成"to-day"的,不知道Google有没有进行相关的修正)

发展、进步 vs. 问题、危机

总体来说饥荒和瘟疫的出现率在降低:

不过贫穷和不平等的出现率在上升:

灾难 ”被提到的频率在增加,而从上世纪50年代开始,洪灾多的年份一般旱灾少一些,反之亦然:

为什么从1930年左右开始money和economy的出现率是此消彼长的呢?是巧合吗?

泰坦尼克:

泰坦尼克电影逆袭了泰坦尼克事件本身厄...

这个例子可以说明为什么一个词的出现率并不一定意味着现实世界的出现率:

现代人吃饱饭没事干脑洞真大……

动物们:

吃、喝、睡:


关于星期和月份的词相对比较稳定:

“周日”最常用,这自然跟宗教有关,紧接着的是周六,周一和周五其次,周二三四的存在感都很低。

月份:

似乎气候越好的月份出现率一般也越高(May有歧义,没算进来),不过June和July都可以当人名,所以可能有些虚高。另外,近200年来这些词的整体升降趋势也很有意思,不知可以如何解释。





请到「今天看啥」查看全文