机器学习、大数据与经济学研究

大石头路73号 · 知乎专栏 · · 2015-12-12 17:16

正文

机器学习和大数据是当前一个很热的话题，在经济学中也不例外。那么这些新的技术会对经济学研究产生何种影响？经济学大牛 Varian 已经写论文讨论过这一话题：

Varian, 2014, Big data: New tricks for econometrics

这里有一篇中文的介绍：
【香樟论坛】大数据：计量经济学的新技巧

其实这篇介绍的挺详细。但如果我全都照搬过来，岂不是很没有创造性？所以我决定重新写一篇。。。

论文作者是范里安（Hal Varian），学过经济学的应该都知道这位大名鼎鼎的美国经济学家，著有经济学教材《微观经济学：现代观点》，就算没读过应该也听说过。他现在已经从加州大学伯克利分校退休，现任 Google 首席经济学家，参与设计了 Google 广告关键词拍卖系统等项目。
范里安为 Google 设计的「AdWords Select」系统背后的经济学原理是怎样的？ - 谷歌 (Google)
首席经济学家范里安：谷歌摇钱树 -- 经济金融网 -- 传送门

看看他在这篇论文脚注中的作者介绍，感觉还是挺酷的：

Hal Varian is Chief Economist, Google Inc., Mountain View, California, and Emeritus Professor of Economics, University of California, Berkeley, California.

不知道是不是受到 Google 程序员们的影响，范里安现在对机器学习和大数据很感兴趣。

范里安认为，计算机技术现在已经深入到经济学研究中。传统的统计和计量方法，比如回归分析，当然是不错的研究方法，但如今数据量越来越大，而正好符合研究要求的数据已然有限，同时大数据量让变量之间的关系变得更加灵活，传统计量中的线性以及大多非线性模型可能都无法满足这一要求，所以经济学家需要寻找新的研究方法。范里安认为，机器学习理论中的决策树（decision trees），support vector machines，深度学习（deep lerning）等技术，可以更加有效率的处理复杂的关系。

所以，他在文中的思路可以简单总结为：

- 经济学要与数据打交道，传统分析用的是样本等小数据

- 随着经济交流的日益频繁和技术水平的提高，数据越来越大，大数据出现

- 传统经济学分析方法在分析大数据时显得捉襟见肘

- 我们需要新的分析方法

- 机器学习技术可以在这方面帮助我们

这篇文章开始给读者介绍了一些处理数据的方法和软件，以及大型 IT 公司的处理方法，这还是挺有用的。比如在处理百万条的大型数据时需要用到 SQL，数据清理可以用 OpenRefine 和 DataWrangler。

不过计量经济学和机器学习当然是有区别的，作者认为：

Data analysis in statistics and econometrics can be broken down into four categories: 1) prediction, 2) summarization, 3) estimation, and 4) hypothesis testing. Machine learning is concerned primarily with prediction.
[...]
Machine learning specialists are often primarily concerned with developing high-performance computer systems that can provide useful predictions in the presence of challenging computational constraints.
[...]
Data science, a somewhat newer term, is concerned with both prediction and summarization, but also with data manipulation, visualization, and other similar tasks.

计量和统计学主要关注四个方面：预测、总结、估计和假设检验。机器学习主要关注预测。数据科学侧重预测和总结，也涉及数据处理、可视化等。

计量经济学关注因果关系，会遇到内生性等问题，而机器学习则会遇到“过度拟合”（overfitting）的困扰，但机器学习可以关注到计量和统计中样本以外的数据。

那么机器学习如何运用到经济学中呢？作者举了几个例子。

一个是分类和回归树分析（Classification and regression trees，简称CART），这一方法适用于分析一件事情是否发生以及发生概率的时候，即被解释变量是0或1。计量上通常用 logit 或 probit 回归。

范里安这里用的是例子是泰坦尼克号沉船事件中不同人群的死亡概率。作者用机器学习理论中的 CART 方法（R 软件中有这个包 rpart），把船上的乘客按照舱位等级和年龄进行分类。

这是树模型（Tree model）的分类，舱位分一、二、三等，一等最好，三等最差。然后做成树型的样式：

最上面一层把乘客按照舱位分开，左边是三等舱，右边是一等和二等。三等舱（很有可能穷人居多）死亡概率较高，501个人中有370个遇难。接下来把右边一等和二等的乘客按照年龄分类，左边是大于等于16岁的，右边是小于16岁的儿童。先看儿童，这类人群的幸存概率很高，36个人中有34个都活下来了。左边把年龄16岁及以上的人又分为两类，左边的二等舱和右边的一等舱。二等舱233人中有145人遇难，一等舱276个成年人中174人幸存下来。我算了一下，四类人从左到右的幸存概率分别是26%、37%、63%和94%。所以在泰坦尼克沉船时， 儿童和一等舱的人容易活下来 。

接下来重点关注一下乘客的年龄分布，下图是各年龄段的幸存概率以及置信区间：

从图中可以看出， 10岁所有的儿童和60岁左右的人幸存概率更高 。

同时，作者又用传统的计量方法 logit 模型回归了一下，解释变量是年龄，被解释变量是幸存（1）。结果如下：

年龄（age）与幸存为显著的负相关，即年龄越小越可能在沉船时活下来，但是系数太小，影响很弱。总结这两种方法作者认为， 是否幸存并不取决于年龄，而是乘客是否是儿童或者60岁左右的人，这一点在回归分析中无法反映出来 。

类似的机器学习的方法还有一个叫conditional inference tree，这里同样是运用泰坦尼克的数据制作的图：

这幅图把乘客进行了更加细化的分类，添加了性别(sex)一项。pclass 是舱位登记，age 年龄，sibsp 为船上兄弟姐妹和配偶的数量。最下面的刻度中黑色是这一人群的幸存比例。可以得出的结论是 妇女和儿童的幸存率最高 。（这是因为在沉船的时候大家大喊“让小孩和女人先走”吗。。？）

上面这个例子比较简单，但也足够明了，我认为它比较清楚的解释了机器学习和计量的差别： 机器学习更加关注相关性和预测 ，所以得出的结论是某个年龄段的人群幸存率更高。而 计量更加关注因果关系 ，根据上面的 logit 模型，很难说是年龄导致了幸存，很明显 还有很多其他变量没有被考虑进去 ，比如个人体质等等，或许年龄根本就不是计量经济学家在这里主要考察的变量。而且如果加入交叉项也许会有新的结论。所以简单的说就是模型设定的问题。 具体哪种方法更好，还要看具体研究的问题是什么。

机器学习、大数据与经济学研究

正文

请到「今天看啥」查看全文