专栏名称: 人大经济论坛

中国人民大学经济学院主办的“人大经济论坛”官方微信公众号，同名认证新浪蓝V“人大经济论坛”。人大经济论坛感谢多年来用户的支持，现改版后新址搬至http://bbs.rdjjlt.org ，欢迎新老会员不吝赐教。

基于互联网大数据的CPI舆情指数构建与应用

人大经济论坛 · 公众号 · 财经 · 2017-03-15 08:55

正文

请到「今天看啥」查看全文

本文第一作者徐映梅，是中南财经政法大学统计与数学学院教授、博士生导师。随着经济社会的高速发展，以及互联网向国民经济各行业的渗透，互联网上积累的海量数据逐渐具有了大数据特征，互联网大数据不仅反映了宏观经济运行的结果，也反映经济运行中微观主体的决策过程，不仅具有高频和实时的特点，且很大程度上都是对社会经济运行过程的真实反映。因此，在现有统计制度框架下，结合互联网大数据构建 CPI 舆情指数，探索和利用 CPI 舆情指数提供的前瞻性信息，为宏观决策提供参考和依据，具有较强的理论和现实意义。本文基于互联网大数据，结合传统统计调查数据，编制了低频与高频物价舆情指数，并建立了舆情指数与 CPI 的统计关系，通过实例说明了其预测的效果。

CPI 舆情指数是指基于互联网大数据构建出的一个能够描述公众对物价总水平变动认知的动态相对数，用于刻画消费物价变动中经济行为主体（如消费者与生产者）的认知态度及其决定的行为选择。本文构建 CPI 舆情指数的步骤为：

第一步，选定与物价指数有关的若干备选关键词，包括描述物价本身的关键词、表述对物价的看法和倾向的关键词两类。结合现有文献研究以及搜索引擎的相关词推荐功能，综合考虑数据可得性和数据质量，初步选取了“ CPI ”、“物价”、“价格”、“通货膨胀”、“涨价”、“降价”和“通货紧缩” 7 个关键词。前 5 个词与 CPI 正向关联，后 2 个与 CPI 负向关联。

第二步，通过信息爬取，获取上述关键词的搜索、浏览等相关数据。考虑到大多数主流搜索引擎均提供了基于关键词搜索量的搜索引擎指数，因此本文选择百度指数中 PC 趋势作为网络搜索数据的来源，编程提取了所有关键词从 2006 年 6 月 1 日 ~2015 年 12 月 31 日逐日的搜索量时间序列。

第三步，数据预处理。将关键词的指数值取对数剔除中性词“百度”取对数的影响定义了新的关键词搜索热度指标，计算出全部 7 个关键词 2006 年 6 月 1 日 ~2015 年 12 月 31 日的逐日搜索热度数据。同时将逐日搜索热度数据按月平均降频至月度，再使用 X-13 方法进行季节调整，取趋势循环项。采用时差相关分析法筛选具有预测作用的关键词，得到具有领先关联的关键词“涨价”和“通货紧缩”，其中“涨价”和“通货紧缩”分别属于正向和负向舆情关键词。“涨价（ ZHANGJIA ）”和“通货紧缩（ TONGSUO ）”的搜索热度与 CPI 指数相比，分别领先 1 个月和 5 个月。

第四步，低频与高频舆情指数合成。由于观察到关键词的搜索热度与 CPI 的关联并非线性形式，通过选择 LogCPIt 作为因变量， TONGSUOt-5 和 ZHANGJIAt-1 为自变量进行门限回归，模型选择 CPI 同比 101.39% 和 103.86% 作为门限值，门限回归的拟合效果整体好于简单线性回归，包括更高的调整 R 方、更低的均方误差以及更小的 SC 准则值。但门限回归不同区间拟合效果不同，其中低通胀区间（季节调整后 CPI 月同比小于 101.39% ）拟合优度最好，均方误差也最低；高通胀区间（季节调整后 CPI 月同比大于等于 103.86% ）拟合优度次之，但均方误差最大；适度通胀区间（季节调整后 CPI 月同比大于等于 101.39% 但小于 103.86% ）拟合优度最次，均方误差处于中等水平，三者的均方误差都小于线性回归模型。

借助于上述关键词搜索热度（月度数据）与 CPI 非线性关系的参数估计结果，可以合成 CPI 舆情指数。在低频（月度）数据框架下，直接使用门限回归系数（三区间）组合形成低频物价舆情指数。在高频（逐日）数据框架下，考虑到 CPI 本身没有高频数据，无法仿照低频框架下直接估计模型参数，因此我们假设高频数据框架下也有类似于低频模型的滞后期限结构，但滞后期的期限将 5 个月和 1 个月相应改为 150 天和 30 天，并采用动态因子模型来估计高频舆情指数。在一定假设下采用卡尔曼滤波算法估计出高频舆情指数序列，并进行相应的季节调整。从拟合结果观察，低频和高频两类物价舆情指数都与 CPI 走势基本大致相同，表明两类舆情指数效果较好，且两类指数均只依赖于关键词搜索热度的滞后项，因此在给定的时间，可以利用关键词搜索热度的当期值合成 CPI 舆情指数的未来值，从而可以预测未来 CPI 的走势。

应用 CPI 舆情指数的目的之一是利用其与 CPI 的关系，分析预判 CPI 在未来的变化趋势。

1 ．变量选择与数据采集

利用低频和高频舆情指数来评估其对 CPI 月同比指数的预测效果，其中低频舆情指数的时间区间为 2006 年 6 月 ~2015 年 12 月，高频舆情指数的时间区间为 2006 年 6 月 1 日 ~2015 年 12 月 31 日。 CPI 月同比指数的时间区间为 2006 年 6 月 ~2015 年 11 月，其中对 CPI 月同比用 X-13 方法做季节调整后取对数处理，而舆情指数在编制过程中已经做了季节调整，故可直接使用。

此外，由于每月包含的天数不一样，为了后续使用高频舆情指数建模方便，需要首先调整一致。本文的处理方法为：删除所有的 2 月 29 日（如果存在），以及 5 、 7 、 8 、 10 、 12 月的 31 日数据，将 1 月 31 日和 3 月 1 日并入 2 月，这样处理之后，确保了每月均为 30 天（即每个低频区间中高频数据的个数均为 30 个），一年为 360 天。

2 ．预测模型设定与估计结果比较

使用三种模型预测 CPI ，并评估预测效果。

模型 1 为基准模型，使用 CPI 自身的滞后项来预测，即设定为自回归的形式；模型 2 在模型 1 的基础上，引入低频物价舆情指数作为解释变量进行回归，以检验低频舆情指数能否改善 CPI 的预测效果。为了与基准模型的滞后结构保持一致，模型 2 也引入了低频舆情指数的一阶滞后项；模型 3 在模型 1 的基础上，引入高频物价舆情指数作为解释变量进行回归，以检验高频舆情指数能否改善 CPI 的预测效果。在一定假设下，采用混频数据抽样模型拟合高频数据中的不完全周期数据进行实时预测（ nowcasting ）。

采用均方误差评估三种模型的预测数值精度。从模型 1 到模型 3 ，预测的数值精度逐步提高，表明物价舆情指数可以有效改进物价预测的精度，且高频舆情信息进一步改进了预测效果。当仅使用每月开头 5 天的高频舆情信息时，模型 3 便可以取得与模型 1 差不多的估计精度。如果将模型 1 的预测精度作为 CPI 预测精度的最低容忍，则使用高频舆情指数可以在每月的第 5 天就给出次月 CPI 的一个初步估计，比低频的情况提前了 25 天，最多可以提前官方数据 65 天，进一步提高了预测的时效性。当使用每月前 10 天 -15 天的舆情信息时，均方误差下降较快，表明月中旬的舆情信息对改进 CPI 的预测精度效果最为明显。当使用每月 25 天以上的高频信息时，高频实时预测的效果才好于低频舆情指数，但改进并不大。这说明高频舆情指数相对于低频模型的优势主要体现在预测时效性和预测结果的可更新性上。

本文给出了一个具有较强可操作性的，基于互联网大数据的 CPI 舆情指数编制框架。基于互联网大数据的舆情指数的编制，受到关键词选取、关键词搜索热度以及与社会经济事件非线性关系的参数估计结果、高频与低频信息关联程度等的影响，具有时变性，因而在具体应用中，可根据数据来源情况，进一步扩充关键词筛选范围，寻找更多具有预测效用的关键词，尽可能多地纳入舆情信息，提高舆情指数对社会经济事件的预研预判能力。同时，从实际运用中需要长期编制舆情指数的角度考虑，在实际编制时，也需要定期监测舆情信息与社会经济指标之间的关联关系是否发生改变，可以借鉴 CPI 编制时定期调整各类指数权重的做法，建立舆情指数模型参数和数据来源关键词的动态调整机制，以确保舆情指数对社会经济指标跟踪预测的长期有效性。

原文发表于《数量经济技术经济研究》 2017 年第 1 期

微信：RDJJLT

微博:人大经济论坛

点击下方“阅读原文”查看更多