本文第一作者徐映梅,是中南财经政法大学统计与数学学院教授、博士生导师。随着经济社会的高速发展,以及互联网向国民经济各行业的渗透,互联网上积累的海量数据逐渐具有了大数据特征,互联网大数据不仅反映了宏观经济运行的结果,也反映经济运行中微观主体的决策过程,不仅具有高频和实时的特点,且很大程度上都是对社会经济运行过程的真实反映。因此,在现有统计制度框架下,结合互联网大数据构建CPI舆情指数,探索和利用CPI舆情指数提供的前瞻性信息,为宏观决策提供参考和依据,具有较强的理论和现实意义。本文基于互联网大数据,结合传统统计调查数据,编制了低频与高频物价舆情指数,并建立了舆情指数与CPI的统计关系,通过实例说明了其预测的效果。
CPI舆情指数是指基于互联网大数据构建出的一个能够描述公众对物价总水平变动认知的动态相对数,用于刻画消费物价变动中经济行为主体(如消费者与生产者)的认知态度及其决定的行为选择。本文构建CPI舆情指数的步骤为:
第一步,选定与物价指数有关的若干备选关键词,包括描述物价本身的关键词、表述对物价的看法和倾向的关键词两类。结合现有文献研究以及搜索引擎的相关词推荐功能,综合考虑数据可得性和数据质量,初步选取了“CPI”、“物价”、“价格”、“通货膨胀”、“涨价”、“降价”和“通货紧缩”7个关键词。前5个词与CPI正向关联,后2个与CPI负向关联。
第二步,通过信息爬取,获取上述关键词的搜索、浏览等相关数据。考虑到大多数主流搜索引擎均提供了基于关键词搜索量的搜索引擎指数,因此本文选择百度指数中PC趋势作为网络搜索数据的来源,编程提取了所有关键词从2006年6月1日~2015年12月31日逐日的搜索量时间序列。
第三步,数据预处理。将关键词的指数值取对数剔除中性词“百度”取对数的影响定义了新的关键词搜索热度指标,计算出全部7个关键词2006年6月1日~2015年12月31日的逐日搜索热度数据。同时将逐日搜索热度数据按月平均降频至月度,再使用X-13方法进行季节调整,取趋势循环项。采用时差相关分析法筛选具有预测作用的关键词,得到具有领先关联的关键词“涨价”和“通货紧缩”,其中“涨价”和“通货紧缩”分别属于正向和负向舆情关键词。“涨价(ZHANGJIA)”和“通货紧缩(TONGSUO)”的搜索热度与CPI指数相比,分别领先1个月和5个月。
第四步,低频与高频舆情指数合成。由于观察到关键词的搜索热度与CPI的关联并非线性形式,通过选择LogCPIt作为因变量,TONGSUOt-5和ZHANGJIAt-1为自变量进行门限回归,模型选择CPI同比101.39%和103.86%作为门限值,门限回归的拟合效果整体好于简单线性回归,包括更高的调整R方、更低的均方误差以及更小的SC准则值。但门限回归不同区间拟合效果不同,其中低通胀区间(季节调整后CPI月同比小于101.39%)拟合优度最好,均方误差也最低;高通胀区间(季节调整后CPI月同比大于等于103.86%)拟合优度次之,但均方误差最大;适度通胀区间(季节调整后CPI月同比大于等于101.39%但小于103.86%)拟合优度最次,均方误差处于中等水平,三者的均方误差都小于线性回归模型。
借助于上述关键词搜索热度(月度数据)与CPI非线性关系的参数估计结果,可以合成CPI舆情指数。在低频(月度)数据框架下,直接使用门限回归系数(三区间)组合形成低频物价舆情指数。在高频(逐日)数据框架下,考虑到CPI本身没有高频数据,无法仿照低频框架下直接估计模型参数,因此我们假设高频数据框架下也有类似于低频模型的滞后期限结构,但滞后期的期限将5个月和1个月相应改为150天和30天,并采用动态因子模型来估计高频舆情指数。在一定假设下采用卡尔曼滤波算法估计出高频舆情指数序列,并进行相应的季节调整。从拟合结果观察,低频和高频两类物价舆情指数都与CPI走势基本大致相同,表明两类舆情指数效果较好,且两类指数均只依赖于关键词搜索热度的滞后项,因此在给定的时间,可以利用关键词搜索热度的当期值合成CPI舆情指数的未来值,从而可以预测未来CPI的走势。
应用CPI舆情指数的目的之一是利用其与CPI的关系,分析预判CPI在未来的变化趋势。
1.变量选择与数据采集
利用低频和高频舆情指数来评估其对CPI月同比指数的预测效果,其中低频舆情指数的时间区间为2006年6月~2015年12月,高频舆情指数的时间区间为2006年6月1日~2015年12月31日。CPI月同比指数的时间区间为2006年6月~2015年11月,其中对CPI月同比用X-13方法做季节调整后取对数处理,而舆情指数在编制过程中已经做了季节调整,故可直接使用。
此外,由于每月包含的天数不一样,为了后续使用高频舆情指数建模方便,需要首先调整一致。本文的处理方法为:删除所有的2月29日(如果存在),以及5、7、8、10、12月的31日数据,将1月31日和3月1日并入2月,这样处理之后,确保了每月均为30天(即每个低频区间中高频数据的个数均为30个),一年为360天。
2.预测模型设定与估计结果比较
使用三种模型预测CPI,并评估预测效果。
模型1为基准模型,使用CPI自身的滞后项来预测,即设定为自回归的形式;模型2在模型1的基础上,引入低频物价舆情指数作为解释变量进行回归,以检验低频舆情指数能否改善CPI的预测效果。为了与基准模型的滞后结构保持一致,模型2也引入了低频舆情指数的一阶滞后项;模型3在模型1的基础上,引入高频物价舆情指数作为解释变量进行回归,以检验高频舆情指数能否改善CPI的预测效果。在一定假设下,采用混频数据抽样模型拟合高频数据中的不完全周期数据进行实时预测(nowcasting)。
采用均方误差评估三种模型的预测数值精度。从模型1到模型3,预测的数值精度逐步提高,表明物价舆情指数可以有效改进物价预测的精度,且高频舆情信息进一步改进了预测效果。当仅使用每月开头5天的高频舆情信息时,模型3便可以取得与模型1差不多的估计精度。如果将模型1的预测精度作为CPI预测精度的最低容忍,则使用高频舆情指数可以在每月的第5天就给出次月CPI的一个初步估计,比低频的情况提前了25天,最多可以提前官方数据65天,进一步提高了预测的时效性。当使用每月前10天-15天的舆情信息时,均方误差下降较快,表明月中旬的舆情信息对改进CPI的预测精度效果最为明显。当使用每月25天以上的高频信息时,高频实时预测的效果才好于低频舆情指数,但改进并不大。这说明高频舆情指数相对于低频模型的优势主要体现在预测时效性和预测结果的可更新性上。
本文给出了一个具有较强可操作性的,基于互联网大数据的CPI舆情指数编制框架。基于互联网大数据的舆情指数的编制,受到关键词选取、关键词搜索热度以及与社会经济事件非线性关系的参数估计结果、高频与低频信息关联程度等的影响,具有时变性,因而在具体应用中,可根据数据来源情况,进一步扩充关键词筛选范围,寻找更多具有预测效用的关键词,尽可能多地纳入舆情信息,提高舆情指数对社会经济事件的预研预判能力。同时,从实际运用中需要长期编制舆情指数的角度考虑,在实际编制时,也需要定期监测舆情信息与社会经济指标之间的关联关系是否发生改变,可以借鉴CPI编制时定期调整各类指数权重的做法,建立舆情指数模型参数和数据来源关键词的动态调整机制,以确保舆情指数对社会经济指标跟踪预测的长期有效性。
原文发表于《数量经济技术经济研究》2017年第1期