专栏名称: 计量经济圈

记录一个我们生活在其中的时代社会，囊括的主题如下：经济、社会、世界和计量工具。

TOP5最新: 我国社交媒体与集体行动, 上百万面板数据, 实证方法IV, DDD等, 初看以为David Yang

计量经济圈 · 公众号 · 财经 · 2024-09-28 00:00

主要观点总结

本文关注计量经济圈相关话题，介绍了一篇关于社交媒体在中国城市间信息传播影响的实证研究文章。文章使用面板数据，涉及大量的计量经济学模型和数据分析技术，包括固定效应、线性概率模型（LPM）、工具变量、三重差分（DDD）等。文章主题涉及新浪Weibo上的信息传播对中国城市间抗议和罢工事件的扩散影响。同时，提供了关于数据获取和使用的一些资源和建议。

关键观点总结

关键观点1: 文章主题和背景介绍

介绍了一篇关于社交媒体在中国城市间信息传播影响的实证研究文章，涉及计量经济学模型的运用和数据分析技术。

关键观点2: 研究方法

文章使用面板数据，结合计量经济学模型和数据分析技术进行研究。

关键观点3: 主要内容和发现

文章分析了新浪Weibo上的信息传播对中国城市间抗议和罢工事件的扩散影响，使用了时变连接测量和不变连接测量的方法进行研究。

关键观点4: 面临的挑战和问题

研究中面临计量经济学方面的挑战，如相关性和情境效应、循环因果、测量误差等问题。

关键观点5: 数据和资源分享

提供了关于数据获取和使用的一些资源建议，如各类微观调查数据库、中国地级市PM2.5数据、投入产出表数据等。

正文

凡是搞计量经济的，都关注这个号了

邮箱： [email protected]

所有计量经济圈方法论 丛的code程序 , 宏微观 数据库和各种软 件都放在社群里.欢迎到计量经济圈社群交流访问 .

刚被TOP5刊Econometrica接收的文章“Social Media and Collective Action in China”，其主题与中国社交媒体和集体行动有关，有点像但并非出自哈佛的David Yang之手。文章的研究范围广泛，涉及大量的数据，观测值从6-70万到100多万不等，时间跨度长，整理这些数据是一项相当艰巨的任务。其实，这不是作者在TOP5上发表相关主题文章，早在2018年就已在AER上刊发了一篇关于Media bias的文章。

尽管文章的结论可能并不敏感，但其中关于中国social media、protests等内容的介绍可能存在一些不便展示的情况。因此，将重点介绍文章的实证设计部分。这里面的工作量非常庞大，包括了面板数据、固定效应、线性概率模型（LPM）、工具变量、三重差分（DDD）等方法。

*下面三张图片可以带我们了解整篇文章的大概发现。鉴于其内容的敏感性，我们不对研究发现和内容做深入详细解读。

*文章整体读起来很过瘾，感兴趣的学者可以自行前往文后二维码查看，群友可以直接在社群下载参与。

实证计量模型

*注： &&代表抗议 ， ##代表罢工

本文分析了新浪Weibo上的信息传播是否影响中国城市之间&&和##的扩散。 研究使用了包含N个城市的每日面板数据。由于&&和##事件的统计模型相似，下面以&&为例进行说明。设为一个指示变量，表示城市i在第t天发生&&的情况。假设城市i在第t天发生&&的概率依赖于在时间t-1时，其他城市j中知晓&&事件的人数。设为城市i中通常阅读来自城市j的用户发布的微博的人数。在城市j没有&&的日子里，没有任何信息可供学习或传播。因此，城市i中了解到城市j &&事件的人数可以表示为。在假设线性叠加效应的前提下，&&微博的阅读量（从而潜在的事件传播到城市i随着以下值的增加而增加：

这是一个通过社交媒体网络传播事件的模型，使用来度量。作者使用两种 城市对 之间社交媒体连接的测量方法：一种是时变的，另一种是不时变的。时变的测量是城市i在前六个月内（直至第t天前一周）对城市j 用户发布的所有主题（不包括&&和##）微博的转发次数加1后取对数。本文对矩阵进行标准化，使得加权矩阵每行所有元素的平均和为1。

然后，定义：

以捕捉通过社交媒体对&&信息的时变传播。

不时变的测量

则捕捉了在微博时代后期城市i和j之间的平均社交媒体连接性

。因此，社交媒体于&&传播测量为：

矩阵经过标准化，使得的边际变化与相同大小的边际变化相关联。因此，上述两个测量的估计系数是可比较的。

正如稍后所展示的，这两种测量方法利用了不同的变异性，从而构成了两个互补的计量经济学模型。时变测量的优势在于，它能精确地衡量每个时刻城市之间的实际社交媒体连接。因此，它利用社交媒体网络扩展的确切时间来识别影响。相比之下，时不变测量方法使我们能够更清晰地阐明识别假设，并探究由于前weibo时代城市间的相关性和情境效应而传播的现象，这些城市最终在后weibo时代建立了连接。另一个优势是，可以研究2013年之后社交媒体的影响，尽管那时我们没有weibo数据，但有大量事件被纳入本文的数据集中。在合理的假设下，即2009年至2013年间城市之间的平均转发数量是2014年至2017年间的良好代理指标。

4.1 时变连接测量

使用时变社交媒体连接测量

时，估计以下模型：

其中

是一个二元事件虚拟变量，

的定义如上，

是城市j在t前两天内的事件数量。变量

捕捉地理上相近城市的传播，其定义为：

其中

是城市i 和城市j之间地理距离的倒数。模型里包括weibo渗透率

，因为社交媒体可能直接影响&&事件的发生。实际上，

是不包括与&&和##相关的帖子的人均微博发布数量的对数。需要注意的是，

是通过weibo总发布量计算的，其中大部分内容涉及非敏感的个人沟通信息，因此这一数字仅受到&&和##发帖或审查的微小影响。模型中还添加了另一组控制变量

，包括城市i用户的总转发数量、人口对数、GDP、第二和第三产业的占比，以及手机用户数量。还包括了自回归项

，以及时间和城市的固定效应

和

。估计该模型的时间范围直到2013年底，此时测量指标

可用。在稳健性模型中，通过添加以下交互项，允许城市对之间事件传播的任意时不变异质性

：

这些变量控制了

和

之间的任何时不变的虚假相关性（例如，由于相关或情境效应造成的）。然而，在一个非常严格的模型中添加大量N(N - 1) 控制变量可能会去除一些有用的信息。

4.2时不变连接测量

在使用时不变的连接测量时，将数据划分为三个时期：时期0代表前weibo时代（2006-2009年）；时期1代表第一次后weibo时代（2010-2013年），在这一时期作者有weibo数据；时期2代表第二次后weibo时代（2014-2017年），此时作者没有weibo数据。估计的模型如下：

其中变量的定义与前文相同。新的变化在于，允许、的系数以及截距在三个时期内有所不同，这种差异通过上标p表示。如附录A.1所示，上述方程可以视为一个完全饱和的三重差分DDD估计的扩展，它处理的是后微博时期信息连接城市中的（滞后）事件冲击。

现在，来讨论识别假设；更多细节见附录A.1。

因此，在控制了其他变量后，社交媒体连接的F矩阵被假设为条件外生，尤其是城市-时期的固定效应。这种计量模型允许在前微博时代，城市i的&&发生概率在连接度更高的城市中更高，而在后微博时代则有所差异。通过包含这些控制项，允许网络对城市i在每个时期的平均&&概率产生内生影响。例如，网络中更中心的城市可能更容易发生&&。

值得注意的是，虚假相关性可能由与网络相关的未观察到的冲击引起，这些冲击可能源自内生的排序过程或共同的环境因素。这涉及到相关效应的问题。此外，这些相关性也可能由连接城市之间的特征所驱动，这就构成了情境效应的问题。为了解决这些问题，假设在城市i中，在最终通过微博连接的城市j中发生&&之后，无论是否存在微博的传播，&&的发生概率都会提高。具体来说，通过估计来衡量前微博时期的相关性和情境效应，并在估计后微博时期的网络效应时将其排除。

此时，关注的参数是

，它捕捉了社交媒体网络对事件传播的影响。如果在后微博时期，&&在连接城市间的传播增幅大于在非连接城市间，那么该参数将为正值。识别该参数依赖于一个 平行趋势 的假设：在没有社交媒体网络扩展的情况下，城市j中有&&和没有&&的日子的结果差异，在连接和非连接城市之间将保持相同的趋势。虽然这样的识别假设无法直接验证，但可以通过在前微博时期以半年为频率分别估计

的系数来检验前期趋势。

4.3 计量经济学问题

在分析中，除了前面讨论的相关性和情境效应之外，还面临几个计量经济学方面的挑战。

首先，如果城市i的事件同时影响城市j的事件，而城市j的事件又反过来影响城市i的事件，就会形成一种循环因果（或称为同时性）问题。在典型的截面网络分析中，由于所有事件都是同时发生的，这个问题更为严重。然而，在面板数据设置中，这种情况相对较轻，因为一些事件的发生有先有后。此外，可以以日为单位测量&&冲击，并确定事件的时间顺序。尽管如此，在测量事件日期时可能会出错，导致时间顺序的分配不准确。这种测量误差可能会导致估计结果出现偏误。根据设计，我们的模型不捕捉同一天内的事件传播。考虑到组织抗议活动需要时间，同一天内的事件传播可能相对有限。在这种情况下，本文的估计将捕捉到总的“简约形式”效应，包括可能在同一天内发生的传播。

其次，逻辑回归和Probit模型在处理稀有事件数据时容易出现偏误，并且在包含大量固定效应的面板数据中表现不佳。因此，选择估计线性概率模型LPM，该模型能够避免这些问题的影响。

第三，检验了估计过程的稳定性，具体方法如附录A.2.1所述。

第四，一致性要求误差项中不能存在序列自相关。在一阶差分残差中检验了序列自相关。

第五，方程（1）中的误差项可能在时间和空间单位之间存在相关性。通过双向聚类（时间和空间维度）来解决这个问题。

最后，模型包括地点固定效应和滞后因变量。通常，这类模型中的估计结果是不一致的，当时间固定效应被包含在模型中时，可能会导致所谓的“Nickell偏误”。在我们的模型中，由于时间周期T较大，这种偏误可能较小。通过蒙特卡罗模拟，在附录A.2.2中展示了这种偏误确实微乎其微。允许时不变异质性的计量模型可能面临的另一个潜在问题是，使用的自相关检验可能不太合适；详见附录A.2.2的详细讨论。

*长按以下二维码查看ECM全文PDF。

*群友可直接在社群下载ECM全文PDF。

Reference: Qin, Stromberg, & Wu, 2024, Social Media and Collective Action in China, Econometrica , Conditional Accepted.

关于数据，参看： 1.这40多个微观调查数据库, 你值得拥有, 发文章就靠它们了！ 2. 2000-2018年中国地级市PM2.5数据更新, 可直接下载使用！ 3. 2018年共计8年的投入产出表数据公布, 诺奖成果对经济系统做一些深入分析！ 4. 2020年度中国流动人口动态监测调查数据CMDS共享开放通知！ 5. CGSS2017年的家户调查数据正式发布, 可以下载以最快速度发表论文！ 6. 数据发布, CHARLS第四期(2018)全国追访数据正式公开发布！ 7. 使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑！ 8. 疫情期CEIC数据库操作指南，9. 疫情期EPS数据库向全社会免费开放！附细致使用指南！ 10. 疫情期间CSMAR数据库使用指南！金融财务管理必备数据库！ 11. 使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑！ 12. 清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨！ 13. 金融领域三大中文数据库, CSMAR, CCER, Wind和CNRDS ，14. 数据| 2017中国家庭金融调查数据CHFS发布，15. 经济学研究常用中国微观数据手册，16. WIOD数据库的示例性使用说明, 以全球汽车行业为例，17. 徐现祥团队:中国方言,官员, 行政审批和省长数据库开放，18. 中国省/地级市夜间灯光数据release, 1992-2013的面板数据，19. 中国经济社会微观数据还能挖吗? 20. 工企数据与海关数据库合并方法，21. 中国工企数据库各年份指标解释, 面板数据构建地基，22. 中国所有地级市各类空间权重矩阵数据release ，23. 中国省级三大空间权重矩阵(相邻, 距离和经济)数据release ，24. 中国工业企业数据库匹配160大步骤的完整程序和相应数据，25. 夜间灯光数据校对的一些成熟方法推荐，26. 2005-2015中国分省分行业CO2数据circulation ，27. 中国家谱族谱数据库对外开放，28. CFPS和CHARLS数据库分析技巧大指南，29. 全面的区域科学研究数据获取途径汇总，30. 史上最全社会科学数据库, 唯一的一份，31. 史上最全心理学开放数据, 为行为经济学开路，32. 如何正确使用政府统计数据？ 33. 经济社科数据库汇总，见过最全的Database ，34. 你想要的微观调查数据都在这里，要用好数据从这里开始，35. CHARLS数据的前世今生（附8个大型数据库），36. 中国县域数字乡村指数数据库申请开放, 提供指标及解释和申请表！ 37. 中国县域统计年鉴, 人口与就业统计年鉴1998-2019面板数据开放！ 38. 中国各地级市坡度和经纬度数据正式开放！ 39. 推荐"数字普惠金融指数", 省市县三级面板数据可做很多实证研究，40. 工企数据与海关数据库合并方法，41. 中国各省份和地级市地形起伏度数据正式开放！ 42. 数据库分享: 青少年健康主题数据库, 可免费申请使用，43. 据说这是上百份稀缺数据, 但还是需要谨慎使用才行，44. CFPS 2020, CHFS 2019数据都公布了! 最新数据用起来做研究！ 45. 公开! 中国企业的不确定性感知指数数据(2007-2018)

7年，计量经济圈近2000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题 ,

Econometrics Circle