原文信息:Schöll N, Gallego A, Le Mens G. Politician-Citizen Interactions and Dynamic Representation: Evidence from Twitter[J]. 2021.当机器学习遇上计量,两者如何结合能够达到1+1>2的效果?一个可行的方式是利用机器学习算法处理非数值数据(如文本、图像等),创造出以往难以获得的新的研究变量。本文将为大家介绍一篇庞培法布拉大学最新的工作论文,该文通过Google于2018年研发的BERT算法处理推特文本数据,成功刻画了政客和民众之间不平衡的动态互动最终引发政治极端化的过程。为了更好的对舆情做出回应以获得晋升,政客常常需要追踪民众偏好、感知舆情变化并相应调整个人行为。一大批文献已经证明:公共政策对舆情相当敏感,政客也会选择讨论他们认为对公众更为重要的话题。但是,也有许多文献证明政客更关注富人和同党派人士的想法,并且政客常常对保守派意见怀有偏见。一个可以解释这种不平等关注和偏见的重要机制是,政客和与之互动的民众存在自选择。然而,实证研究常常受制于难以直接观测政治和民众的互动,并且识别这种互动是如何影响政客的政治行为的。本文同时在理论和实证两方面对这一支文献做出贡献:一方面,本文提出了一种微观层面的政客-民众动态代表假说:每当政客谈论完一个话题,他们会有意识地关注民众反馈,并根据这种反馈调整下一次谈论的话题和态度导向,以谈论民众更关注的话题。另一方面,本文收集了150万条西班牙政客于2016-2019年间发布的推特,从而成功观测政客-民众长期互动如何导致男性政客与女性政客在对性别问题的关注度上的分化现象。具体来说,本文使用BERT算法来识别某条推特是否关注性别问题,并通过“转推数”和“点赞数”来识别民众对某条推特的认可程度。本文发现:(1)如果关注某个问题的推特获得了民众的高认可,政客会提高对该问题的关注程度;(2)男性政客和女性政客处于不同的舆论环境中,女性政客更被鼓励针对性别问题发声。进一步的机制分析揭示了女性政客谈论性别问题更容易受到民众认可是因为民众的偏向对待,而非她们有意投入更多心血来撰写高质量的性别问题推特。本文的研究结论也推进了女性的政治代表性这一支文献的发展。以往的研究强调,女性政客更乐于谈论性别话题,是因为她们在生活和工作中受到了亲身体验。但本文的研究证明,相较于先天偏好,来自后天的舆论环境推动作用在这一问题上具有更高的解释力。本文构建了一个简单的动态强化模型来刻画政客如何了解民众偏好,并对民众反馈做出回应。本文对政客行为的主要假设是:政客倾向于重复受到正反馈的行为,并避免做出会受到负反馈的行为。这种行为对应到推特撰写便体现为:政客需要在多种政治话题中挑选出最能受到民众认可的话题进行讨论。由此,政客对于不同话题存在一种潜在的“评估”,并根据民众反馈不断更新这种评估。在本模型中,作者将某条推文关注的话题分为两类:性别话题/其他话题。政客i在推文m中对某个话题受欢迎程度的评估标记为和,他们对某个话题实际的关注度标记为。对性别话题关注度同时取决于某个政客先天的偏好()和后天对民众反馈做出的反应(),其中表示性别话题受欢迎程度的相对评估(),表示政客对于这种评估做出的反馈。因此,关注度可以表示为:如前所述,政客对某话题受欢迎程度的评估是一个根据民众反馈不断更新的变量。我们使用来表示民众对于政客i发布的推文m的反馈,k表示推文话题是GI或是other。本文假设民众对于不同话题的反馈都服从正态分布:,。V与FB之间的关系可以用一个近似滑动平均模型表征:最终可以证明,政客对性别话题的关注度取决于如下的关系式,其中,如果对政客类型进行性别上的区分,使用F表示女性政客,M表示男性政客,则有关系式:图1展示了保持其他因素不变,仅在民众态度上存在差异时,两种性别的政客对于性别话题的关注度变化趋势:
本文主要在西班牙的政治环境下探讨这个问题,收集了西班牙所有服务于国家或地区议会的政客在国家立法大会期间所有的推特言论相关数据(2016年7月至2019年3月)。选择西班牙性别问题作为研究话题主要有以下几个方面的原因:(1)在西班牙,性别问题在近几年从一个相对小众的政治话题迅速演变为一个重要问题,并最终引发了2018年3月的或许是史上最大规模的妇女运动。(2)西班牙政坛是一个相对典型的巩固民主政坛。它包含一个比例代表制系统和较为固定的党派名单,各邦具有极高的自主权。因此,国家和地区代表都与政策推动相关。(3)在西班牙,社交媒体的使用较高,超过80%的政客都有推特账号,并在数据关注的时间段内总共贡献了150多万条原创推特。在进行实证的一个重要难点是,如何确定某条推特是否关于性别话题。本文创造性地使用了经典的NLP算法BERT解决这个难题。相较于其他算法,BERT的优势在于:(1)由于在编码中使用了深度双向学习结构(同时基于某个词语的上文和下文构建词向量),故BERT的分类效果优于基于词袋模型或浅层双向学习结构的其他算法。(2)BERT在海量数据上进行了预训练以获得一个相对丰富的语言表征,并且可以通过“fine-tuned”来实现多种不同工作。(3)大多数政客会选择使用西班牙当地语言发布推特,而BERT提供了基于多种语言的版本。本文主要应用BERT完成两部分工作:(1)构建二分类自变量:某条推特是否关于性别话题;(2)构建一个的控制变量:根据推特的文风预测这条推特能够获得多少转推或点赞。对于前者,本文在一个20000条数据的小样本上通过人工标注、十折交叉检验验证了BERT算法的有效性。如表SI4.9所示,BERT模型达到了0.9的精确度和0.79的召回率,优于简单贝叶斯分类。对于后者,本文的预测结果与真实结果的相关系数达到0.5,预测效果较好。在衡量某条推特的民众回应时,会遇到以下几个难点:(1)推文对政客的影响存在边际效应递减(2)政客之间推文所获转推数/差距较大,如何让他们在各个政客之间存在可比性。本文对原始的转推数/点赞数进行如下处理,来解决以上这两个问题:(1)取自然对数(2)转推数对数作为因变量,转推数对数和时间的乘积作为自变量进行回归,保留回归残差。这一条主要是考虑每个进驻推特的政客随时间推移,其转推数/点赞数存在异质性的时间趋势。(3)对残差进行Z标准化,最终转推数据的分布符合:。本文希望证明的结果是(1)相较于男性政客,民众更鼓励女性政客发表对性别话题的观点,由此造成了男性政客和女性政客在推特话题选择上的极化。(2)政客会根据民众态度调整政治话题的选择。两者对应了本文实证部分的主要两个方面。首先,从图2可以看出,在2016年至2019年间,虽然男性政客和女性政客对于性别话题的关注度都有所增加,但女性政客的增长速度明显超过男性政客,说明存在基于性别的推特话题异质性。从表2可以看出,虽然总体来说男性政客比女性政客收到的转推数和点赞数的均数都较高,但在组内比较性别话题和其他话题的差值后会发现,男性政客在性别话题和其他话题时受到的正向反馈基本没有太大差异,但是女性政客一旦谈论性别话题,受到的正向反馈远高于男性政客。但是,仅从描述性统计的角度并不能提供一个令人信服的证明,要证明公众确实更加鼓励女性政客对性别问题发声,还需要进一步的实证检验。本文最主要的回归模型为:其中,是根据BERT识别出的虚拟变量,表示政客i发布的m推文是否是关于性别话题,是一个关于政客性别的虚拟变量(代表该政客为男性,反之代表其为女性),标准误在政客-推文的层面进行聚类。回归主要关注的系数为交叉项的系数。回归结果如表3所示。第一列展示了基础回归结果,第二列加入了政客的个体固定效应和发布日的时间固定效应,第三列加入了发布时刻的固定效应并加入了序列位置(推特中部分帖子为系列帖,类似论坛楼数)、政客当天发推数的控制变量,第四列考虑了党派因素(希望排除这样的竞争性假说:性别问题关注度的差异性是否主要是由激进党/保守党决定,而非政客性别)。从表中可见,交叉项系数始终显著为负,说明相较于男性政客,公众更积极地回应女性政客发布的性别话题相关推特。一种可能的质疑是:虽然民众确实更积极地响应女性政客谈论性别话题,但是这是否真的能对政客行为造成影响?也即,政客是否会根据民众反馈改变选择政治话题的策略。本文在这一部分对这种质疑进行了回应。为了探究这个问题,本文首先需要构造一个面板数据。这个面板数据时间跨度的选择需要满足如下两个条件:(1)时间跨度不能太短,否则无法精确捕捉政客在该时间段内对某话题的关注度;(2)时间跨度不能太长,否则样本量较小。因此,本文选择了一个较为适中的时间跨度:月。为了避免内生性问题,本文将自变量V“冻结”在政客每个月第一条推特()。由于部分政客发布的推文会在几个月内都没有更新,留下较大的时间空隙,此时讨论几个月前的推文会影响当前政客行为则显得较为无理。故本文采用政客-时间“包裹”来标识保证数据中政客每个月都有推文数,并使用该政客当月发推数作为回归的权重。完整的回归模型如下:在这个回归中V与γ都是无法观测到的变量,因此本文采用一种网格搜索的方式来构造这两个变量。具体来说,在0-1的区间中以0.01为步长循环遍历每个可能的γ值,取其中回归平均方差最小的结果。最终确定的γ稳定在0.07左右。回归结果如表4所示。第一列△V的系数显著为正,说明政客确实会根据公众态度调整推特话题。第二列的回归结果可以看出,相较于男性政客,女性政客对公众态度更积极地反馈,这也符合本文的最初假设。第三列至第六列主要想进行一个简单的机制研究:造成政客对性别话题更加关注的原因可能来自于两个方面,一则是他们对于公众对性别话题反馈的积极反应,另一则是他们对公众对其他话题反馈而做出的反应冲淡了他们对性别话题的关注度。第五烈分别加入了个体时间趋势、上个月反馈、同类群体影响三个控制变量。从回归结果中可见,的系数显著为负,的系数显著为正,说明了“强化效应”和“冲淡效应”的存在。但系数的绝对值明显小于,说明强化效应在其中起主要的作用。在附录部分,本文从以下几个方面进行了异质性检验:(1)以“点赞数”代替“转推数”作为公众认可度的指标进行回归分析(2)以周度数据代替月度数据构建面板数据进行回归(3)取消基于政客-时间的加权(4)安慰剂检验本文猜测,可能有三条机制可以用于解释为什么民众更积极响应女性政客讨论性别话题:(1)政客在讨论不同政治话题时可能采取不同的文风,例如,女性政客可能更用心地撰写性别话题的推文。此时女性政客在性别话题推文上获得的积极反馈更高仅仅内生于其天生更偏好谈论性别话题;(2)民众更喜欢和与他们有着相同社会身份的人互动,特别当他们谈论与这种社会身份有关的话题时。也即,女性用户比男性用户更关注性别话题,而与女性政客互动的民众大多由女性用户组成;(3)民众更偏好政客谈论与其身份相一致的话题。本文希望证明机制2与机制3成立,而机制1不成立。本文通过多个因素评估写作风格:文本情感态度,字数,是否参加话题挑战,是否提到他人,表情符号数,推文是否含有链接,推文是否配图。并通过基于BERT的转推数预测来更精确地捕捉写作风格和民众积极反馈之间的关系。如图3所示,无论是加入有关风格的一系列变量还是预测变量,我们关心的交叉项系数(difference)的值与显著性都没有明显变化,说明“写作风格机制”并不能对本文的结论作出解释。
对于民众的自选择机制,首先探究:女性用户是否真的更关心性别话题。如图4所示,发现无论对于性别话题还是其他话题,女性用户的转推行为相较于男性都更为积极;并且即使是男性用户,也更积极地响应性别话题。但在话题类型的组内进行比较,会发现女性用户是关心性别问题的主力军。进一步的回归发现,女性用户确实更倾向于回馈女性政客的性别话题推特。由此形成一条完整的逻辑链,证明了自选择机制的存在。但是,我们也发现,男性用户也更倾向于回馈女性女性政客的性别话题推特,证明了自选择机制不是解释这个问题的唯一机制。在政治身份机制,我们更加关注用户个体的行为,探究他们是否更偏好政客发表与其社会身份相一致的政治观点。回归公式如下:其中u代表用户,因变量retweet是一个虚拟变量,代表用户u是否会对政客i发布的推文m进行转推。表5的第1列和第2列可以看出,用户确实更偏好女性政客发布性别话题。列3和列4进一步探究这种偏好主要是由男性用户推动还是女性用户推动,发现这种机制在两种性别的用户身上都能体现,女性用户体现得更明显。本文的结论通过还原了一个政客-民众的动态互动过程,有助于我们更好地理解对政客的政治代表性与他们对民意的反应,并且也揭示了这样一个现实:受制于有限信息,政客常常只能对他们能够“看到”的民意做出反应,而这种民意会以内他们身份的不同发生异质性扭曲。本文留待讨论的一些话题还包括:这种不对称的民意信息扭曲是否能被民意调查等其他方式改善,社交媒体的使用是否加剧了政客间政治观点的极端化,政客在推特上的发声是否能影响到他们的线下行为,以及这种动态互动模型是否体现在其他场景中。并且,本文也启发对于“沉默的声音”的关注:如果政客中女性的比例较少,是否对于性别话题的关注也会随之减少;这种基于政客身份的民众不对称回应以及选民代表制度是否会导致那些不被关注的话题始终沦为一个小众话题;这种不对称回应是否会影响到女性政客或是其他弱势身份政客的政治前途。笔者按:本文使用的较为新颖的方法论启发了我们思考是否可以应用中国社交平台数据进行一些探索(如新浪微博数据,知乎数据,购物平台评论数据等),并且本文从实证结论提炼出一个抽象理论的思路也值得我们学习与借鉴。综合来说,本文不失为一篇启发性强的好文。We study how politicians learn about public opinion through their regular interactions with citizens and how they respond to perceived changes. We model this process within a reinforcement learning framework: politicians talk about different policy issues, listen to feedback, and increase attention to better received issues. Because politicians are exposed to different feedback depending on their social identities, being responsive leads to divergence in issue attention over time. We apply these ideas to study the rise of gender issues. We collected 1.5 million tweets written by Spanish MPs, classified them using a deep learning algorithm, and measured feedback using retweets and likes. We find that politicians are responsive to feedback and that female politicians receive relatively more positive feedback for writing on gender issues. An analysis of mechanisms sheds light on why this happens. In the conclusion, we discuss how reinforcement learning can create unequal responsiveness, misperceptions, and polarization.
声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。
“分享”是一种学者的人文情怀,香樟经济学术圈欢迎广大订阅读者(“香粉”)向公众平台投稿,也诚邀您加入香樟推文team。生活处处皆经济,经济处处现生活。如果你或者身边的朋友看了有趣的学术论文,或者撰写了经济政策评论,愿意和大家分享,欢迎投稿(经济金融类),投稿邮箱:[email protected]。如果高校、研究机构、媒体或者学者,愿意与平台合作,也请您通过邮箱联系我们。投稿前请在搜狗的微信搜索里搜索已有图文,避免重复。