专栏名称: 迪壹时事
您好,欢迎光临迪壹时事!我们将与您一起关注国内外时事热点;分析当前国家安全形势;分享爱国主义情怀;增强国防教育时代感;解读党的最新政策等!为实现中国梦贡献自己的绵薄之力!
目录
相关文章推荐
美股投资网  ·  马斯克遗嘱都写好了!特斯拉破位了,All ... ·  昨天  
豆瓜的投资笔记  ·  外围又暴涨了 ·  昨天  
豆瓜的投资笔记  ·  外围又暴涨了 ·  昨天  
固收彬法  ·  信用 | 各省两会报告看化债 ·  3 天前  
老铁股道  ·  突然,起飞爆发! ·  3 天前  
海龟社区  ·  A股这个逻辑,大家明白不? ·  3 天前  
51好读  ›  专栏  ›  迪壹时事

白宫版“潜伏”,数据分析锁定副总统

迪壹时事  · 公众号  ·  · 2018-09-19 00:00

正文

大数据文摘作品

作者:魏子敏


中期选举前,特朗普政府上演了一场“潜伏”版“水门事件”,而由于一位程序员及其在GitHub上发布的行文风格相关性分析,这位匿名告密者的身份被迅速锁定在副总统身上。


这次的结果也似乎会与当年的尼克松大有不同。


先来看看事情的经过。


9月5日,《纽约时报》发表了一封匿名来信《我是特朗普政府中的一名抵抗者》,作者自称特朗普总统身边的高管,对特朗普的执政大肆批评并揭露了不少白宫内幕,称政府内部存在针对特朗普的“抵抗力量”。来信中他表示,为了美国的利益,自己一直“潜伏”在总统身边,让总统的很多错误决定无法执行。


《纽约时报》表示已经确认了该高官身份,但是为了保护他,选择了匿名发布这篇文章。


纽约时报报道👆


纽约时报报道链接:

https://cn.nytimes.com/opinion/20180906/trump-white-house-anonymous-resistance/


尽管自特朗普上台以来,反对之声就一直不绝入耳。但这次曝光者自称来自特朗普身边高层,且自称正百般阻挠各种政策实施。并且特朗普还不知道他是谁。这让特朗普大为光火。


纽约时报报道配图👆


文章发布后,特朗普迅速在推特上高呼“谋反(TREASON?)”,要求《纽约时报》把这个胆小的匿名者交给政府。



这件事到此或许还是停留在政府层面的一场闹剧。但是很快,事情就发生了新转机。


几天前,一位名叫Michael W. Kearney的程序员在GitHub公布了一个脚本,用神经网络,将这封来信的行文风格和用词与每个白宫高管的推特文本进行了分析对比,并分别求出了相关系数。


Github链接👇

https://github.com/mkearney/resist_oped/blob/master/README.md


运行结果是副总统(VP, Vice President)的相关系数最高。



GitHub上的这一分析结果和白宫的某些调查不谋而合。据美联社报道,白宫有分析结果称,评论文章中出现了“lodestar”这一不常见词汇,正是美国副总统经常使用的语言,一些人因而猜测彭斯是匿名作者。


接下来,事件矛头直指美国副总统迈克·彭斯。


为证清白,彭斯在接下来的几日做客两档电视节目,说愿接受测谎仪检测,同时为属下作担保,愿意接受任何政府审核。


当然,也有人称,在GitHub公布的分析结果可以看出,特朗普的系数0.798661比副总统的系数0.801063差距非常小,这是否是中期选举前特朗普自导自演的一出大戏还不得而知。


这位让副总统伤脑筋的程序员也并非等闲之辈。


从GitHub的个人主页可以看出,Michael W. Kearney的真实身份是密苏里大学新闻学院的副教授,同时也在学校信息学院任职,教授大众媒体、政治传播、定量研究方法和数据科学课程。


目前的研究重点正是在新媒体环境中的党派选择性曝光,可以说是一位兼具新闻传播知识和程序技能的大咖。


Michael W. Kearney的research gate的主页介绍👇


Michael W. Kearney在密苏里大学的个人主页 👇 https://mikewk.com/



或许这次,程序员真的要拯救世界了。


最后,附上Michael W. Kearney在GitHub上发布的这篇手稿。


原文链接👇

https://github.com/mkearney/resist_oped/blob/master/resist-oped-text-similarity.md


题目:使用数据科学识,推测谁 撰写了《纽约时报》关于特朗普政府内部抵抗的专栏文章


昨天,“纽约时报”发表了一篇关于白宫内部抵抗的评论文章。它是由一位匿名作者撰写的,这名作者被称为“特朗普政府的一名高级官员”。


很多人都在猜测撰写这篇专栏文章的作者,早期猜测的线索是“lodestar”这个词的使用。据悉,副总统迈克·彭斯经常使用这个词。其他人则认为,匿名作者故意往 彭斯身上泼脏水


我们可能永远不知道是谁真正撰写了这篇文章。但是,就目前而言,我想指出的是,虽然分析白宫高级官员的沟通模式是有据可循的,但这样做却忽视了数据科学的最新进展。


那么,可以通过过去的通信记录来帮助识别匿名作者吗?


其实数字媒体和数据科学现有技术,使我们可以在相对较短的时间内获得(无论是否准确)见解。而且由于我做的很多工作都涉及到分析Twitter上所展示的政治沟通,我想我会试着用它来展示一些数据科学培训案例,这仅仅需要大量数据和一点时间。


分析过程


首先,我从纽约时报专栏中获取了文本。


1、我收集了专栏文本


接下来,因为我需要一些样本来与专栏的文本进行比较,所以我转向Twitter。由于时间的缘故,我决定将我的分析范围锁定在总统内阁成员身上。


2、我从使用推特的特朗普“内阁”那里收集了最新的3,200条推文


通过参考文本和Twitter推文样本,之后我逐段拆分专栏文本,大致匹配推文的长度。


3、我将专栏文本分成段落


使用与名称或“op-ed”的作者进行匹配,然后为每个文本字符串提取了超过100个特征。这些特征包括大写、标点符号(逗号、句号、感叹号等)、空格的使用、单词长度、句子长度、'待成'动词的使用、以及词维度的大量词库表示,这类似于将常用单词划分为八十个不同的主题,然后测量每个文本使用相关主题的单词程度。


4、我将每个文本转换为107个数字要素


最后,为了对op-ed和名称之间的相似性进行实际测量,我平均了作者所特有的数字,然后使用这些值来估计专栏文本和Twitter用户文本(关联度量范围从-1到1)之间的相关性。


5、我估计了专栏文本和每个内阁成员帐户发布的推文之间的相关性


你可以找到我在Github上使用的代码。这是相关系数的直观表示:








请到「今天看啥」查看全文


推荐文章
豆瓜的投资笔记  ·  外围又暴涨了
昨天
豆瓜的投资笔记  ·  外围又暴涨了
昨天
固收彬法  ·  信用 | 各省两会报告看化债
3 天前
老铁股道  ·  突然,起飞爆发!
3 天前
海龟社区  ·  A股这个逻辑,大家明白不?
3 天前
新疆949交通广播  ·  大年二十九 还在赶路的你千万别超速!
8 年前