专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
程序猿  ·  我抛弃了 VS Code,拥抱这个爆火的 IDE! ·  3 天前  
OSC开源社区  ·  2024前端现状:开发者最爱用React、最 ... ·  5 天前  
程序猿  ·  Python首次超越JavaScript,G ... ·  1 周前  
OSC开源社区  ·  Node.js开始反击 ·  1 周前  
51好读  ›  专栏  ›  OSC开源社区

使用 PHP 和 GDELT 2 来分析世界!

OSC开源社区  · 公众号  · 程序员  · 2016-12-27 08:34

正文

长按图片识别二维码报名参与码云用户见面交流会


你对政治事件感兴趣吗? 你想玩转世界上最大的数据库之一吗? 如果你的回答是“是”,请往下阅读,相信你会对本文内容感兴趣!
本文承诺,接下来会使用 PHP 来操作 GDELT。
我会用一个简单例子来说明如何通过 BigQuery 和 PHP 来操作 GDELT,以及如何在网页上可视化结果等。

GDELT


GDelt(“全球事件,语言和音调数据库”)是世界上最大的政治事件开放数据库。 它由 Kalev Leetaru(个人网站)根据 Philip A. Schrodt 和其他人在2011年的工作开发而来。数据可以通过 zip 文件下载,并且自2014年以来,可以在 Google 的 BigQuery 网络界面查询,并通过其 API 和 GDELT 分析提供服务。
GDELT 项目:

以超过100种语言来监测来自每个国家的几乎每个角落的广播,印刷和网络新闻,并且识别每分每秒推动全球社会的人,地点,组织,计数,主题,来源,情绪,报价,图像和事件,为整个世界创建一个免费开放的计算平台。


在线测验


所有 GDELT 数据都由 BigQuery 提供。这个“大数据”数据库有一个 Web 接口,允许你查看表结构、预览数据,并支持使用自动提示功能进行查询的方式。 
为在线体验 GDELT 数据集,你需要注册一个 Google 帐户,然后转至 
BigQuery 信息中心。
如果你还没有 Google Cloud 项目,系统会提示您创建,因为此项目将是你的工作环境所必须的。
您可以通过“组合查询”创建自己的查询。 比如:



GDELT 工具和 APIs


GDELT 允许你从其网站快速创建可视化数据。转到分析页面,创建选择,随后可视化数据的链接将会以邮件形式发送给你。

GDELT 近期开放了两个 API,你可从单个 URL 中创建自定义数据反馈。这些 F 反馈可以直接进入 CartoDB,并用于创建实时可视化数据。

你可以查询 GDELT 并使用工具创建可视化数据。应用示例参考:由 Kenneth Davis 制作的为难民献爱心的方案,他从GDELT 全局知识图 API 获取数据,并使用 CartoDB 可视化;由 CuriousGnu 制作的大家是如何看待希拉里·克林顿和唐纳德·特朗普,他通过将查询结果下载为 CSV 文件,之后将其导入 CartoDB 中。


概念: CAMEO 的本体论


为了使用 GDELT,你需要知道至少一些基本概念。 这些概念是由 Philip A. Schrodt 创建的,最终形成 CAMEO 本体论(用于冲突和中介事件观察)。

  • 事件(Event)是两个团体间的政治互动。其事件代码描述了事件类型,例如,1411:“因领导变动而示威游行或集会”。

  • 行动发起者(Actor )是参与事件的二者之一。Actor 可能是在一个国家范围内,也可能超出国家范围,如国际组织、运动或公司。Actor 编码包含一个或多个三字母缩写序列。例如,每个三元组指定一个 actor。 NGO=非政府组织,NGOHLHRCR(NGO HLH RCR)=非政府组织/卫生/红十字会。

  • 事件的音调(Tone)是一个取值范围在 -100(负无穷)和 +100(正无穷)之间的分数。 最常见的值位于 -5 和 5 之间。

  • 事件的戈德斯坦得分(Goldstein scale)是一个取值范围在 -10 和 +10 之间的分数值,其表征该类事件将对国家的稳定性可能产生的影响的大小。