专栏名称: AirPython
分享 Python 自动化及爬虫、数据分析实战干货,欢迎关注。
目录
相关文章推荐
中国能源报  ·  智利停电最新进展→ ·  昨天  
中国能源报  ·  智利停电最新进展→ ·  昨天  
湖北药监  ·  我国海洋经济总量首超十万亿元 ·  2 天前  
宁夏药安早知道  ·  我国海洋经济总量首超十万亿元 ·  2 天前  
甘肃政务  ·  我国海洋经济总量首超十万亿元 ·  2 天前  
文明内蒙古  ·  警钟长鸣!内蒙古一女子酒驾酿祸 ·  2 天前  
51好读  ›  专栏  ›  AirPython

教你使用 3 行 Python 代码获取海量数据

AirPython  · 公众号  ·  · 2020-12-18 12:03

正文


一谈起数据分析,首先想到的就是数据,没有数据,谈何分析


毕竟好的菜肴,没有好的原材料,是很难做的~


所以就给大家分享一个获取数据的方法,只需 3 行代码就能搞定


「GoPUP」,大佬造的轮子,大概有 100+ 的免费数据接口



GitHub: https://github.com/justinzm/gopup


使用文档: http://doc.gopup.cn/#/README


主要有指数数据、宏观经济数据、新经济数据、微博KOL数据、信息数据、生活数据、疫情数据等


# 安装gopup
pip install gopup  --upgrade


安装成功后,就能使用了


01 微博指数


获取指定关键词的微博指数


# 微博指数
import gopup as gp
df_index = gp.weibo_index(word="马保国", time_type="1month")
print(df_index)


time_type="1month"; 1hour, 1day, 1month, 3month 选其一



三行 Python 代码实现数据获取


02 百度指数


获取指定关键词的百度搜索指数


# 百度指数
import gopup as gp
cookie = "此处输入您在网页端登录百度指数后的 cookie 数据"
index_df = gp.baidu_search_index(word="马保国", start_date='2020-11-15', end_date='2020-11-25', cookie=cookie)
print(index_df)


需要登陆百度指数,获取你的Cookie



设置关键词,时间起始,就能获取到马保国老师的热度数据了



后面还有百度资讯、媒体、需求图谱、人群年龄、性别、兴趣分布数据接口,就不一一介绍了


感兴趣的同学可以自行去查看文档。


03 头条指数



获取指定关键词的头条指数


# 头条指数
import gopup as gp
index_df = gp.toutiao_index(keyword="马保国", start_date='20201115', end_date='20201125')
print(index_df)


接口挂了,不知为何~


还有相关性、情感、地域、城市、年龄、性别、用户阅读兴趣分析数据等接口


04 谷歌数据


需要通过代理才能使用,不过上面这三类已经完全够用了


# 谷歌数据
import gopup as gp
index_df = gp.google_index(keyword="马保国", start_date='2020-11-15T10', end_date='2020-11-25T23')
print(index_df)


05 宏观经济数据


有一个杠杆率的数据可以使用


# 杠杆数据
import gopup as gp
df_index = gp.marco_cmlrd()
print(df_index)


不懂经济学,所以不明觉厉



06 新经济数据


这个数据倒是蛮有趣的,主要是公司数据


比如独角兽和倒闭公司的数据


# 独角兽公司数据
import gopup as gp
df_index = gp.nicorn_company()
print(df_index)


一共是 240 家独角兽公司



蚂蚁、字节、阿里云、滴滴,都是行业中的大佬


# 倒闭公司数据
import gopup as gp
df_index = gp.death_company()
print(df_index)


倒闭的公司一共有 6921 家



看到不少 P2P 的公司


剩下还有有一个特许经营许可数据,好像是吊牌销售的意思


前段时间看到一篇文章,讲的就是南极人吊牌销售的事情,南极人都不自己搞生产,而是代工


07 KOL数据&信息数据


主要是微博的 KOL,所以没啥用


# KOL数据
import gopup as gp
g = gp.pro_api(token = "……")
df_index = g.weibo_user(keyword="雷军")
print(df_index)


信息数据是新闻联播文字稿


08 中国油价数据


包含汽油和柴油的调价信息数据


# 油价数据
import gopup as gp
df_index = gp.energy_oil_hist()
print(df_index)


时间从 2000 年直到 2020 年,细数 20 年油价变化



09 百度迁徙数据


可以用来做飞线图或者 OD 图


# 迁徙数据
import gopup as gp
migration_area_baidu_df = gp.migration_area_baidu(area="湖北省", indicator="move_in", date="20200201")
print(migration_area_baidu_df)

单次返回 100 个城市的数据



10 影视数据


实时电影票房数据,最近又有病例出现,数据应该也比较惨淡


这里需要一个 WebDES.js 文件,才能请求成功


# 实时电影票房数据
import gopup as gp
df_index = gp.realtime_boxoffice()
print(df_index)


「如果声音不记得」当日 1 千万的票房,太少了



单日影院数据,今年影院能倒闭一大堆


# 单日影院数据
import gopup as gp
df_index = gp.day_cinema(date="2020-12-08")
print(df_index)


得到票房前 100 的数据



最高应该是 8 万多的收入







请到「今天看啥」查看全文