Every computer science student is expected to know below
这篇博客中,主要用到了pandas的数据清洗和分析工作,同时也用到了sklearn中回归预测的知识,非常的简单,但是产生了较好的预测效果。所有的数据都是可以下载的,重复这些代码也是能够完全重现以上的这些结果的,如果你有疑问,那么可以参考英文原博客[blog1] [blog2],和原作者的github可以下载完整的代码和数据,
原文:
https://jakevdp.github.io/blog/2014/06/10/is-seattle-really-seeing-an-uptick-in-cycling/
https://jakevdp.github.io/blog/2015/07/23/learning-seattles-work-habits-from-bicycle-counts/
Part 1: 研究问题:
在美国西雅图市,好像人们对自行车越来越喜欢了,从越来越多的自行车俱乐部可以看出端倪。在我们的传统印象中,似乎骑自行车只是作为业余爱好,那么在西雅图是不是也是这种情况呢,自行车的使用情况随着周一到周末会有怎么样具体的变化呢,天气又对人们使用自行车的决定有多大的影响呢,下面我将尝试着回答这些问题。
Part 2:研究工具
本文使用的是python3.4+ipython notebook + pandas + numpy +sklearn,,其实以上的这些只用装一个Anaconda就可以完全解决了,数据是开源的,所有的结果是完全可重现的。
Part 3: 让数据说话
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
hourly = pd.read_csv(r"E:\研究生阶段课程作业\python\好玩的数据分析\SeattleBike-master\FremontHourly.csv",parse_dates=True,index_col="Date")#读入数据,同时默认“Date作为index”
hourly.sample(n = 10) #随机抽取10行查看情况
随机抽样10行
上面的几行代码,首先是我们读入数据,这些数据可以在作者的github直接下载,https://github.com/jakevdp/SeattleBike
在这里我们读入数据的时候,做了一些小的处理,把csv文件中的"Date"字段当做日期处理。
hourly.columns = ['northbound', 'southbound'] #把列名改的简单一些,两个列名代表自行车经过时的方向。
hourly["total"] = hourly.northbound + hourly.southbound #新加一列,计算每个时刻自行车的总数
daily = hourly.resample("d",how='sum') #对数据框的日期按照天进行重采样,属于同一天的加在一起
weekly = daily.resample('w', how = 'sum') #对数据框的日期按照天进行重采样,属于同周的加在一起
weekly.plot()
从2013年到2014年西雅图市自行车行驶情况
从可视化结果上看,我们的第一眼直觉告诉我们,在2014年5月左右,西雅图街上的自行车最多,超过了32000/每周,上图,我们可以隐约看出来和2013年相比,2014年的自行车数量有所增加.
另外我们发现,夏天好像人们使用自行车的数量会异常的多,难道是夏天人们更愿意骑自行车吗,还是因为夏天,白昼时间会更长一些导致的呢。
原文链接:
http://mp.weixin.qq.com/s/9VXH5p8JWaagy2pO7wr8XQ