最近注册了Kaggle,发现里面有很多数据集可以玩,比如NBA投篮数据。
数据囊括了14,15年nba所有场次共128069条投篮记录
主要字段解释:
LOCATION : 主场H/客场W
W :W赢/ L输
FINAL_MARGIN:最终分差
SHOT_NUMBER :第几次投篮
PERIOD :第几节
SHOT_CLOCK:投篮时,篮板显示的时间即还剩几分钟该节结束
DRIBBLES :投篮前运球数
TOUCH_TIME:持球时间
SHOT_DIST:投篮距离
PTS_TYPE:2分/3分
CLOSE_DEF_DIST:最近防守人距离
FGM:1投进/0没投进
PTS :得分
SHOUT_RESULT;made投进/missed没投进
1. 是否真的有主场优势
2. 什么样的方式投篮命中率最高
df = pd.read_csv('C:/Users/Desktop/shot_logs.csv')
pd.crosstab(df.LOCATION ,df.W ,normalize = True)
W L W
LOCATION
A 35496 28639
H 27978 35956
显然主场胜率 56.23% 比客场 44.65%高!
#决策树R语言(因为R语言可以直接画图)
library(party)
myFormula
得到两个显而易见的结论
当投篮距离小于4.8英尺(1.46米),距离最近防守人超过4.5英尺(1.37),投篮命中率几近90%,ps:勇士队的无球跑动冠绝联盟。当投篮距离大于19.3英尺(5.88米),投篮命中率不到40%
持球时间大于1.5s相比持球时间小于1.5s,命中率会降低很多