专栏名称: 天池大数据科研平台
天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
目录
相关文章推荐
数据派THU  ·  白话版Scaling Laws for ... ·  3 天前  
软件定义世界(SDX)  ·  史上首次,DeepSeek登顶中美AppSt ... ·  5 天前  
软件定义世界(SDX)  ·  这篇对 DeepSeek 的分析:获马斯克点赞 ·  4 天前  
51好读  ›  专栏  ›  天池大数据科研平台

IJCAI-17大神分享之神雕侠侣的优胜秘籍!可下载!

天池大数据科研平台  · 公众号  · 大数据  · 2017-04-25 23:55

正文

天池技术圈上线不久,新推出的代码托管沉淀功能已经受到小伙伴们的支持啦~!

关于代码托管功能的详情,感兴趣的同志可以阅读小天的历史消息查看哦:
《【必读】天池技术圈上线!比赛答疑、项目沉淀、干货学习唯一通道!》

小天这次要给你们推荐的是IJCAI-17大赛TOP4队伍,去年获得TOP1的学霸情侣——李中杰&姚易辰,他们在今年IJCAI-17大赛的比赛思路。



IJCAI-17口碑商家客流量预测排行榜)

Flamingo Rank4

李中杰,姚易辰

清华大学热能系,清华大学工程力学系

[email protected], [email protected]



  • https://www.wunderground.com

  • 降水量:表格为PRECIP.csv

  • 采样周期为日,爬取程序为Weather_underground_day.py。

  • 详细天气:表格为WEATHER_raw.csv,各地采样间隔不定,最短为30min,最长为3h,爬取程序为 Weather_underground_hour.py。

  • 降水指数和天晴指数:feature/WEATHER_CON_LEVEL.csv 中RAIN_IND及CLEAR_IND对应列。

  • 人体舒适度指数:SSD=(1.818t+18.18)(0.88+0.002f)+(t-32)/(45-t)-3.2v+18.2 其中:温度t,湿度f,风速v

  • 城市天气确定:通过城市经纬度计算城市到各机场距离,城市对应天气采用与之最近的机场信息。




我们团队解题方案的整体架构如上图所示,最终销量预测结果由未来14天常规销量预测及双11修正系数预测两步两部分组成。通过双11修正系数,分别对于2016-11-11,2016-11-12,2016-11-13三天的销量按照1.0,0.2,0.1倍的系数作乘法修正。双11修正部分训练采用xgboost单模型,特征为商家特征信息,标签为2015年双11当天的销量增量百分比。常规销量预测部分,采用基本模型有4套,分别为2套xgboost模型(特征处理及数据清洗程度不同),GBDT模型和均值模型。对于模型训练的具体说明如下:


特征与标签说明
历史销量特征过去21天的历史销量
节假日特征过去21天及预测14天的节假日标注
天气特征过去21天及预测当天附近4天(之前两天,当天,之后一天)的降水量,人体舒适度SSD值,SSD值日增量,降水指数,天晴指数
商家特征平均View/Pay比值,平均每天开店时间,关店时间,开店总时长;首次营业日期,非节假日销量中位数,节假日销量中位数,节假日/非节假日销量比值;商家类别,人均消费,评分,评论数,门店等级
标签未来14天日销量


训练方法: 采用xgboost单模型训练,由于双11当天对应的工作日不同,2015年数据并不能很好反映出2016年双11节假日情况,且超市便利店类商店存在大量的数据缺失。为防止过拟合,参数设置均较为保守,最大深度为2,且加了较大的L1正则项,具体如下: max_depth = 2, learning_rate=0.01, n_estimators=500, reg_alpha=10, gamma = 1

https://www.wunderground.com 按天读取机场所在地信息,爬取信息包含7列分别为[Port, Date, Precip , Rise_act, Rise_cil, Set_act, Set_cil],对应内容为[机场代号,日期,降水量,真实日出时间,修正日出时间,真实日落时间,修正日落时间]。

additional/Weather_underground_hour.py

https://www.wunderground.com 按小时读取机场所在地信息,爬取信息包含14列分别为[Port, Date, Time, Temp, Bodytemp, Dew, Humidity, Pressure, Visibility, Wind_dir, Wind_speed, Gust_speed, Event, Condition],对应内容为[机场代号,日期,时间,气温,体感温度,露点,湿度,压力,能见度,风向,风速,阵风强度,气象事件,气象条件]。


Step3:特征生成

feature/ WEATHER_FEATURES.py    

生成天气特征表 WEATHER_FEATURES.csv,包含四项,分别为人体舒适度SSH值,SSH值日增量,降水指数,天晴指数。

feature/ SHOP_FEATURES.py

生成商家特征表SHOP_FEATURES.csv,包含平均View/Pay比值,平均每天开店时间,关店时间,开店总时长;首次营业日期,非节假日销量中位数,节假日销量中位数,节假日/非节假日销量比值;商家类别,人均消费,评分,评论数,门店等级。

feature/ TEST_SELLS.py

生成测试集历史过去三周销量表格,修正异常销量,以历史过去14天销量的 为限制,其中 为均值, 为均方根

feature/FEATURE_MERGE.py

整合所有特征,生成方便训练模型读取的X.csv, Y.csv, Xtest.csv三个表格


Step4:常规销量模型训练

model/xgb_model1.py,model/xgb_model2.py,model/ GBDT_model.py

GBDT模型,详见3.1

model/correlation_model.py

均值模型,详见3.2


Step5:双11修正系数训练

model/ DOU11_model.py

双11修正模型,获得双11当天销量增加百分比


Step6:模型融合

model/model_blend.py

各模型融合并作双11修正生成最终提交结果