专栏名称: 天池大数据科研平台
天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
目录
相关文章推荐
数据派THU  ·  【NeurIPS2024】将连续潜在变量模型 ... ·  3 天前  
数据派THU  ·  清华软件论坛|C. Mohan:Data ... ·  5 天前  
数据派THU  ·  RAPTOR:多模型融合+层次结构 = ... ·  4 天前  
51好读  ›  专栏  ›  天池大数据科研平台

【干货】2010-2017最全KDD CUP赛题回顾及数据集下载

天池大数据科研平台  · 公众号  · 大数据  · 2017-03-03 22:16

正文

文中网址来源:KDD CUP官网
部分文字来源于网络

提示:本文中网址无法直接点击,复制粘贴至浏览器中即可查看


2010


Student performance evaluation


>>> 赛题介绍 

根据智能教学辅导系统和学生之间的交互日志,来预测学生数学题的考试成绩。该任务兼具实践重要性和科学趣味性。竞赛提供3个开发(develop)数据集和2个挑战(challenge)数据集,每个数据集又分为训练(train)部分和测试(test)部分。Challenge数据集的test部分被隐藏,参赛者需要开发一种学习模型,来准确预测这部分隐藏部分的成绩。

>>> 
大赛介绍

http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Intro

>>> 大赛数据集
http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Data



2011


Predict music ratings and identify favorite songs


>>> 赛题介绍


Track1任务:Predicting scores that users gave to various items

(音乐评分预测)


根据用户在雅虎音乐上item的历史评分记录,来预测用户对其他item(包括歌曲、专辑等)的评分和实际评分之间的差异RMSE(最小均方误差)。同时提供的还有歌曲所属的专辑、歌手、曲风等信息


Track2任务:Separation of loved songs from other songs
(识别音乐是否被用户评分)


每个用户提供6首候选的歌曲,其中3首为用户已评分数据,另3首是该用户未评分,但是出自用户中整体评分较高的歌曲。歌曲的属性信息(专辑、歌手、曲风等)也同样提供。参赛者给出二分分类结果(0/1分类),并根据整体准确率计算最终排名


>>> 该赛题官方已下线,无数据集下载



2012


>>> 赛题介绍


Track1任务:Predict which users(or information sources) one user might follow in Tencent

(社交网络中的个性化推荐系统)

根据腾讯微博中的用户属性(User Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表


>>> 大赛介绍

https://www.kaggle.com/c/kddcup2012-track1#description

>>> 大赛数据集

https://www.kaggle.com/c/kddcup2012-track1/data

Track2任务:Predict the click-through rate of ads given the query and user information
(搜索广告系统的pTCR点击率预估)


提供用户在腾讯搜索的查询词(query)、展现的广告信息(包括广告标题、描述、url等),以及广告的相对位置(多条广告中的排名)和用户点击情况,以及广告主和用户的属性信息,来预测后续时间用户对广告的点击情况


>>> 大赛官网介绍
https://www.kaggle.com/c/kddcup2012-track2#description

>>> 
大赛数据集
https://www.kaggle.com/c/kddcup2012-track2/data


2013


>>> 赛题介绍


Track1任务:Author-Paper Identification Challenge 


微软学术搜索是一个开放的平台,它涵盖了各种学术领域超过5000万的出版物和1900多万作者,并保持着每周更新的速度。提供这项服务的主要挑战之一是作者名称的歧义。一方面,很多作者倾向于使用不同的笔名。另一方面,不同的作者可能有一个相似甚至相同的名字。

因此,名字有歧义的作者往往会导致作品与作者对应问题。本届挑战要求参与者能在作者档案中识别出本人所著论文。


>>> 大赛介绍
https://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-challenge

>>> 大赛数据集
https://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-chal
lenge/data


Track2任务:Author Disambiguation Challenge


本届挑战要求参与者能在数据集中辨别出哪些作者是同一个人。


>>> 大赛官网介绍
https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation

>>> 大赛数据集
https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data


2014


Predicting Excitement at DonorsChoose.org


>>> 赛题介绍
KDD Cup2014要求参赛者帮助慈善网站DonorsChoose.org挑选有商业亮点的项目,所有项目都能满足某些特定需求,但是只有个别项目能大幅度超过平均水准。通过早期识别和推荐这些项目,他们能够获得更多的资金注入、更好的用户体验,同时帮助更多的学生获得他们需要的学习材料。

>>> 大赛介绍

https://www.kaggle.com/c/kdd-cup-2014-predicting-excitement-at-donors-choose

>>> 
大赛数据集
https://www.kaggle.com/c/kdd-cup-2014-predicting-excitement-at-donors-choose/data


2015


Predicting dropouts in MOOC


>>> 赛题介绍

MOOC在线学习平台上学生的逃课率极高,因此预测他们接下来是否会选择逃课将对保持和激励学生的学习积极性十分有益。在KDD Cup 2015,我们的主题在于预测学生在学堂在线这个全中国最大幕课平台中的逃课率。参赛者需要基于用户个人行为预测接下来10天内他们的逃课几率。

>>> 大赛介绍
http://www.kddcup2015.com/information.html

>>> 大赛数据集
http://data-mining.philippe-fournier-viger.com/the-kddcup-2015-dataset-download-link/


2016


Whose papers are accepted the most: towards measuring the impact of research institutions


>>> 赛题介绍
KDD Cup 2016将使用各类公开数据集,例如微软学术图谱(Microsoft Academic Graph, MAG),它将文献的发表和引用信息组织成异构图的形式,这样就可以挖掘图中具有影响力的作者、机构和地点等。该竞赛关注于学术机构的影响力识别。参赛者需要合力开发出一种基于文献发表和引用信息图谱的算法,挖掘在特定领域内最优秀的研究机构。

>>> 大赛介绍
http://www.kdd.org/kdd-cup/view/kdd-cup-2016

>>> 大赛数据集
http://www.kdd.org/kdd-cup/view/kdd-cup-2016/Data


2017


Highway Tollgates Traffic Flow Prediction


>>> 赛题介绍
高速公路收费站是交通网络中众所周知的瓶颈。如果可以提前预测接下来一小时的交通拥堵状况,那么交通管理部门可以及时采取措施进行上游路口的流量诱导和控制。KDD CUP 2017希望参赛者可以设计一套预测交通流量和车辆到达时间的算法,用算法和数据来赋能交通领域,减少拥堵的发生。

Task 1: To estimate the average travel time from designated intersections to tollgates(预测车辆从路口到收费站的平均用时)

Task 2: To predict average tollgate traffic volume(高速收费站车流量预测


>>> 大赛官网(点击阅读原文可直达)
https://tianchi.shuju.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.sQJkNz&raceId=231597

>>> 大赛数据集(尚未开放,3月6日公开)


目前KDD CUP 2017正在天池官网火热报名中
感兴趣的同学可以直接点击天池官网 
tianchi.com 报名
或者直接拖到文末
点击阅读原文查看


>>> 重要比赛节点


2017.3.6 : 数据集开放下载

2017.3.21 : 评测启动

2017.5.25 : 测试集更新&组队截止 

2017.6.1: 比赛结束

2017.6.7: 代码&说明文档提交

2017.7.15: 获胜者公布



>>> 奖金及激励


Task 1: 平均用时预测

1st place: USD 6,000

2nd place: USD 4,500

3rd place: USD 2,000


Task 2:车流量预测

1st place: USD 6,000

2nd place: USD 4,500

3rd place: USD 2,000


期待你的参与!

>>> 延展阅读
《七步学习数据挖掘与数据科学》via:云栖社区
https://yq.aliyun.com/articles/68449

想看更多大数据相关文章?

可以戳戳云栖社区看看有没有你想要的哦!


马上点击“阅读原文”查看KDD CUP 2017!