专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
艺恩数据  ·  艺恩祝大家中秋节快乐,花好月圆人团圆 ·  4 天前  
CDA数据分析师  ·  职场竞争力提升秘诀:为何越来越多人选择CDA ... ·  6 天前  
数据派THU  ·  Optuna发布 4.0 ... ·  5 天前  
数据派THU  ·  三元组损失Triplet loss 详解 ·  1 周前  
51好读  ›  专栏  ›  数据派THU

2024大数据挑战赛全国六强团队获奖经验+ppt分享(五)

数据派THU  · 公众号  · 大数据  · 2024-09-17 17:00

正文




团队名称

元胞自动机

团队成员

孙海鑫(苏州大学)

团队名次

全国第二名


赛题描述说明介绍


报名 | 2024中国高校计算机大赛——大数据挑战赛报名启动!


关注微信公众号“数据派THU”,后台回复“20240615”,即可获取“赛题描述”




参赛分享与收获





作为一个单人队伍,同时也是一个时间序列任务的新手,本人深切感受到本次比赛赛题对新手十分友好:1.赛题任务是时间序列预测任务,十分容易理解;2.数据的结构性非常好,数据特征易于理解;3.baseline模型强大,不需要过多尝试其他模型;4.协变量多,可以基于此进行充分的特征工程;5.平台优秀,竞赛平台提供服务器用于结果复现,同时技术人员十分尽职尽责;6.组织优秀,组委会尽力听取选手对于赛制的合理建议并做出改善;7.友好交流,初赛期间设置“周周星”经验分享帮助新手快速开始竞赛。

正所谓以赛促学,本次比赛我受益颇多:在每天不断搜寻资料、与大模型对话、对自己各种想法进行实验的过程中,我的专业知识得到了飞速的增长,同时在选手群中和其他选手交流也使我受益匪浅;在决赛万众瞩目的舞台上,我受到了评委们的认可,这让我更加自信,对自己未来的道路规划也愈发清晰。

在经验分享方面,我有三个感悟想与大家分享。

第一,这是比赛而不是科学研究,我们的出发点不应是某个策略是否创新,而是它能否提分,因此我们要抓住赛题和数据的特点,为这种特点专门制定对策:在本次比赛中,测试集和训练集的数据分布差异极大,常规交叉验证完全失效,十分考验模型的泛化能力。我抓住了赛题数据这一特点,使用先聚类再划分验证集的方法进行交叉验证,尽最大可能检验了模型的泛化能力,从而保证调出的参数和特征都是有效的。

第二,首先,我很认同“特征工程决定上限,模型决定是否能达到上限”,但是我觉得,在很多下游任务中,在进行特征工程之前,模型可能还远远没达到那个上限,与其费劲心思特征工程,不如先“躺下来”调参和集成,调得差不多了再进行特征工程。

第三,在一切尚未尘埃落定之前,即使身处最后的境地,也不要放弃。或许,这正是炼丹之神对你耐心的考验呢?

最后,感谢比赛的主办方、承办方、协办方和平台提供的宝贵的比赛机会,感谢评委老师们、清华大学的老师们以及我的父母对我的大力支持与肯定。





决赛答辩ppt分享





编辑:文婧
校对:丁玺茗



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。


新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU