专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  【NeurIPS2024】从因果角度重新思考 ... ·  昨天  
CDA数据分析师  ·  【干货】数据分析可视化【热力图分析】 ·  3 天前  
软件定义世界(SDX)  ·  埃森哲集团数字化顶层规划 ·  3 天前  
CDA数据分析师  ·  【干货】数据分析模型之【归因模型】 ·  1 周前  
51好读  ›  专栏  ›  数据派THU

干货 | 清华Python编程入门分享会第三期

数据派THU  · 公众号  · 大数据  · 2024-11-05 17:00

正文



本次分享会是由五道口金融学院和大数据协会联合举办的系列讲座,以初级python入门为主,是为非计算机非数据科学专业,但有助于学习编程的同学量身定制的精品讲座。目标是为未来数据分析人才配备先进的编程理念和操作技巧,强化学科研究能力,促进跨学科交流与合作。本次分享会由自动化系博士生陈鹏宇主讲,主题为Python编程在科研实战中的应用。分享会介绍了kaggle平台,这是一个面向数学科学家和机器学习爱好者的在线平台,提供了一系列工具和服务,促进数据科学项目的发展和应用。kaggle平台主要提供了竞赛、公开数据集和学习资源三部分内容,用户可以免费下载这些数据集,用于学习研究或者竞赛。此外,分享会还介绍了kaggle平台的比赛类型、难度和学科领域对应关系等内容。





一、机器学习竞赛操作指南


主要介绍了一个在线竞赛平台,包括比赛介绍、数据、notebooks、讨论、leader board等功能。该平台提供了一个入门环境,让大家熟悉Python进行机器学习的学习流程。比赛的数据集来源于真实场景,如泰坦尼克号灾难,要求根据乘客信息预测他们是否幸存。用户可以通过下载数据集或安装kaggle来获取数据。



二、数据处理与机器学习模型训练


主要介绍了如何在VS code中打开应用code的命令,查看文件夹中的文件。习题没有提交要求,可以提交最终输出结果或脚本。在网页中新建notebook,编辑后上传到服务器端。推荐在本地编程好后再上传结果。接下来介绍了如何解决一个实际问题,包括数据预处理、特征工程、特征选择、使用统计机器学习算法训练模型、验证评估模型性能等步骤。


三、机器学习问题解决步骤与算法选择


主要讲述了如何评估机器学习模型的效果。首先,从训练集中选取一部分样本作为验证集,通过交叉验证来评估模型的分类效果。其次,对于数据中的缺失值,可以选择直接舍弃或根据常识进行补充。最后,介绍了几种常用的分类器,如决策树、K近邻、随机森林等,并提供了在官网文档中查找相关算法的方法。



四、数据预处理与特征选择


主要介绍了如何处理训练集和测试集,以及如何进行数据预处理。首先,将训练集和测试集读入,并打印其形状和特征维度。然后,通过describe函数查看各特征的统计信息,如数量、平均值、标准差等。接着,对数据进行预处理,如去掉字符串变量、填充缺失值等。最后,对字符串变量进行去重和类型转换,以便模型能够正确处理。


五、数据处理与模型训练过程


本段内容主要讲述了如何对数据进行处理,包括使用enumerate函数对不重复的元素进行编号,使用map函数将字符型变量转换为0到1的数,以及将数据类型为字符串或对象的数据转换为0到N-1的数。接着,通过决策树模型对处理后的数据进行预测,并使用交叉验证函数进行模型训练和评价。最后,在训练集上,模型的准确率约为74%

六、模型测试与结果上传系统操作指南


主要讲述了如何使用模型进行预测,将预测结果转换为pandas的series类型,并将其保存到CSV文件中。接着,介绍了如何在系统中提交预测结果,包括选择文件、查看结果等步骤。最后,提到了在服务器端运行代码,并展示了如何提交代码和查看执行结果。整个过程中,强调了机器学习的核心在于特征工程和数据预处理。


七、机器学习算法优化与实践


主要讲述了机器学习算法在二分类问题上的准确率,以及如何提高准确率。首先,算法本身具有一定的随机性,但70%多的准确率对于二分类问题来说已经足够好。其次,提高准确率的途径包括对问题本身有足够的了解,熟悉数据并进行特征工程。最后,通过可视化等方式熟悉数据的分布,有助于更好地分析问题。需要注意的是,没有一个统一的方法去解决所有机器学习问题,需要根据具体问题进行相应的处理。


八、数据处理与特征工程实践


主要讲述了如何处理缺失值、特征工程以及模型选择和参数调优的过程。首先,通过常识和专业知识对缺失值进行处理,然后提取头衔信息,整合相近的特征,并对新特征与标签之间的关系进行分析。接着,根据问题背景和专业知识进行特征工程,构建模型,并通过交叉采样法选择最佳分类器。最后,通过网格搜索调优参数,绘制ROC曲线,选出最优参数。



九、机器学习模型评价与优化


主要介绍了特征工程、混淆矩阵和ROC曲线在机器学习中的应用。首先,特征工程是为了提高机器学习的上限,常见的特征工程思路包括编码、分组统计、构建高阶交叉特征等。其次,混淆矩阵是用来评价二分类问题的模型准确性的指标,准确率等于True Negative和True Positive之和除以四个元素的总和。最后,ROC曲线反映的是当阈值改变时,漏检率和虚警率的变化曲线,ROC曲线的面积越接近零,模型的预测准确性越高。




往期回顾

干货 | 清华Python编程入门分享会第一期

干货 | 清华Python编程入门分享会第二期

编辑:文婧

校对:丁玺茗



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU