专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  【最大的AI生物模型Evo ... ·  20 小时前  
量子位  ·  马斯克“地表最强”Grok ... ·  2 天前  
量子位  ·  马斯克“地表最强”Grok ... ·  2 天前  
爱可可-爱生活  ·  【Awesome-Slow-Reason-S ... ·  2 天前  
机器之心  ·  刚刚,Ilya被曝正筹资超10亿美元、估值超 ... ·  2 天前  
中国人工智能学会  ·  活动预告丨解码DeepSeek“破圈”之力, ... ·  3 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】如何使用Python处理Missing Data

机器学习研究会  · 公众号  · AI  · 2017-04-08 19:01

正文



点击上方 “机器学习研究会” 可以订阅哦
摘要

转自:大数据应用

现实世界的数据中常常包含缺失的数据。原因很多,比如观察结果没有记录,或数据损坏。处理缺失的数据很重要,因为许多机器学习算法不支持具有缺失值的数据库。


本教程将讨论如何使用Python处理缺失的数据来进行机器学习。



您将了解到:

- 如何在数据集中标记无效或损坏的值。

- 如何从数据集中删除缺失数据的行。

- 如何使用数据集的均值估算缺失值。


注意: 文章中的例子前提是安装了Python 2或3,Pandas,NumPy和Scikit-Learn的;特别是scikit-learn版本0.18或更高版本。


概述

本教程分为6部分:

  • 皮马印度人糖尿病数据集: 我们在哪里查看已知缺失值的数据集。

  • 标记缺失值: 我们学习如何在数据集中标记缺失值。







请到「今天看啥」查看全文