专栏名称: Python学习交流

每天更新，更新python相关的知识。希望诸君有所收获！

目录

相关文章推荐

Python爱好者社区 · 史上最强！PINN杀疯了 · 昨天

Python爱好者社区 · 英伟达憾失DeepSeek关键人才？美国放走 ... · 昨天

Python爱好者社区 · 1885页的Python完全版电子书 · 3 天前

Python开发者 · o3-mini 碾压 DeepSeek ... · 6 天前

Python开发者 · 请立即拿下软考证书（政策风口） · 4 天前

51好读 › 专栏 › Python学习交流

数据科学家带你用使用NumPy和Pandas进行Python式数据清理！

Python学习交流 · 公众号 · Python · 2018-04-18 16:08

正文

>>> import pandas as pd>>> import numpy as np

例如，在上一节使用的数据集中，可以想象到，图书管理员如果需要搜索记录，他也许输入的是书籍的唯一标识符（ Identifier 列）：

>>> df['Identifier'].is_uniqueTrue

让我们用 set_index 来替换现有的索引

>>> df.get_dtype_counts()object 6

其中出版日期一列，如果将其转化为数字类型更有意义，所以我们可以进行如下计算：

很好！本节完成了！

我们将用这两个函数来清理 Place of Publication 一列，因为此列包含字符串。以下是该列的内容：

我们发现某些行中，出版地被其他不必要的信息包围着。如果观察更多值，我们会发现只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才会出现这种情况。

我们来看看两条特定的数据：

与 np.where 结合：

管我们可以使用 for 循环来清理上面的字符串，但是使用 Pandas 会更加方便。我们只需要州名和城镇名字，其他都可以删除。虽然这里也可以再次使用 .str() 方法，但我们也可以使用 applymap() 方法将一个 Python 可调用方法映射到 DataFrame 的每个元素上。

我们一直在使用元素这个术语，但实际上到底是指什么呢？看一下以下这个 DataFrame 例子：

请到「今天看啥」查看全文

推荐文章

Python爱好者社区 · 史上最强！PINN杀疯了

昨天

Python爱好者社区 · 英伟达憾失DeepSeek关键人才？美国放走AI「钱学森」，哈佛教授痛心疾首

昨天

Python爱好者社区 · 1885页的Python完全版电子书

3 天前

Python开发者 · o3-mini 碾压 DeepSeek R1？一个 Python 程序引发近 400 万围观

6 天前

Python开发者 · 请立即拿下软考证书（政策风口）

4 天前

中国经济网 · 空腹到底不能吃什么？一张清单帮你总结清楚

7 年前

贴身小助手 · 不用洗牙，教你5分钟消灭牙垢！

7 年前

笔记侠 · 阿里合伙人内部分享：看过500家创业公司生死后的产品观

7 年前

诗词天地 · 中国最全的老家规，这就是教养！

7 年前

车早茶 · 如果你爱我，请把副驾驶位留给我

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!