专栏名称: Python学习交流
每天更新,更新python相关的知识。希望诸君有所收获!
目录
相关文章推荐
Python爱好者社区  ·  史上最强!PINN杀疯了 ·  昨天  
Python爱好者社区  ·  英伟达憾失DeepSeek关键人才?美国放走 ... ·  昨天  
Python爱好者社区  ·  1885页的Python完全版电子书 ·  3 天前  
Python开发者  ·  o3-mini 碾压 DeepSeek ... ·  6 天前  
Python开发者  ·  请立即拿下软考证书(政策风口) ·  4 天前  
51好读  ›  专栏  ›  Python学习交流

数据科学家带你用使用NumPy和Pandas进行Python式数据清理!

Python学习交流  · 公众号  · Python  · 2018-04-18 16:08

正文

>>> import pandas as pd>>> import numpy as np

例如,在上一节使用的数据集中,可以想象到,图书管理员如果需要搜索记录,他也许输入的是书籍的唯一标识符( Identifier 列):

>>> df['Identifier'].is_uniqueTrue

让我们用 set_index 来替换现有的索引

>>> df.get_dtype_counts()object 6

其中出版日期一列,如果将其转化为数字类型更有意义,所以我们可以进行如下计算:

很好!本节完成了!

我们将用这两个函数来清理 Place of Publication 一列,因为此列包含字符串。以下是该列的内容:

我们发现某些行中,出版地被其他不必要的信息包围着。如果观察更多值,我们会发现只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才会出现这种情况。

我们来看看两条特定的数据:

与 np.where 结合:

管我们可以使用 for 循环来清理上面的字符串,但是使用 Pandas 会更加方便。我们只需要州名和城镇名字,其他都可以删除。虽然这里也可以再次使用 .str() 方法,但我们也可以使用 applymap() 方法将一个 Python 可调用方法映射到 DataFrame 的每个元素上。

我们一直在使用 元素 这个术语,但实际上到底是指什么呢?看一下以下这个 DataFrame 例子:







请到「今天看啥」查看全文