数据清洗

首先，为何需要对数据进行清洗

数据清洗的工作绝壁是非常枯燥的，做数据研究的的人绝对无法避开这个环节，其根本原因是因为我们从各种渠道拿到的数据可能会出现：

1、不合理的数据，你比如，样本中有些人的年龄超过了120岁，楼层的高度达到了1000层，以及其他的一些非常不合理的场景。

2、错误的类型，你比如，样例中，几乎所有的数据都是整形，然而，有一些是字符串类型，如果不进行处理，将这些数据直接喂给算法，一般情况下是要崩溃的。

3、计算机对于处理字符串类型比较吃力，有时候，需要我们将他转化为数字类型，这样就设计到一个映射关系，比如，样例性别，【男，女】，我们可以转化为1，2，房屋的类型【单间，一房一厅，二房一厅，三房一厅，商铺】可以对应的枚举出来，比如我在处理房屋朝向上的示例

#提取房屋的朝向
def parse_orientation(row):
    if '朝西南' in row:
        return 1
    elif '朝东北' in row:
        return 2
    elif '朝东' in row:
        return 3
    elif '朝南' in row:
        return 4
    elif '朝西北' in row:
        return 5
    elif '朝北' in row:
        return 6
    elif '朝东南' in row:
        return 7
    elif '朝南北' in row:
        return 8
    elif '朝西' in row:
        return 9
    else:
        return 10
复制代码

等等等等，我想说的是绝对还有很多你意想不到的场景，需要你耐心的打磨数据，将搜集到的原始数据，清洗成为可用的数据。

数据清洗需要掌握哪些黑科技

通常我们拿到的数据数据都可以简化为表格模型，无用你是xsl也好，csv亦或json数组也好，都可以利用pandas来读取，读取之后，接下来的工作基本上就是借助在pandas的一些api来做数据清洗工作了，如下，我读取了一份房价信息的数据表，这份数据当然是我自己根据上一篇文章，利用scrapy做了一个爬虫爬取的咯。