小白学 Python 数据分析（7）：Pandas （六）数据导入_极客挖掘机的专栏文章_微信文章

人生苦短，我用 Python

前文传送门：

小白学 Python 数据分析（1）：数据分析基础

小白学 Python 数据分析（2）：Pandas （一）概述

小白学 Python 数据分析（3）：Pandas （二）数据结构 Series

小白学 Python 数据分析（4）：Pandas （三）数据结构 DataFrame

小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据

小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择

引言

前面几篇我们介绍了 Pandas 的一些基础操作，有同学在后台给小编留言，纯粹的介绍 API 太无聊了，那么，小编这篇就来点有用的东西，希望大家能在以后的工作生活中都用得上。

本篇主要介绍如何将数据导入 Pandas 进行一些简单的操作。

操作的数据源嘛，就选择小编对自己博客站数据的抓取，这里小编将自己的博客数据导出成了两种格式， Excel 和 CSV ，各位同学在平常的工作生活中能接触的应该也是这两种格式。

Excel 数据导入

导入 Excel 数据主要使用到的方法是 Pandas 中的 read_excel() 。

在进行导入操作的时候，要注意文件路径，这里的文件路径可以使用相对路径也可以使用绝对路径，但是不管哪种路径最基本的是要写对。

小编先使用相对路径做个演示：

import pandas as pd

df = pd.read_excel("result_data.xlsx")
print(df)

# 输出内容
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]复制代码

因为小编这里的 Excel 就放在代码的同级目录，所以直接写文件名即可，接下来演示绝对路径。

由于小编的操作系统是 Windows 的操作系统，文件路径默认是使用 ` ，如 D:DevelopmentProjectspython-learningpython-data-analysispandas-demoresult_data.xlsx` ，我们在直接使用 Windows 的文件路径的时候需要在前面增加一个 r （转义符）避免路径中的 `` 被转义，如下：

import pandas as pd
df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx")
print(df)

# 输出内容
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]复制代码

当然，如果不想使用这个转义符 r 也行，这样需要修改下文件的路径，将所有的 ` 变成 /` ，这个规则适用于其他所有的文件路径操作，示例如下：

import pandas as pd
df = pd.read_excel("D:/Development/Projects/python-learning/python-data-analysis/pandas-demo/result_data.xlsx")
print(df)

# 输出内容
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]复制代码

出于使用简单考虑，小编推荐直接在路径前面加 r ，剩下的文件路径直接使用 CV 大法就好。

指定导入 Sheet

我们在使用 Excel 导入的时候，除了可以指定文件路径，还可以选择导入的 Sheet ，如果不知道 Sheet 是什么的同学，建议出门左转。

在设置 Sheet 的时候，我们使用参数 sheet_name 来完成，示例如下：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name='result_data')
print(df)

# 输出结果
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]复制代码

如果我们要使用一个完全不存在的 Sheet 名称会发生什么事情呢？例如我们将上面的 sheet_name 修改为 aaa ，来看下：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name='aaa')
print(df)

# 输出结果
Traceback (most recent call last):
  File "C:\Users\inwsy\AppData\Local\Programs\Python\Python37\lib\site-packages\xlrd\book.py", line 474, in sheet_by_name
    sheetx = self._sheet_names.index(sheet_name)
ValueError: 'aaa' is not in list

During handling of the above exception, another exception occurred:复制代码

可以看到这里抛出了 ValueError 的异常，并且提示 aaa 不在列表中。

在指定 Sheet 名称的时候除了可以使用 Sheet 的具体名称，还可以使用 Sheet 的顺序，需要注意这个顺序开头是从 0 开始的。

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0)
print(df)

# 输出结果
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]复制代码

如果这里指定的顺序是一个不存在的顺序，一样会抛出异常 IndexError ，这里小编就不做演示了。

指定导入行索引

我们在导入文件的时候，行索引默认是会使用从 0 开始的默认索引，如果对行索引有需求的话，可以使用 index_col 参数来设置行索引。

比如我们现在设置 create_date 这个参数作为行索引，注意参数起始从 0 开始：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, index_col=5)
print(df)

# 输出结果
                    plantform  read_num  fans_num  rank_num  like_num
create_date                                                          
2019-11-23 23:00:10    cnblog       215         0       118         0
2019-11-23 23:00:03    juejin       177         0        -2         1
2019-11-23 23:00:02      csdn      1652        69         0        24
2019-11-22 23:00:15    cnblog       650         3       191         0
2019-11-22 23:00:02    juejin       272         3       -23         1
...                       ...       ...       ...       ...       ...
2020-02-20 23:00:02    juejin       212         0        -1         2
2020-02-20 23:00:01      csdn      1602         1         0         1
2020-02-21 23:00:05    cnblog        19         0        41         0
2020-02-21 23:00:02    juejin       125         1        -4         0
2020-02-21 23:00:02      csdn      1475         8         0         3

[408 rows x 5 columns]复制代码

指定导入列索引

同行索引一样，默认也是采用源数据的第一行作为列索引，同样，我们可以通过 header 进行列索引的设置， header 的默认参数为 0 ，也就是第一行，自定义可以使用其他行，将行号作为参数传入即可，我们演示一下使用第二行作为索引：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, header=1)
print(df)

# 输出结果
     cnblog   215    0  118  0.1 2019-11-23 23:00:10
0    juejin   177    0   -2    1 2019-11-23 23:00:03
1      csdn  1652   69    0   24 2019-11-23 23:00:02
2    cnblog   650    3  191    0 2019-11-22 23:00:15
3    juejin   272    3  -23    1 2019-11-22 23:00:02
4      csdn  2202  129    0   37 2019-11-22 23:00:01
..      ...   ...  ...  ...  ...                 ...
402  juejin   212    0   -1    2 2020-02-20 23:00:02
403    csdn  1602    1    0    1 2020-02-20 23:00:01
404  cnblog    19    0   41    0 2020-02-21 23:00:05
405  juejin   125    1   -4    0 2020-02-21 23:00:02
406    csdn  1475    8    0    3 2020-02-21 23:00:02

[407 rows x 6 columns]复制代码

指定导入行数

有时候，如果我们只需要了解一下这个文件中有些什么数据，那么我们就不需要导入所有的数据，可以使用 nrows 来指定导入的行数，这里我们选择导入 Excel 的前 100 行：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, nrows=100)
print(df)

# 输出结果
   plantform  read_num  fans_num  rank_num  like_num         create_date
0     cnblog       215         0       118         0 2019-11-23 23:00:10
1     juejin       177         0        -2         1 2019-11-23 23:00:03
2       csdn      1652        69         0        24 2019-11-23 23:00:02
3     cnblog       650         3       191         0 2019-11-22 23:00:15
4     juejin       272         3       -23         1 2019-11-22 23:00:02
..       ...       ...       ...       ...       ...                 ...
95      csdn      1492        88         0        13 2019-10-23 23:51:37
96    cnblog      1338         2       219         0 2019-10-22 23:33:33
97    juejin       204         1        -6         6 2019-10-22 23:18:19
98      csdn      1064        61      7094        18 2019-10-22 23:18:08
99    cnblog      -493         1        69         0 2019-10-21 22:38:32

[100 rows x 6 columns]复制代码

从结果的数据统计，可以看到我们成功的导入了前 100 行的数据，虽然行索引只有 99 ，是因为么我们 Excel 的头也占了一行。

指定导入列

有时候，我们的 Excel 中的列太多了，而我们处理的数据又不需要那么多列的时候，我们可以使用 usecols 来指定我们需要导入的列：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, usecols=[0, 1, 2])
print(df)

# 输出结果
    plantform  read_num  fans_num
0      cnblog       215         0
1      juejin       177         0
2        csdn      1652        69
3      cnblog       650         3
4      juejin       272         3
..        ...       ...       ...
403    juejin       212         0
404      csdn      1602         1
405    cnblog        19         0
406    juejin       125         1
407      csdn      1475         8

[408 rows x 3 columns]复制代码

注意这里的 usecols 的参数是一个数组，表示我们将要导入的列。

CSV 数据导入

前面我们介绍了如何导入 Excel 的数据，我们接着介绍如何导入 CSV 的数据，首先还是使用 read_csv 导入 CSV 的文件：

import pandas as pd

df = pd.read_csv(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.csv")
print(df)

# 输出结果
    plantform  read_num  fans_num  rank_num  like_num          create_date
0      cnblog       215         0       118         0  23/11/2019 23:00:10
1      juejin       177         0        -2         1  23/11/2019 23:00:03
2        csdn      1652        69         0        24  23/11/2019 23:00:02
3      cnblog       650         3       191         0  22/11/2019 23:00:15
4      juejin       272         3       -23         1  22/11/2019 23:00:02
..        ...       ...       ...       ...       ...                  ...
403    juejin       212         0        -1         2   20/2/2020 23:00:02
404      csdn      1602         1         0         1   20/2/2020 23:00:01
405    cnblog        19         0        41         0   21/2/2020 23:00:05
406    juejin       125         1        -4         0   21/2/2020 23:00:02
407      csdn      1475         8         0         3   21/2/2020 23:00:02

[408 rows x 6 columns]复制代码

可以看到，和上面的 Excel 导入的数据保持一致，只是后面的时间日期类型格式化有点区别。

小白学 Python 数据分析（7）：Pandas （六）数据导入

正文