选自TowardsDataScience,作者:Perter Nistrup,机器之心编译,参与:魔王。
1. Pandas Profiling
2. 使用 Cufflinks 和 Plotly 绘制 Pandas 数据
4. Jupyter 中的格式编排
5. Jupyter 快捷键
7. 为 Jupyter Notebook 即时创建幻灯片
1. Pandas Profiling
该工具效果明显。下图展示了调用 df.profile_report() 这一简单方法的结果:
使用该工具只需安装和导入 Pandas Profiling 包。
2. 使用 Cufflinks 和 Plotly 绘制 Pandas 数据
这已经很好了,不过是否可以绘制一个交互式、可缩放、可扩展的全景图呢?是时候让 Cufflinks* *出马了!(Cufflinks 基于 Plotly 做了进一步的包装。)
在环境中安装 Cufflinks,只需在终端中运行! pip install cufflinks --upgrade 即可。查看下图:
注意,上图唯一改变的是 Cufflinks cf.go_offline() 的导入和设置,它将 .plot() 方法变为 .iplot()。
其他方法如 .scatter_matrix() 也可以提供非常棒的可视化结果:
-
Cufflinks 文档:https://plot.ly/ipython-notebooks/cufflinks/
-
Plotly 文档:https://plot.ly/
3. IPython 魔术命令
%lsmagic: 找出全部命令
%debug:
交互式 debug
这可能是我最常使用的魔术命令了。
大部分数据科学家都遇到过这种情况:执行的代码块一直 break,你绝望地写了 20 个 print() 语句,想输出每个变量的内容。然后,当你最终修复问题后,你还得返回并再次删除所有 print() 语句。
不过以后再也不用这样了。遇到问题后只需执行 %debug 命令,即可执行想要运行的任意代码部分:
上图中发生了什么?
-
我们有一个函数,它以列表为输入,并对所有的偶数取平方值。
-
我们运行函数,但是出了些问题。但是我们并不知道怎么回事!
-
对该函数使用%debug 命令。
-
让调试器告诉我们 x 和 type(x) 的值。
-
问题显而易见:我们把'6'作为字符串输入到函数中了!
这对于更复杂的函数非常有用。
%store:
在 notebook 之间传递变量
这个命令也很酷。假设你花了一些时间清洗 notebook 中的数据,现在你想在另一个 notebook 中测试一些功能,那么你是在同一个 notebook 中实现该功能,还是保存数据并在另一个 notebook 中加载数据呢?使用%store 命令后,这些操作都不需要!该命令将存储变量,你可以在其他任意 notebook 中检索该变量:
-
%store [variable] 存储变量。
-
%store -r [variable] 读取/检索存储变量。
%who:
列出所有全局变量。
你是否遇到过,为变量赋值后却忘记变量名的情况?或者不小心删掉了负责为变量赋值的单元格?使用%who 命令,你可以得到所有全局变量的列表:
使用该命令可以获取所有计时信息。只需对任意可执行代码应用%%time 命令,你就可以得到如下输出:
%%writefile:
向文件写入单元格内容
在 notebook 中写复杂函数或类,且想将其保存到专属文件中时,该魔法命令非常有用。只需为函数或类的单元格添加 %%writefile 前缀和想要保存到的文件名即可:
如上所示,我们可以将创建的函数保存到 utils.py 文件中,然后就可以随意导入了。在其他 notebook 中也可以这样,只要与 utils.py 文件属于同一个目录即可。
4. Jupyter 中的格式编排
这个工具很酷!Jupyter 考虑到 markdown 中存在 HTML / CSS 格式。以下是我最经常使用的功能:
蓝色、时尚:
<div class="alert alert-block alert-info">
This is <b>fancy</b>!
</div>复制代码
红色、轻微慌张:
<div class="alert alert-block alert-danger">
This is <b>baaaaad</b>!
</div>复制代码
<div class="alert alert-block alert-success">
This is <b>gooood</b>!
</div>复制代码