专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

独家 | 2017 PyData大会22个精选演讲视频

数据派THU · 公众号 · 大数据 · 2017-06-21 18:58

正文

作者：Sunil Ray

翻译：郑于飞

术语校对：冯羽

本文长度为4600字，建议阅读8分钟

本文是印度保险行业从业七年的商业分析师Sunil Ray为22个2017年PyData大会优秀演讲视频所作的推荐语，包含深度学习、大数据、数据科学、自然语言处理等多个话题。

前言

国际上，Python在机器学习和数据科学领域中越来越普及——当然是出于合理的原因。它可能拥有最成熟的深度学习环境，像pandas和scikit learn这样一系列极其优秀的库和社群。

PyData是一个集合了使用开源数据工具的开发人员和用户的社群。他们也组织一些大会，最近我机缘巧合看到PyData Amsterdam 2017的演讲。由于距离远，我不大方便直接参加大会，但PyData在 YouTube频道上发布了所有视频资料。

大会演讲者的跨度很大。无论是新手、中级、或是专业 Python 用户，PyData都有所覆盖。为了帮助这个社群，文章中我将总结数据科学方面几个最好的讲座。为方便阅读，我给每个视频加了一段简介。视频分为四个部分：深度学习、大数据、数据科学和自然语言处理。

来看看这些视频，并且点赞和分享吧~

机器学习演讲

1. Booking.com (缤客) 的深度学习

主讲人： Emrah Tasli, Stas Girkin

时长：32分28秒

链接：

https://www.youtube.com/embed/RlV_p-qYWqc?feature=oembed&width=500&height=750

演讲的标题瞬间吸引了我。我一直都是booking.com的用户。看他们用深度学习去提升用户体验绝对是个很好的体验。

看完这段视频可以切实学习到工业界深度学习的使用情况。它主要是关于深度学习在 booking.com的运用，涵盖分析图片内容、分析文本信息、理解交谈和建立推荐系统。

之后主讲人讨论了这些技术如何大规模使用，相应地，booking.com 怎么解决大规模问题。

2. 在自然语言处理中运用深度学习

主讲人：Rob Romijinders

时长：25分42秒

链接：

https://www.youtube.com/embed/HVdPWoZ_swY?feature=oembed&width=500&height=750

理解语言间的微妙差异是个难以解决的问题——但是仍可以借助深度学习。这段视频对于那些想要在自然语言处理中使用深度学习的人绝对是必看的。它解释了在自然语言处理应用(例如机器翻译)中使用深度学习的原因，并进一步阐明循环神经网络（RNN）如何运作、执行。

最后，Rob 提出了关于改善这些系统的小建议。

3. 创新和 AI：深度神经网络在“变得野性”

演讲人： Roelef Pieters

时长：33分45秒

链接：

https://www.youtube.com/embed/VH8dvaxI9j8?feature=oembed&width=500&height=750

Roelef讲述了正处于爆炸式增长的创新与人工智能方面的研究和实验中的深度学习的基础概念。

他也谈论到美妙、迷幻的神经网络世界正在“变得野性”, 并展示了新科技将会带来的、让我们变得更具有创造力的激动人心的可能性，例如舞步、即兴饶舌、意象派画作和创造性使用科技以及一些人机交互的相关探索，届时主要的命题将会是关于 “扩增【1】（augmentation），而非自动化(automation)”。【译者注1：扩增（实境）】

他尤其强调 “生成”模型，同时也向 Python 迷们展示如何在深度神经网某一形式迈进一步，完成 “实验”。

4. 推荐系统下的神经网络

主讲人：Maciej Kula

时长：32分55秒

链接：

https://www.youtube.com/embed/ZkBQ6YA9E40?feature=oembed&width=500&height=750

神经网络正逐步在现实生活系统中取代其他的机器语言算法，推荐系统中也无例外。

这段教程中，主讲人从神经网络在推荐系统中的优势说起，接着谈到推荐系统中不同的机器学习模型，包括分解模型（Factorization Models）、双线性神经网络（Bilinear Neural Networks）和样本损失函数(Sampled Loss Function)。如果你立志做一个高效的推荐系统，绝对要看这个视频。

5. 训练 TensorFlow 模型检测肺结核 CT照影

主讲人：Mark Jan Harte, Gerben van Veenendaal

时长：25分53秒

链接：

https://www.youtube.com/embed/eiJpQh22GcM?feature=oembed&width=500&height=750

如果你是慈善家，这绝对是要看的视频。它展示了深度学习中的一个突破性运用——在医学影像领域实现异常探测自动化。

演讲人阐述了驱动自动化过程中的管线设计，并详细解释在实践时所面临的困难与挑战、运用的硬件设施和管线从头至尾的过成。看到深度学习可以达到什么样的进展也是非常激动人心的。

6. Keras下的 Siamese LSTM：学习以字符为单位的词组

主讲人：Carsten van Weelden, Beata Nyari

时长：29分42秒

链接：

https://www.youtube.com/embed/SWjIoRNTCdU?feature=oembed&width=500&height=750

演讲中，演讲人解释了他们如何辨别职称，并将职称归档至拥有超过5000个类别的岗位库：他们采用包含B-LSTM编码器的Siamese网络来学习基于字符的职称表述。你可以学到理论中的方法并了解它们如何被 Keras 深度学习库执行。

7. 深度学习使时间序列更简单

主讲人： Dafne van Kuppevelt

时长：22分47秒

链接：

https://www.youtube.com/embed/9X_4i7zdSY8?feature=oembed&width=500&height=750

深度学习是解决许多任务的一种有艺术性的方法，任务包括图像分类和目标侦测。对于那些有时间序列数据但不是深度学习专家的研究者，学习深度学习的门槛过于高了。

演讲中，主讲人介绍了机器学习新手可以运用深度学习得到时间序列分类的方法。他进一步展示了一种开源 Python 库mcfly，可以帮助机器学习新人探索时间序列数据深度学习的价值。

8. 深度强化学习（Deep Reinforcement Learning）：理论、直觉、代码

主讲人：Maxim Lapan

时长：28分27秒

链接：

https://www.youtube.com/embed/X2sli0FqK0k?feature=oembed&width=500&height=750

这个演讲中，主讲人具体地介绍了深度强化学习方法及相应的用途：被用来解决例如机器人学的控制问题、雅达利游戏（Atari Games）、自主驾驶控制等复杂应用问题。深度强化学习是个热门话题，被成功应用在多个需要在复杂、杂乱和半观测环境下做出行动决策的领域。实例有街机游戏、导航网址和直升机以及四轴飞行器、汽车控制、蛋白质折叠等方面。

大数据

9. 基于Apache Spark扩展 H2O机器学习的不同策略

主讲人：Jakub Hava

时长：32分12秒

链接：

https://www.youtube.com/embed/CGQAOL_M5c4?feature=oembed&width=500&height=750

H2O正因处理大数据而走红。视频中，Jakub讲述基于 H2O 和 Spark的机器学习基本内容。他阐释了如何用不同方法来拓展任务，这些方法包括 Spark数据修改、H2O 模型建立、兼用两者做数据修改和模型建立。

Sparkling Water整合 H2O和 Apache Spark的功能也允许我们借由Apache Spark应用，联合 Scala、Python、R或 H2O 的流式图形用户界面，来最大化利用H2O 机器学习算法，让 Sparkling Water 成为一种优异的企业解决方案。

视频简要介绍了 Sparkling Water的基础建设，简述不同的拓展策略并解释每个解决方案的优缺点。以一个样本视频阐明方案为结束，提供了实践经验，有助于你结合自身的情况配置并运用Sparkling Water。

10. Jupyter Notebook里的十亿颗星

主讲人：Maarten Breddels

时长：30分58秒

视频：

https://www.youtube.com/embed/bP-JBbjwLM8?feature=oembed&width=500&height=750

曾想要可视化多维度数据却得不到好结果？如此，或许你来对地方了。视频中，Maarten 讲述了两个Python包：Vaex和Ipyvolume。

Vaex 以每秒十亿样本数计算数字，Ipyvolume 可以互动式可视化并探索多维度的十亿数量级样本表格。主讲人使用了其他方式来可视化并探索大于十亿的庞大数据集，而非紊乱的散点图。Ipyvolume帮助我们在Notebook中互动式可视化更多维度数据，它可以在 Jupyter Notebook 中成为一个小工具，展示3D数据并且最高可达到一百万个点（散点图和抖动）。

Vaex 和 Ipyvolume 都可以兼用来挖掘和可视化非常大的表格式数据组，或单个计算统计数据，或在 Notebook 内外呈现3D 图。

11. 在生长的干草堆里找针

主讲人:Stephen Helms

时长：31分02秒

链接：

https://www.youtube.com/embed/A8wGIo4RLn8?feature=oembed&width=500&height=750

视频中，Stephen Helms 讨论了大数据结构化设计。当机器越来越先进，人们可以收集更多的数据。出现大量数据后，如何高效总结数据并将相关数据呈现给用户成了一个挑战性命题。

Stephen 设法解决了这个挑战并尝试讨论结构化设计和扩展到大量数据的实现方式。他使用贝叶斯统计方法来架构自动式汇报系统。如果你有兴趣了解更多关于如何将数据分析拓展到生产环节的话，你会觉得这个视频很有意思。

数据科学

12. 针对转化率的生存分析

主讲人：Tristan Boudreault

时长：22分01秒

链接：

https://www.youtube.com/embed/oui1hx2bM2o?feature=oembed&width=500&height=750

你会在免费试用后继续购买一个产品吗？作为产品经理，你的工作是否因为免费试用后顾客继续的购买量而变得岌岌可危？

视频中 Tristan Boudreault试着预估多少顾客会在试用期后继续订购。从商业角度来说，他试着分析一个网站能在转化试用客户到付费客户方面有多成功。当我们实际看到数据，我们意识到人们并不如我们想的那样冲动。他们在觉得产品舒适后才会消费。

他同样提到有时候仅仅是通过看数据可能很难预测转化率，特别是当公司正在成指数增长的过程中时。他举了几个有趣的例子，如果需要分析你在网络上出售的商品，这是个好视频。

13. 风险分析

主讲人：Rogier van der Geer

时长：31分20秒

链接：

https://www.youtube.com/embed/z4KvTviqKAs?feature=oembed&width=500&height=750

有没有想过数据科学可以用在赢得游戏上呢？这个视频教你如何利用 Python 来挑战风险。Rogier van der Geer解释Python 如何利用仿真（simulation）来训练遗传算法【2】玩游戏。【译者注2：原文如此。这里的表述疑有误，应当是“以遗传算法训练模型辅助游戏”。】

视频主要讲述用简单的方式设计和执行这些算法来优化从而赢得游戏。数据科学爱好者一定要看这个视频，它可展示了数据科学可以被用作赢得游戏呢！

14. Python VS 猩猩

主讲人：Dirk Gorissen

时长：35分35时

链接：

https://www.youtube.com/embed/vBHq3_C6uMM?feature=oembed&width=500&height=750

这可能是Dirk Gorissen的主题演讲中最有趣的一个演讲了。他阐述了如何定位森林中红毛猩猩的问题。红毛猩猩是需要在森林中被跟踪和保护的珍稀猿类之一。为了定位红毛猩猩，他们用无线电波并通过结果是否唯一或一异常来区别红毛猩猩。

视频介绍了使用一个基于持续低音的追踪系统来定位红毛猩猩，并漂亮地展示了如何分析从每一个信号中接收到的数据，并解决问题。

15. 诊断机器学习模型

主讲人：Lucas Javier Bernardi

时长：39分

链接：

https://www.youtube.com/embed/ZD8LA3n6YvI?feature=oembed&width=500&height=750

一个机器模型从来都不完美。如果它完全失败了，就必须被修理。如果它运行得好，我们就要改善它。演讲中Lucas Javier Bernardi探讨了用不同技术和工具来诊断机器学习算法和模型。

视频解释了简单的技术和统计如何被用来改善一个模型，绝对值得一个有志于数据科学者观看。

16. 应用Python和Spark的物联网中的数据科学

主讲人：Rafael Schultze Kraft

时长：32分01秒

链接：

https://www.youtube.com/embed/-yf0PO7RlqI?feature=oembed&width=500&height=750

时间序列预测是数据分析中一个有趣的应用。视频中Rafael Schultze Kraft讨论了用Python和Spark预测时间序列。

视频解释了如何利用AWS和Python，基于在从传感器收集到的、经过恰当的预处理的数据基础上建立机器学习模型，这个模型可以预测有关时间序列数据的重要信息。

17. Scikit-optimize下的贝叶斯优化

主讲人：Gilles Louppe

时长：28分53秒

链接：

https://www.youtube.com/embed/DGJTEBt0d-s?feature=oembed&width=500&height=750

优化通常是解决问题必不可少的一部分。贝叶斯优化是优化一个高价函数的既定步骤。教程中，Gilles Louppe使用新建立的包 Scikit-optimize 来展示贝叶斯优化算法的应用，这个包提供了一系列简单易用的工具来达到优化的目的。你可以通过用烘培高质量咖啡的有趣比喻，来了解贝叶斯优化的步骤以及它在Python环境下的实现。

18. 应用型数据科学

主讲人：Giovanni Lanzani

时长：35分13秒

链接：

https://www.youtube.com/embed/7glVO4juXl0?feature=oembed&width=500&height=750

数据科学和机器学习产业正快速增长而且各大企业都在商业中运用自主学习工具。我们也尽力发展高准确率、高可行性的最佳模型。但是这些并不是商业中的最大利益所在，最大利益需要结合实际和模型来获取更容易被接收的终端产品。Giovanni Lanzani 继而用Amazon、Netflix 等大公司的实例论证上述观点。数据科学爱好者可以通过这些重要细节来完善和优化所要发行的产品。

19. 在你的业务中的A/B测试中运用贝叶斯统计

主讲人：Ruben Mak

时长：38分51秒

链接：

https://www.youtube.com/embed/8huhVCMmS_c?feature=oembed&width=500&height=750

商业中的A/B测试能够较好测试产品中各个因素的表现好坏，从而改进商业结果。Ruben Mak 在教程中讨论了运用贝叶斯统计方法来改善商业中的A/B测试。在简短介绍A/B测试的常规计算和问题后，他进一步解释了贝叶斯统计方法和更具针对性的多层贝叶斯（Hierarchical Bayes），可以进一步减少多次比较中错误的概率。视频主要讲解了商业运用中的一个最重要的方面：何时停止一个不显著测试。

20. 生产中运用 Python 模型

主讲人：Niels Zeilemaker

时长：31分45秒

链接：

https://www.youtube.com/embed/f3I0izerPvc?feature=oembed&width=500&height=750

建成一个模型只是工程的一半，你仍然需要结合实际生产，此教程正是关于此。从 Gitlab 开始，演讲人讨论了一些必备工具，它们可进一步发展机器学习模型，例如 Jenkins、Docker、Kuebernetes、Json Logger 和 DTAP，在必要处使用代码来阐释每项工具的产生和用法。我建议花点时间理解整个演讲文档，以此来成为更好的数据科学实践者。

自然语言处理

21. 使用Python来理解重金属音乐

主讲人：Iain Barr

时长：26分55秒

链接：

https://www.youtube.com/embed/R6kixVpjBug?feature=oembed&width=500&height=750

基础NLP是非常难以征服的。教程讨论了自然语言处理的基本概念，包括将字词矢量化、词袋、二项式频次形式的字数统计（word count as binomial frequency）并从中获取情报，这借助了一个包含20万首歌曲的样例数据集。如果立志学习自然语言处理请继续观看下去，记住视频对观众的要求比较高，需要事前具有基本数据科学的知识。

22. 模拟你的语言

主讲人：John Paton

时长：27分36秒

链接：

https://www.youtube.com/embed/VsbJ95JIP64?feature=oembed&width=500&height=750

我住在另一个州将近6年，却不知道当地的方言。我常想着，他们听我说话是否就像我听他们讲话一样。John Paton解答了我的疑惑。他试着阐述，语言对于那些不能说它的人来说是什么样子的。他运用简易Markov模型在 Python中模仿任何语言。不同的可视化方式也可以帮助认识各种语言之间的异同。这里包含了一些关于不同语言的非常简单但是很有趣的洞见：每门语言中最常用的字母以及特定的语言，是用长的单词或者短的单词来表达感情。看过视频之后你可能就会理解Markov模型，并有能力使用模型来分析语言。

结束语

只是观看这些视频不会让你成为一个更好的分析员。你同时需要练习。为了得到更好的效果，你可以看视频、记笔记。这将会帮助你快速领会下一个知识点。

观看视频的同时，我多次感觉 Python 中有太多的东西值得去学习。我想再次感谢Python 社群以如此慷慨、有助益并能及时提供帮助。如果你想要看到更多像这样的PyData视频，可以访问他们的 YouTube 频道：

https://www.youtube.com/channel/UCOjD18EJYcsBog4IozkF_7w

原文标题：

22 must watch talks on Python for Deep Learning, Machine Learning & Data Science (from PyData 2017, Amsterdam)

原文链接：

https://www.analyticsvidhya.com/blog/2017/05/pydata-amsterdam-2017-machine-learning-deep-learning-data-science/

你觉得这些教程有帮助吗？你最喜欢哪个教程或演讲？请在评论区分享你的经验和建议。

转载须知

如需转载文章，请做到 1、正文前标示：转自数据派THU（ID：DatapiTHU）；2、文章结尾处附上数据派二维码。

申请转载，请发送邮件至[email protected]

公众号底部菜单有惊喜哦！

企业，个人加入组织请查看“联合会”

往期精彩内容请查看“号内搜”

加入志愿者或联系我们请查看“关于我们”