作者:LJ MIRANDA
翻译:老齐
与本文相关的书籍:《跟老齐学Python:数据分析》《数据准备和特征工程》
数据科学的发展状况
数据科学领域日新月异,在当今时代,用诸如“21世纪最性感的工作”和“数据是新的石油”等说法来强化数据科学,已经并不时髦了,取而代之的是更现实的商业问题和更理性的技术挑战,数据科学所面对的变化,就是这两个方面。因此,现在需要我们做的:(1)分析来自生产和实验的需求,(2) 云技术的快速应用。
首先,生产需求多年来一直在增长。例如:在软件工程生命周期内创建数据产品或发布实验产品。随着机器学习工程师和数据科学软件开发人员的崛起,出现了越来越多的工程类就业岗位,这就是明证。此外,数据分析不再局限于把图表印刷出来,在产品发布、实验过程的重现等方面都有广泛需求,并且这种需求不断增长。
其次,数据的指数增长使云计算成为大势所趋。我们无法用自己的笔记本电脑加载1TB的数据集!Docker和Kubernetes等工具的流行,使我们能够以前所未有的水平扩大数据处理的工作量。使用云技术,意味着我们要考虑系统的可伸缩、资源配置和有关基础设施。然而,尽管之前的Jupyter生态系统是数据科学家工具箱的一个主要组成部分,但它并不适用于这些变化: