专栏名称: 新语数据故事汇
《新语数据故事汇,数说新语》科普数据科学、讲述数据故事,深层次挖掘数据价值。
51好读  ›  专栏  ›  新语数据故事汇

数据科学家:不可或缺的四种思维

新语数据故事汇  · 公众号  ·  · 2024-07-02 12:11

正文

在现代数据驱动的世界中,数据科学家扮演着至关重要的角色。他们不仅需要精通机器学习、统计和数据可视化,还需要具备解决复杂问题的能力。然而,真正让数据科学家脱颖而出的,是他们独特的思维方式。正如软件开发工程师不仅需要掌握编程语言和工具,更需要掌握解决问题的方法和思维模式,数据科学家也需要牢记一些原则性的方法。

数据思维、业务思维、迭代思维和工程思维,这四种核心思维模式是每个数据科学家必备的技能。本文将深入探讨这四种思维模式,帮助您在数据科学的道路上走得更远,取得更大的成功。

数据思维:优先考虑数据和数据质量

在数据科学领域,理解并优先考虑数据是至关重要的。数据科学新手和与数据科学家合作的非技术人员非常容易犯的一个大错误是过于关注模型方面,例如:

  • 选择最复杂的模型
  • 过度调整超参数
  • 试图用机器学习解决所有数据问题

数据科学和机器学习领域发展迅速,新的库、更快的技术和更好的模型不断涌现。然而,最复杂和最新的选择并不总是最好的。在选择模型时需要考虑许多因素,甚至包括是否真的需要机器学习。

一个常见的任务是异常值检测。在进行异常值检测时,选择合适的方法非常重要。尽管复杂的机器学习方法可能看起来很有吸引力,但有时更简单的方法更有效。例如,使用z-score进行异常值检测,因为它能够捕捉大部分相关异常,且具有高度可解释性,易于向没有技术背景的利益相关者解释,同时计算简单,几乎不需要更多内存或计算资源。

如果决定采用机器学习方法,首先应该优先提高数据质量,包括数据清洗、特征选择和特征工程。不要过度关注超参数调整,因为数据质量不佳,再多的调整也无济于事。无论搜索空间多大,花费多长时间进行优化,如果数据本身质量不佳,效果仍然有限。

优化数据质量的一些具体措施包括:

  • 使用z-score或IQR等方法移除异常值

  • 用之前的值或中位数填充缺失数据(插值),前提是缺失值不多

  • 为模型添加新特征,如时间序列数据中的不同时间特征组合,以及受意外事件影响的数据可以添加二进制指示变量

数据思维的核心在于优先考虑数据质量和可解释性,避免过度依赖复杂的模型和过度调整超参数。在确保数据质量的前提下,再进行模型优化,才能事半功倍。

业务思维:掌握领域知识

数据科学几乎存在于任何领域,如能源、金融、市场营销、社交媒体和食品等等。这意味着你的技能在无数领域都能产生深远的影响。领域知识指的是对特定领域或主题的专业知识或理解。

以能源行业为例,假设你是一名行业内的数据科学家,想要构建一个预测建筑电力消耗的模型。你如何知道哪些特征可以用来构建模型?你需要了解哪些变量通常会影响电力使用,例如:

  • 温度

  • 一天中的小时

  • 一周中的哪一天

  • 一年中的哪个月

这些是一个好的起点,但还需要更深入的了解。例如,了解建筑的类型:是商业、工业/制造业,还是住宅?这将影响建筑对上述变量的响应。

商业建筑通常在典型工作时间(周一至周五的9点到5点)最繁忙,可以包含一个二进制变量如“工作时间”或“周末”。还需要考虑到节假日。制造工厂的工作时间和天数可能不同,住宅建筑也有不同的作息时间,并且受到节假日的影响也不同。

领域知识不仅帮助你首次构建模型,还能指导你最终交付的结果。例如,在检测异常值时,通常情况下,z-score大于3或小于-3的值被视为异常值。然而,领域知识和与客户的定期互动告知我们,只需要关注电表读数过高的情况,而不需要关注读数过低的情况。因此,我们将初始z-score阈值设置为3,仅将超过3的值视为异常值。

理解问题的背景是构建和训练有效模型的前提。增加领域知识意味着培养在你的行业中解决问题的直觉。

迭代思维:数据科学的迭代循环过程







请到「今天看啥」查看全文