专栏名称: Python程序员
最专业的Python社区,有每日推送,免费电子书,真人辅导,资源下载,各类工具。我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动
目录
相关文章推荐
Python爱好者社区  ·  爬虫行情变了,差别真的挺大。。。 ·  昨天  
Python爱好者社区  ·  《Machine Learning ... ·  2 天前  
Python开发者  ·  上万点赞!使用 Cursor AI 编程的 ... ·  4 天前  
Python爱好者社区  ·  DeepSeek 被放弃了,阿里牛逼! ·  3 天前  
Python爱好者社区  ·  付费上班终于成为了现实。 ·  3 天前  
51好读  ›  专栏  ›  Python程序员

数据科学的3个阶段

Python程序员  · 公众号  · Python  · 2017-08-15 08:10

正文

公告:明天Python部落新课程《机器学习入门-分类》即将发布,敬请期待。


各地的企业正在竞相从他们的数据中提取有意义的见解。许多组织都在研究数据科学团队和攻击问题(有些人比其他人更成功)。然而,确定组织内当前的数据科学阶段是其中的挑战之一。下一步是确定数据科学的预期阶段。

以下是真正成熟的数据科学的3个阶段。

1. 仪表盘(Dashboards)

数据科学的初始阶段就是dashboards。这是关于回答“多少?”和“发生了什么”,通过查看历史数据所得出的报告。如果做的好的话,它甚至可以帮助组织报告出为什么会发生。许多组织将这一阶段称为商业智能。

Dashboard阶段对于组织来说还是很昂贵的,耗费的人力、时间和资金还是相当大的,通常它涉及的投资有:

1.数据仓库或者其他存储环境,用于数据存储以便于报告
2.ETL (提取转换负载) 工具,用于操纵、合并和移动数据到数据仓库
3.报告工具 ,用于展示结果并允许用户“挖掘”数据

以下是传统仪表盘可展示的常见问题:

  1. 每个地区有多少用户?

  2. 黑色星期五的销售额是多少?

  3. 上个月有多少人去医院看病?


正如你所见, 只有这个阶段可以获取到大量的数据价值。企业要去了解历史业绩这个点非常重要,但这个阶段是大部分企业停止的阶段。

2. 机器学习(Machine Learning)

数据科学的真正“科学”直到第二阶段的机器学习才开始。它专注于不能直观获取数据的估计,也就是可以根据现有数据分析隐藏数据。这可能是用户喜欢的某个电影,公司明天的股价,或特定广告活动的因果影响。机器学习用第一阶段的数据,并应用统计学或其他方法来分析出更多的见解内容。

目前机器学习思考如下问题:

  1. 当客户出门了,他/她会去五金店消费吗?

  2. 当信用卡购买时,收费是欺诈的概率是多少?

  3. 预计新用户会存在多久?

  4. 如果飓风来临,用户会购买什么? (蛋挞?很有可能哦)


注意起因和结果之间的关系。机器学习的价值内容是来自于估计潜在事物的因果。这个阶段充满了术语如:机器学习,数据挖掘和数据建模等术语。机器学习阶段是在分析潜在可能发生的事情,是未来的展望。

3. 执行(Actions)







请到「今天看啥」查看全文