专栏名称: 统计之都
专业、人本、正直的中国统计学门户网站
目录
相关文章推荐
中国交建  ·  5102株珊瑚大迁徙 ·  4 天前  
51好读  ›  专栏  ›  统计之都

郁彬院士与巴特博士的《Veridical Data Science》开放下载,年底正式出版

统计之都  · 公众号  ·  · 2024-04-11 00:11

正文

加州大学伯克利分校的郁彬教授和犹他大学的丽贝卡·巴特教授宣布,她们将由麻省理工学院出版社出版的书《Veridical Data Science:The Practice of Responsible Data Analysis and Decision Making》已在网上发布(网址:www.vdsbook.com)。该 书的印刷版本将于2024年10月15日由麻省理工学院出版社(MIT Press)出版。此书是获取值得信赖的数据驱动结果的重要资源。本作品(vdsbook.com)及相关材料受知识共享CC-BY-NC-ND许可证(非商业应用)的约束,即本书内容只能用于个人使用不能商用,不可以分发修改作品。

简介


Veridical Data Science (or VDS)是针对整个数据科学生命周期(Data Science Life Cycle (DSLC))的一种详实的实践方法。DSLC为解决领域问题提供了一种基于数据和领域知识的工作流程(例如通过分析患有和未患有心脏病的患者的基因组信息来识别心脏病的遗传驱动因素)。它涵盖了每个数据科学项目中遵循的非线性路径,从领域问题的构建、数据收集或数据选择、数据清洗开始,然后通过各种类型的数据分析(包括数据可视化和算法/模型开发)逐步达到有意义的数据驱动的结果,然后将这些结果与特定领域或公共领域的群体交流。

VDS通过建立定量的批判性思维去强调在真实世界遇到的数据科学项目的复杂性和挑战性。与传统的数据科学、统计学和机器学习教科书相比,VDS兼顾现实主义和实用性,即承认大多数数据科学项目是从一个模糊的领域问题和凌乱的数据开始的现实。它认识到我们分析的假设通常不完全与可用数据相吻合,并且从一开始,每个数据科学项目都充满了一系列人为的判断(例如,决定如何在特定时间范围内聚合实验室测量数据,或如何处理缺失值)。由于这些人为判断在一定程度上往往是主观的,它们造成了通常在传统统计分析中没有考虑到的不确定性。为了解决这些判断所引起的不确定性,关键是要记录它们,以便评估它们对任何下游结果的影响。这些基于判断的叙述在连接数据驱动的结果与现实之间起着核心作用。

作为VDS科学家,我们接受数据和分析中固有的缺陷。我们理解数据集是现实的近似,我们的分析是基于心理的构建。通过对我们的模型进行现实性检验和不确定性考虑的扩大,我们强调数据驱动结果的可信度取决于证明我们的假设的能力、取决于捕捉相关的现实世界(而不是假设的)的模式的能力、和取决于展示所获得结论可以转化为现实的能力。

本书介绍了不断发展的可预测性、可计算性和稳定性(Predictability-Computability-Stability (PCS))框架。PCS框架通过展示在未来数据上的可预测性与在合理扰动下的稳定性来评估任何数据驱动结果的可信度,以此揭示了更广泛的不确定性的来源。在本书中,我们特别关注对于稳定性的评估。这种评估基于在整个DSLC过程中三种产生不确定性的源头,即真实世界中数据采样或者数据收集产生的不确定性、数据清洗方法产生的不确定性、和算法与模型选择产生的不确定性。

VDS为DSLC的各个步骤提供实用指导,步骤包括在现实世界的数据科学问题背景下进行现实性检查、刻画来源于现实世界的不确定性, 和探索不稳定性的来源。通过遵循PCS框架并实践VDS,数据科学家将能在其分析决策过程中为数据驱动的结论的可信性及相关性提供证据。通过提供真实世界的数据示例以及对常见数据科学方法的直观的解释,“Veridical Data Science”为进行可信数据科学提供了清晰且实用的框架。

VDS源于郁彬教授多年来在加州大学伯克利分校讲授的研究生统计课(STAT 215A),并逐渐演化成为她的研究哲学。郁彬和巴特非常高兴能够最终分享这本书,并希望它能够改进数据科学的实践。该书对于数据科学、统计学和应用机器学习课程都是有用的资源,可作为主要教材(与传统教科书一起)或作为学生的辅助阅读。它适用于高年级本科生、低年级的研究生,以及希望进入数据科学领域的领域科学家。

本介绍英文作者为:Bin Yu and Rebecca Barter.

翻译: 常象宇,王小宁

作者介绍

郁彬博士(https://binyu.stat.berkeley.edu/) 是加州大学伯克利分校统计学系、电气工程与计算机科学系 , 和计算生物中心的校长特聘教授,Class of 1936 Second Chair,加州大学伯克利分校统计学系的前任系主任。她的当今研究重点是统计机器学习, VDS 和因果推理的实践、算法和理论。她的团队与来自基因组学、精准医学和神经科学的科学家一起从事跨学科研究。她是美国国家科学院院士和美国艺术与科学院院士,国际数理统计协会( IMS )的前任主席,2006古根海姆 Fellow 。她于 2023 8 月在统计联合统计会议 (JSM) 做了 IMS Wald 讲座,荣获 COPSS 杰出成就奖并做了报告 (DAAL) (原 Fisher 讲座)。她是瑞士洛桑大学的荣誉博士学位, 《美国国家科学院院刊》( PNAS )的编辑委员会成员,并担任加州大学伯克利分校西蒙斯计算理论研究所的高级顾问。她曾担任英国图灵数据科学与人工智能研究所的第一届科学咨询委员会成员,并曾是促使加州大学伯克利分校于







请到「今天看啥」查看全文