专栏名称: AI数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

AI数据派 · 公众号 · · 2019-05-22 07:30

正文

来源：新智元

本文约 1000字 ，建议阅读 5分钟 。

本文为你介绍《数据科学基础》主要内容并分享PDF资源。

计算机科学作为一门科学始于20世纪60年代。计算机科学的重点是编程语言、编译器、操作系统以及为这些领域提供支撑的数学理论。理论计算机科学课程涵盖有限自动机、正则表达式、无语境式语言和可计算性等。

自上世纪70年代开始，算法研究逐渐成为理论计算机科学的重要组成部分。算法研究的重要目的是提升计算机的有用性。到了今天，计算机科学的发展正在发生根本性的变化，研究人员注意力和研究重点更多地放在了应用上。

产生这一变化的原因有很多，其中计算和通信技术的融合在这个过程中发挥了重要作用。同时，在自然科学、商业和其他领域，收集和存储数据的能力不断上升，这对数据的理解以及如何在现代环境中进行数据处理提出了更高的要求。网络和社交网络作在日常生活中核心地位的提升，也为理论计算机科学理论的发展提供了新的机遇和挑战。

虽然计算机科学的传统领域仍然非常重要，但未来将有越来越多的研究人员将使用计算机来理解和提取应用程序中出现的大量数据中的可用信息。考虑到这一点，我们写了这本书，希望本书可以涵盖我们期望在未来40年内有用的理论，本书与过去同类数据的一个主要变化是之一对概率、统计和数值方法更加重视。

目录及各章内容简介

本书更早的版本已用于本科和研究生课程教学使用。 本科课程所需的背景材料在附录部分给出。包括信息处理，搜索和机器学习等各领域中的现代数据通常以具有大量组件的向量方式表示。向量表示不仅仅是用于存储记录的许多字段的簿记设备。实际上，向量的两个显着方面：几何（长度，点积，正交等）和线性代数（相关性，秩，奇异值等）结果是相关的。

第2章和第3章分别奠定了几何和线性代数的基础。 更具体地说，就是当涉及到高维度时，我们对二维或三维空间的直觉可能出乎意料地出现偏差。

第2章阐述了理解这类偏差所需的基础知识。 本章以及整本书的重点是多关注知识和思想以及数学基础，而不是特定的应用。

第3章重点介绍奇异值分解（SVD）， 这是处理矩阵数据的核心工具。本章给出了SVD的数学和算法的原理描述。奇异值分解的应用包括主成分分析，这是目前已经广泛使用的技术，以及对概率密度、离散优化等与统计学结合后的现代应用，对这类应用的描述相对详细。使用确定性方法探索web或大型系统的配置空间之类的大规模结构的成本可能会非常高。随机游走（又称马尔可夫链）经常是效率更高的处理方式。这种游走的固定分布对网络搜索物理系统模拟等应用非常重要。

随机游走的基础数学理论以及与电气网络的连接是第4章的核心内容。 计算机科学在过去二十年中的一个巨大进步是，一些过去只能用在特定领域的方法，现在已经可以成功解决来自多个不同领域的问题。机器学习就是一个突出的例子。

第5章描述了机器学习的基础， 示例算法都可以用于优化给定的训练样例，并能够理解并预见到这种算法优化能够在新的未知数据上获得良好性能。这其中涉及一些重要的量度，如Vapnik-Chervonenkis维度，以及一些重要的算法，如感知器算法，随机梯度下降，强化学习和深度学习，以及重要的概念，如正则化和过拟合。算法领域传统上假设问题的输入数据会呈现在随机存取存储器中，算法可以重复访问。而对于涉及大量数据的问题，这种方式是不可行的。在这种情况下，采样起着至关重要的作用，而且必须进行动态采样。

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

正文

请到「今天看啥」查看全文