点击上方“
蓝色字体
”,选择 “
设为星标
”
关键讯息,D1时间送达!
数据科学技术如今已在许多组织中占有一席之地,数据科学家正迅速成为以数据为中心的组织最受欢迎的角色之一。数据科学的应用程序利用机器学习等技术和大数据的力量来获取深入的见解和新的功能,其中包括预测分析、图像和对象识别、会话人工智能系统等。
事实上,那些没有在数据科学上进行充分投资的组织可能很快落后于在数据科学方面获得显著竞争优势的竞争对手。
数据科学家可以做些什么以提供这种变革性的业务收益
?
数据科学领域是一些关键要素的集合:准确提取可量化数据的统计和数学方法
;
使用先进的分析技术和方法从科学角度解决数据分析的技术和算法,有助于处理大型数据集
;
以及可以帮助将大量数据整理成获得高质量见解的所需格式的工具和方法。
以下将更深入地研究数据科学家使用的常见统计和分析技术。其中一些数据科学技术植根于数世纪的数学和统计工作,而另一些技术则相对较新,利用了机器学习、深度学习和其他形式的高级分析的研究成果。
当识别大量数据中的信息时,数据科学家首先需要辨别不同的数据元素如何相互关联。例如,如果在一张图上绘制了一堆数据点,那么如何知道它们是否有意义
?
数据科学家最广泛使用的有三种统计和分析技术。也许数据表示两个或多个变量之间的关系,而其工作是绘制某种最能描述这种关系的曲线或多维平面。或者,它代表具有某种亲和力的集群。其他数据可能代表不同的类别。通过发现这些关系,可以使数据的其他随机性具有意义,然后可以对其进行分析和可视化,以提供组织可以用来制定决策或计划策略的信息。
以下了解可用于执行分析的各种数据科学技术和方法:
在分类问题中,数据科学家要回答的首要问题是:
“
这些数据属于什么类别
?”
将数据分类的原因很多。也许数据是手绘的图像,人们需要知道图像代表什么字母或数字。或者代表贷款申请的数据,想知道它应该属于
“
已批准
”
还是
“
已拒绝
”
类别。其他分类可以集中在确定患者治疗方案或电子邮件是否是垃圾邮件。
数据科学家用来将数据过滤到类别中的算法和方法包括:
•
决策树。
这些是分支逻辑结构,使用机器生成的参数和数值树将数据分类为已定义的类别。
•
贝叶斯分类器。
利用概率的力量,贝叶斯分类器可以帮助将数据分为简单的类别。
•
支持向量机
(SVM)
。
支持向量机的目标是绘制一条宽边距的曲线或平面,将数据分成不同的类别。
•K-
近邻算法。
该技术使用一种简单的
“
惰性决策
”
方法,根据数据集中最邻近的类别来确定数据点应该属于哪个类别。
•
逻辑回归。
尽管使用了分类技术,但它使用将数据拟合到一条线的想法来区分每一边的不同类别。这条线的形状使数据可以移至某个类别。
•
神经网络。
这种方法使用训练有素的人工神经网络,尤其是具有多个隐藏层的深度学习网络。神经网络已经显示出强大的分类能力,其中包含大量的训练数据。
如果不知道数据属于哪一类,而是想知道不同数据点之间的关系该怎么办
?
回归的主要思想是回答以下问题:
“
这个数据的预测值是多少
?”
一个简单的概念来自
“
均值回归
”
的统计概念,它可以是一个独立变量和一个因变量之间的直接回归,也可以是一个试图找到多个变量之间关系的多维回归。
例如决策树支持向量机
(SVM)
和神经网络一些分类技术,也可以用来进行回归。此外,数据科学家可以使用的回归技术包括:
•
线性回归。
作为数据科学中应用最广泛的方法之一,这种方法试图根据两个变量之间的相关性找到最适合所分析数据的曲线。
•
套索回归。
Lasso(
套索
)
是
“
最小绝对收缩和选择算符
”
的缩写,是一种通过在最终模型中使用数据子集来提高线性回归模型预测准确性的技术。
•