深度强化学习十大法则
作者 | David Silver 译者 | 杨雷 编辑 | Vincent 出处丨AI 前线
AI 前线导读:
作为独立于监督和非监督机器学习之外的机器学习重要分支,强化学习在多学科多领域中发挥了重要的决策支持作用。在 9 月 9 日 -14 日举办的南非的 Deep Learning Indaba 2018 大会上,DeepMind 强化学习研究小组负责人、AlphaGo 项目负责人 David Silver 介绍了深度强化学习的十大原则,旨在帮助那些正在学习和应用强化学习来创造价值的研究人员或工程师们,深刻地了解应该遵守的思考方式和工作方式。
原则 #1 评价驱动发展
客观、量化的评价驱动进展:
-
评价指标的选择决定了进展的方向
-
这可以说是项目过程中最重要的决策
排行榜驱动的研究:
-
确保评价指标紧贴最终目标
-
避免主观评估(如人为监测)
假设驱动的研究:
-
提出假设:
-
“双 Q 学习优于 Q 学习,减少了向上偏差”
-
在广泛的条件下验证该假设
-
做同类比较,不对比目前最新进展
-
要理解,而不是看排行榜排名
原则 #2 可伸缩性决定成败
-
可伸缩性是算法相对于资源的性能梯度
-
如果提供更多的资源,性能是如何增加的?
-
资源包括计算、内存或数据
-
可伸缩性最终决定了算法成功与否
-
可伸缩性总是(最终)比好的出发点更重要
-
好的算法在资源无限的条件下总是最优的
原则 #3 通用性保证算法符合未来发展
-
算法的通用性是它在不同的强化学习环境下的性能体现
-
避免对当前任务的过拟合
-
寻找可以推广到未知、未来环境的算法
-
我们无法预测未来,但是:
-
或许未来的任务会至少和当前任务一样复杂
-
而在未来,当前任务中遇到的困难很可能会增加
结论:在多样化且真实的强化学习环境中进行验证
原则 #4 信任智能体的经验
经验(观察、行为、奖励)是强化学习的数据:
原则 #5 状态是主观的
智能体应该根据经验构建自己的状态。
智能体状态是前一状态和新观察的函数
这是一个循环神经网络的隐藏状态
永远不要根据环境的“真实”状态(部分可观察马尔可夫决策过程,POMDP)来下定义
原则 #6 控制数据流
-
智能体存在于丰富的感觉运动的数据流中
-
输入智能体的观察数据流
-
智能体输出的行为数据流
-
智能体行为影响物流
-
控制特征 => 控制数据流
-
控制数据流 => 控制未来
-
控制未来 => 最大化任意奖励
原则 #7 值函数建模世界
为什么要使用值函数?
学习多个值函数可以:
-
有效地模拟世界的许多方面(通过控制数据流)
-
包含后续的状态变量
-
支持多种时间尺度
避免在原始时间步长上模拟世界。
原则 #8 规划:从想象的经验中学习
一种有效的规划方法:
-
想象下一步会发生什么
-
基于模型的状态采样轨迹
-
从想象的经验中学习
-
使用已应用于实际经验的强化学习算法
现在,应该关注值函数近似(value function approximation)。
原则 #9 赋能函数近似器
可微分网络架构是强大的工具,有助于:
-
丰富的方式表示状态
-
可微分记忆
-
可微分规划
-
分级控制
-
…
算法复杂度应用到网络架构,可以:
-
减少算法的复杂度(如何更新参数)
-
增加架构的可表达性(参数用来做什么)
原则 #10 学会学习
人工智能的历史展示了一条清晰的发展足迹:
第一代:尚好的旧式人工智能
第二代:浅尝学习
第三代:深度学习
-
手动算法(优化器、目标、架构等)
-
端到端的特征和预测学习
第四代:元学习
原文链接:
http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf
机器学习十二大经验准则
AI火箭营
机器学习算法可以通过概括示例来确定如何执行重要任务。手动编程很难完成这样的目标,所以机器学习通常是可行且成本有效的。随着更多数据的出现,可以解决更加雄心勃勃的问题。因此,机器学习被广泛应用于计算机真诚等领域。然而,开发成功的机器学习应用程序需要大量的“黑色艺术”,这在教科书中很难找到。
1. 学习=表示+评价+优化
所有的机器学习的算法通常包括三个组成部分:
-
表示:
一个分类器必须用计算机能够处理的一些正式语言来表示。相反,为学习者选择一种表示方式就等同于选择一组可以学习的分类器。这个集合被称为学习者的假设空间。如果一个分类器不在假设空间中,它就不能被学习。一个相关的问题是:如何表示输入,比如使用哪种特征。
-
评价:
要区分好的分类器和坏的分类器,需要一个评价函数。算法内部使用的评估函数与分类器外部使用的评价函数可能不同,其主要是为了便于优化,以及下一节中我们要讨论的问题。
-
优化:
最后,我们需要在语言的分类器中找到得分最高的一种方法。优化技术的选择是提高学习者效率的关键,同时也有助于确定分类器的评价函数是否具有多个最优值。初学者开始的时候使用现成的优化器是很常见的,不过这些优化器会被专门设计的优化器取代。
2. “泛化能力”很关键,“测试数据”验证至关重要!
机器学习的主要目标是对训练集之外的样本进行泛化。因为无论有多少数据,都不太可能在测试中再次看到完全相同的例子。在训练集上具有良好表现很容易。机器学习初学者最常犯的错误是把模型放在训练数据中进行测试,从而产生成功的错觉。如果被选择的分类器在新的数据上进行测试,一般情况,结果往往和随机猜测相差无几。所以,如果你雇佣他人建立分类器,一定要留一些数据给你自己,以便在他们给你的分类器中进行测试。相反,如果有人雇佣你建立一个分类器,请保留一部分数据对你的分类器进行最终测试。
3. 仅有数据是不够的,知识相结合效果更好!
把泛化能力作为目标,会又另一个后果:只有数据是不够的,无论你拥有多少数据。这是否让人沮丧。那么,我们怎么能奢求它学到东西呢?不过,现实世界中我们想学习的函数并不都是从数学上可能的函数中提取出来的!实际上,使用一般假设——例如平滑性、相似样本有相似分类、有限的依赖性或有限复杂度——往往能做得足够好,这也正是机器学习能如此成功的大部分原因。正如演绎一样,归纳(训练模型所做的)是一个知识杠杆——它将少量知识输入转化为大量知识输出。归纳是一个比演绎更为强大的杠杆,仅需更少的知识就能产出有用的结果。不过,它仍然需要大于零的知识输入才能工作。正如任何一个杠杆一样,输入得越多,得到的也越多。
这样回想起来,训练过程中对知识的需求没什么好惊讶的。机器学习并非魔术,它无法做到无中生有,它所做的是举一反三。如同所有的工程一样,编程需要做大量的工作:我们必须从头开始构建所有的东西。训练的过程更像是耕种,其中大部分工作是自然完成的。农民将种子与营养物质结合起来,种植作物。训练模型将知识与数据结合起来,编写程序。
4. “过拟合”让机器学习效果产生错觉!
如果我们所拥有的知识和数据不足以完全确定正确的分类器,分类器(或其中的一部分)就可能产生「错觉」。
所获得的分类器并不是基于现实,只是对数据的随机性进行编码。
这个问题被称为过拟合,是机器学习中棘手的难题。如果你的训练模型所输出的分类器在训练数据上准确率是 100%,但在测试数据上准确率只有 50%,那么实际上,该分类器在两个集合上的输出准确率总体可能约为 75%,它发生了过拟合现象。
在机器学习领域,人人都知道过拟合。但是过拟合有多种形式,人们往往不能立刻意识到。理解过拟合的一种方法是将泛化的误差进行分解,分为偏差和方差。偏差是模型不断学习相同错误的倾向。而方差指的是不管真实信号如何,模型学习随机信号的倾向。线性模型有很高的偏差,因为当两个类之间的边界不是一个超平面时,模型无法做出调整。决策树不存在这个问题,因为它们可以表征任何布尔函数。但是另一方面,决策树可能方差很大:如果在不同训练集上训练,生成的决策树通常差异很大,但事实上它们应该是相同的。
交叉验证可以帮助对抗过拟合,例如,通过使用交叉验证来选择决策树的最佳规模用于训练。但这不是万能的,因为如果我们用交叉验证生成太多的参数选择,它本身就会开始产生过拟合现象。
除交叉验证之外,还有很多方法可以解决过拟合问题。最流行的是在评估函数中增加一个正则化项。举个例子,这样一来就能惩罚含更多项的分类器,从而有利于生成参数结构更简单的分类器,并减少过拟合的空间。另一种方法是在添加新的结构之前,进行类似卡方检验的统计显著性检验,在添加新结构前后确定类的分布是否真的具有差异。当数据非常少时,这些技术特别有用。尽管如此,你应该对某种方法完美解决了过拟合问题的说法持怀疑态度。减少过拟合(方差)很容易让分类器陷入与之相对的欠拟合误差(偏差)中去。如果要同时避免这两种情况,需要训练一个完美的分类器。在没有先验信息的情况下,没有任何一种方法总能做到最好(天下没有免费的午餐)。
5. 机器学习中最大的问题就是“维度灾难”!
除了过拟合,机器学习中最大的问题就是维度灾难。这一名词是由 Bellman 在 1961 年提出的,指的是当输入维度很高时,许多在低维工作正常的算法将无法正常工作。但是在机器学习中,它的意义更广。随着样本维度(特征数量)的增加,进行正确泛化变得越来越难,因为固定大小的训练集对输入空间的覆盖逐渐缩减。
高维的一般问题是,来自三维世界的人类直觉通常不适用于高维空间。在高维度当中,多元高斯分布的大部分数据并不接近平均值,而是在其周围越来越远的「壳」中;此外,高维分布的大部分体积分布在表面,而不是体内。如果恒定数量的样本在高维超立方体中均匀分布,那么在超越某个维数的情况下,大多数样本将更接近于超立方体的一个面,而不是它们的最近邻。此外,如果我们通过嵌入超立方体的方式逼近一个超球面,那么在高维度下,超立方体几乎所有的体积都在超球面之外。这对于机器学习来说是个坏消息,因为一种类型的形状常常可以被另一种形状所逼近,但在高维空间中却失效了。
建立二维或三维分类器容易;我们可以仅通过视觉检查找出不同类别样本之间的合理边界。但是在高维中,我们很难理解数据的分布结构。这又反过来使设计一个好的分类器变得困难。简而言之,人们可能会认为收集更多的特征一定不产生负面作用,因为它们最多只是不提供有关分类的新信息而已。但事实上,维度灾难的影响可能大于添加特征所带来的利益。
6. “理论保证”与“实际出入”的相互关系
机器学习论文中充斥着理论保证。最常见的保证就是关于保持模型良好泛化能力的训练样本数量约束问题。首先,该问题显然是可证的。归纳通常与演绎相对:通过演绎,你可以确保结论是正确的; 在归纳中,所有臆想都被摒弃。或许这就是传世的古老智慧。近十年的主要突破就是认识到归纳的结果是可证的这一事实,尤其在我们愿意给出概率保证时。
必须斟酌这类约束意味着什么。这并不意味着,如果你的网络返回与某个特定训练集一致的假设,那么这个假设就可能具有很好的泛化能力。而是,给定一个足够大的训练集,你的网络很可能会返回一个泛化能力好的假设或无法得到一致的假设。这类约束也没有教我们如何选择一个好的假设空间。它只告诉我们,如果假设空间包含好的分类器,那么随着训练集的增大,网络训练出一个弱分类器的概率会减小。如果缩小假设空间,约束条件作用会增强,但是训练出一个强分类器的概率也会下降。
另一种常见的理论保证是渐进性:假如输入的数据规模是无穷大的,那么网络肯定会输出一个强分类器。听起来靠谱,但是由于要保证渐近性,选择某个网络而非另一个就显得过于轻率。在实践中,我们很少处于渐近状态。由上面讨论的偏差 - 方差权衡可知,如果网络 A 在具有海量数据时比网络 B 好,则在有限数据情况下,B 往往比 A 好。
理论保证在机器学习中存在的意义不仅仅是作为评判实际决策的标准,而且是理解的方法及设计算法的动力。鉴于此,它十分有用。事实上,这么多年以来,正是理论联系实际促进了机器学习的飞跃式进步。
注意:学习是一个复杂的现象,它在理论上说得通,在实际工作中可行,也并不表示前者是导致后者的原因。
7.“特征工程”是机器学习的关键
最后,有些机器学习项目大获成功,有些却失败了。这是什么造成的?最重要的影响因素就是使用的特征。如果你获取到很多独立的且与所属类别相关的特征,那么学习过程就很容易。相反,若某一个类是特征的极其复杂的函数,你的模型可能无法学习到该函数。通常来说,原始数据格式很不适合学习,但是可以基于它来构建特征。这正是机器学习项目最重要的部分,通常也是最有趣的部分,直觉、创造力、「魔术」和技术同样重要。
初学者常常会惊讶于机器学习项目实际上花在机器学习上的时间很少。但是当你将收集、整合、清洗和预处理数据以及将数据重构成特征过程中解决错误等琐事所消耗的时间考虑在内就不奇怪了。而且,机器学习并不只是构建数据集跑一次模型就没事了,它通常是一个跑模型、分析结果、修改数据集/模型的迭代式过程。学习是其中最快的部分,但这取决于我们已经可以熟练运用它!特征工程因为针对特定的领域,所以很难做,而模型架构的适用范围更广泛。但是,这二者之间并没有清晰的界线,这通常可以解释那些整合了领域知识的模型具有更好的性能。
8. 记住:数据量比算法还重要!
在计算机科学的大多数领域,时间和内存是两大紧缺资源。但在机器学习中,数据集俨然是第三个紧缺资源。随着时间的推移,瓶颈之争也在不断改变。在 20 世纪 80 年代,数据通常是瓶颈。而如今时间更为宝贵。我们今天有海量的数据可用,但是却没有充足的时间去处理它,这些数据因此被搁置。这就产生了一个悖论:即使在原则上讲,大量的数据意味着可以学习到更复杂的分类器,但在实践中,我们往往采用更简单的分类器,因为复杂的分类器意味着更长的训练时间。部分解决方案是提出可以快速学习到复杂分类器的方法,且今天在这一方向上确实取得了显著的进展。
使用更智能的算法的收益不如期望的部分原因是,第一次取近似值时,它跟其它算法无异。当你认为表征方式之间的区别与规则、神经网络之间的区别类似时,这会让你惊讶。但事实是,命题规则可以轻易地编码进神经网络,并且其它的表征方式之间也有类似的关系。模型本质上都是通过将近邻样本分到相同的类别而实现的,关键差异在于「近邻」的含义。对于非均匀分布的数据,模型可以产生广泛不同的边界,同时在重要的区域(具有大量训练样例的区域,因此也是大多数文本样例可能出现的区域)中产生相同的预测。这也能解释为什么强大的模型可能是不稳定的但仍然很准确。
一般来说,我们首先要考虑最简单的模型(例如,先考虑朴素贝叶斯而非 logistic 回归,先考虑 K-近邻而非支持向量机)。模型越复杂越诱人,但是它们通常很难使用,因为你需要调整很多的节点以获得好的结果,同时,它们的内部构造极其不透明。
模型可以分为两种主要类型:一种是规模固定的模型,例如线性分类器,另一种是表征能力随数据集增强的模型,例如决策树。固定规模的模型只能利用有限的数据。规模可变的模型理论上可以拟合任何函数,只要有足够大的数据集,但是现实很骨感,总存在算法的局限性或计算成本。而且,由于维度灾难,现有的数据集可能不够。鉴于这些原因,更智能的算法—那些充分利用数据和计算资源的算法--如果你愿意努力去调试,最终会得到好的结果。在设计模型与学习分类器之间并没有十分清晰的界线;但是,任何给定的知识点都可以编码进模型或从数据中学习到。因此,模型设计往往是机器学习项目中的重要组成部分,设计者最好拥有相关专业背景。
9.“单模型”很难实现最优,“多模型集成”才是出路!
在机器学习发展的早期,大家都有各自喜爱的模型,用一些先验的理由说明它的优越性。研究员对模型开发了大量的变体并从中挑选一个最优的模型。随后,系统的经验比较表明,最好的模型随应用的改变而改变,开始出现了包含许多不同模型的系统。现在的研究开始尝试调试多个模型的不同变体,然后挑选表现最好的那一个。但研究人员开始注意到,不选择找到的最佳变体,而是结合多个变体,却得到了更好的结果(通常会好很多),而且这没有增加工作量。
现在,模型集成已经是标准方法。其中最简单的技术叫 bagging 算法,我们仅通过重采样来生成训练数据集的随机变体,再基于这些变体分别学习分类器,并通过投票整合这些分类器的结果。此法的可行性在于它大幅减少了方差,且只微微提升了一点偏差。在 boosting 算法中,训练样例有权重,而且这些权重各不相同,因此每个新分类器都把重点放在前面的模型会出错的样例上。在 stacking 算法中,每个单独的分类器的输出作为「高层」模型的输入,这些高层模型会以最佳方式组合这些模型。
还有很多其它的方法,就不一一列举了,但是总的趋势是规模越来越大的集成学习。在 Netflix 的奖金激励下,全世界的团队致力于构建最佳视频推荐系统。随着竞赛的推进,竞赛团队发现通过结合其它团队的模型可以获得最佳结果,同时这也促进团队的合并。冠军和亚军模型都是由 100 多个小模型组成的集成模型,两个集成模型相结合可进一步提高成绩。毫无疑问,将来还会出现更大的集成模型。
10 .“简单”不能代表是“准确”!
奥卡姆剃刀原理指出,如无必要,勿增实体。在机器学习中,这通常意味着,给定两个具有相同训练误差的分类器,两者中较简单的分类器可能具有最低的评估误差。关于这一说法的佐证在文献中随处可见,但实际上有很多反例用来反驳它,「没有免费午餐」定理质疑它的真实性。
我们在前文中也看到了一个反例:集成模型。即使训练误差已经达到零,通过增加分类器,增强集成模型的泛化误差仍然可以继续减少。因此,与直觉相悖,模型的参数数量与其过拟合趋势并没有必然的联系。
一个巧妙的观点是将模型复杂性等同于假设空间的大小,因为较小的空间允许用较短的编码表征假设。类似理论保证部分中的界限可能被理解成较短的假设编码有更好的泛化能力。通过在有先验偏好的空间中对假设进行较短的编码,我们可以进一步细化这一点。但是把这看作准确率和简单性之间的权衡的证明则是循环论证:我们通过设计使偏爱的假设更简单,如果它们准确率不错,那是因为偏爱假设的正确,而不是因为在特定表征下假设的「简单」。
11.“可表征”并不代表“可学习”!
所有运用于非固定规模的模型表征实际上都有「任意函数都可以使用该表征来表示或无限逼近」之类的相关定理。这使得某表征方法的偏好者常常会忽略其它要素。然而,仅凭可表征性并不意味着模型可以学习。例如,叶节点多于训练样本的决策树模型就不会学习。在连续的空间中,通常使用一组固定的原语表征很简单的函数都需要无限的分量。
进一步讲,如果评估函数在假设空间有很多局部最优点(这很常见),模型可能就找不到最优的函数,即使它是可表征的。给定有限的数据、时间及存储空间,标准的模型只能学到所有可能函数集的一个很小的子集,且这个子集随所选的表征方法的不同而不同。因此,关键问题不在「模型是否可表示」,而「模型是否可学习」以及尝试不同的模型(甚至是集成模型)是很重要的。
12 .“相关性”并非就是“因果关系”!
相关性并不意味着因果关系这一点被频繁提起,以至于都不值得再批评。但是,我们讨论的某类模型可能只学习相关性,但是它们的结果通常被看作是表征因果关系。有问题吗?如果有,那么大家为何还这么做?
通常是不对的,预测模型学习的目标是用它们作为行动的指南。当发现人们在买啤酒的时候也会买纸尿布,那么把啤酒放在纸尿布旁边或许会提高销量。但如果不实际进行实验则很难验证。机器学习通常用于处理观测数据,其中预测变量不受模型的控制,和实验数据相反(可控的)。
一些学习算法也许可以通过观测数据挖掘潜在的因果关系,但是实用性很差。另一方面,相关性只是潜在的因果关系的标识,我们可以用它指导进一步的研究。
原文:https://medium.com/cracking-the-data-science-interview/12-useful-things-to-know-about-machine-learning-c599be92c98d
转自:大数据文摘
编译:顾晨波、笪洁琼、Aileen
我们正在进入数据科学实践的新阶段,即“无代码”时代。 像所有重大的变化一样,这个变化还没有在实践中清晰地体现,但这个变化影响深远,发展趋势非常明显。
现在,每一周都会有一些自动代码行业的最新进展。创业公司的集成产品是有一些进展的,不过更多见的是基于现有分析平台供应商新添加的功能或模块。
自从自动化机器学习(AML)平台出现以来,我一直在关注它们的成长。
我在2016年春天,撰写了一篇关于它们的文章,题目是“数据科学家将被自动化机器学习平台取代并在2025年失业!”。
当然,我的预测不是绝对准确的,但在过去的两年半里,自动化功能在我们机器学习行业中的发展确实非常引人注目。
无代码数据科学(即不需要人工写代码的数据科学),或自动机器学习,或者可以称为简单易用的 “增强型”数据科学产品,范围包括:
-
附带指导的平台:具有高度指导功能的建模程序平台(当然还是需要用户完成一定步骤,这样的平台有BigML,SAS,Alteryx)。经典的简易操作平台(drag-and-drop )是这一代的基础。
-
自动机器学习(AML):全自动机器学习平台(例如DataRobot)。
-
会话分析:在最新版本中,用户只要提出可以通过常用英语解决的问题,平台就会提供最佳答案,选择数据,特征,建模技术,甚至可能是最佳数据可视化。
我们工具的智能扩展从预测和规范建模,已经扩展到了数据混合和数据准备领域,甚至扩展到数据视觉设计的领域。这意味着无代码智能功能可提供传统商学院的商业智能分析师(BI business analysts)使用,当然也可以为公民数据学者(又名Citizen Data Scientists)提供支持。
这种演变的市场驱动因素众所周知。在高级分析和人工智能中,核心的困难在于精英数据科学家的短缺,以及其高昂的成本和迫切的需求。在这个领域,最需要的是洞察力,效率和一致性。简而言之,就是效率高,速度快。
然而,上述工具在数据准备,混合,特征识别领域,对数据科学家来说也很重要,但是这些工具真正吸引的是有着更多数据分析师/ BI从业者的世界。在这个世界中,经典静态数据的ETL仍然是一个巨大的负担和时间的延迟,它正在从IT专家的功能迅速转向自助服务。
我在2001年开始从事数据科学研究时,SAS和SPSS是主要的工具,并且已经从他们的专有代码转向简易操作平台,这便是机器学习自动化的最早形式。
在这之后的7~8年,学术界转向R语言教学,因为虽然SAS和SPSS向学生免费开放,但是他们仍然向教师收费(尽管给学术界的折扣很大)。但是,R一直是免费的。
然后我们就到了这样一个时代,一直持续到今天。在这个时代里,成为数据科学家意味着成为程序员。用代码作业,这就是当前这一代数据科学家受到教育的方式,也是他们在数据科学实践的方式。
人们有着一个并不正确的误解:在简易操作系统平台中,不允许微小超参数的调试,而这应该被允许。如果你曾经使用过SAS Enterprise Miner或其竞争对手的平台上,那么您知道这个想法并不对,事实上,微调非常容易做到。
在我的脑海里,总需要写代码是一个不必要的弯路—这往往会让新的数据科学实践者忽视基础知识,而致力于学习另一种编程语言。
我们倾向于将“提高模型的准确性”视为高级分析是否成功的标准。有一种观念认为,依靠自动化的无代码解决方案会丢失部分准确性。事实并非如此。
像DataRobot,Tazi.ai和OneClick.ai这样的AutoML平台不仅支持并行运行数百种模型类型,还包括超参数,而且它们还可以执行变换,特征选择甚至进行一些特征工程。在准确度上击败这样的平台是很困难的。
需要注意的是,应用特征工程领域的专业知识仍然是人类的优势。
也许更重要的是,你在开发上花费几周时间得到的结果和这些AutoML平台提供的几天甚至几小时的结果相似,那到底哪个更值?
在我看来,无代码化的最大受益者实际上是传统数据分析师和数据学者,他们仍然最关注BI静态数据。独立的数据混合和准备平台,对这个群体(以及工作量将大大减轻的IT工作者)来说,是一个巨大的好处。
.
这些无代码化数据准备平台,例如ClearStory Data,Paxata和Trifacta正在迅速将机器学习功能纳入它们的流程,帮助用户选择合适的数据源进行数据混合,判断哪些数据项有价值,甚至它们的功能扩展到了特征工程和特征选择。
现代数据平台正在使用嵌入式机器学习技术,作为智能数据自动清洗或异常值处理的典范。
其他公司,例如Octopai公司,刚刚被Gartner评为“5大酷炫公司”之一,专注于让用户通过自动化技术快速查找可信数据,使用机器学习和模式分析来确定不同的数据要素,创建的背景数据,以及数据的预使用和转换之间的关系。
这些平台还通过强制执行权限以及保护PID和其他类似敏感数据来实现数据安全的自助服务。
甚至数据可视化技术的领导者Tableau也正在使用自然语言处理(NLP)和其他机器学习(ML)工具推出会话分析功能,允许用户以简单的英语提出查询要求,并收到最优可视化效果。
Gartner认为,在两年内,即到2020年前,公民数据学者(即citizen data scientist)所完成的高级分析将在数量上和价值上超越数据科学家。他们建议数据科学家专注于专业问题,并将企业级模型嵌入到应用程序中。
我不同意此想法,这似乎会使数据科学家降级去做QA和产品实施(Implementation)的工作。这不是我们的本职工作。