专栏名称: 产业智能官

用新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

【机器学习】更大的数据=更好的ML？这些误区你得知道

产业智能官 · 公众号 · · 2019-05-23 06:17

正文

人们对大数据往往存在着根本的误解：更大的数据可以有更好的机器学习结果。然而，更多的数据未必能帮助提高机器学习。数据的质量、价值及多样性比数据的大小规模要重要得多。

随着云计算和Hadoop及其变体的出现，大数据逐渐衰落。但现在许多人仍斥巨资建更大的设施来处理、存储和管理庞大的数据库，盲目追求数据的“大”。无疑，在设施建设以及人力资源方面需要投入相当大的成本，但这完全是可以避免的。

是时候把讨论的主题从“大数据”转到“深度数据”了。我们现在不能为了数据的“大”而收集所有可能的数据，而是要更深思熟虑、更明智。我们现在要丢弃一些数据，要注重数据的多样性而不是大小，注重质量而不是数量，这可以带来长期利益。

大数据的奥秘

为了理解从“大数据”到“深度数据”的转变，我们先来看看一些对大数据的误解：

1. 所有的数据都能且应该收集储存起来

2. 更多的数据总是有助于构建更精确的预测模型

3. 存储更多数据增加的成本基本为零

4. 运算更多数据增加的成本基本为零

但现实是：

1. 我们目前仍无法收集物联网和网络流量的所有数据，在收集时必须丢弃一些数据。我们得聪明点，看看哪些数据能有价值。

2. 重复一千次的数据样本不能提高预测模型的准确度。

3. 亚马逊云计算服务（Amazon Web Services）以每万亿字节数据为单位收取服务费，但存储更多数据增加的成本不像亚马逊收取服务费这样简单，还包括寻找、管理多个数据源的额外的复杂工作，还有工作人员移动，使用数据时的“虚拟负担”。增加的这些成本通常比存储以及运算数据的花费还要高。

4. 人工智能算法的运算资源需求很大，甚至会超过一个弹性云计算设施的资源容量。运算资源是线性增长，而运算需求却是超线性增长，如果不熟练掌控的话，甚至是指数性增长。

若是你也对这些大数据也有误解，那么你构建的信息系统，虽然表面看起来不错，也许长远来看也还行，但操作起来会过于繁琐。

大数据的四大问题

盲目相信数据“越大越好”，就会出现以下四大问题：

· 相同的数据再多也无益

在构建人工智能机器学习模型时，训练数据的多样性至关重要。因为模型是根据数据类别来界定概念。例如，如果模型要通过年龄和职业来界定“退休工人”这一概念，那么重复的32岁注册会计师的样本数据对模型完全没用，因为他们都没有退休。以65岁的样本数据界定这一概念更加适用，然后来看看不同职业的退休情况的差异。

· 错误的数据会损害模型

如果新的数据有误或不精确，就会扰乱AI对不同概念的界定，在这种情况下，更多的数据并无益处，反而会降低现有模型的准确性。

· 更大的数据会推迟模型构建

用一万亿字节的数据构建模型可能比用十亿字节的数据构建模型要多花一千倍的时间，根据学习算法的不同，也许会多花一万倍的时间。数据科学关键在于快，不完美但灵敏的模型应优先考虑。没有速度就无法突破前进。

· 构建可用于商业的模型

预测模型的最终目标都是建立一个高精度的、可应用于商业的模型。有时用更隐蔽的数据可使模型的精度更高，但在实际应用中，这些隐蔽数据可能不可靠。精确度虽然较低，但是运算快且可用于商业的模型应优先考虑。

从四个方面可以做得更好

为应对大数据的“黑暗面”并且培养“深度数据”的思维模式，可以这样做：

· 理解精确度/权衡执行

数据科学家们经常把精确度更高的模型视作目标，但开始项目时，应该根据精确度和执行速率确立明确的投资回报率（ROI）预期。

· 用随机样本数据建立模型

就算有很大的数据也没必要用完全部数据。如果有很好的随机抽样函数的话，用小部分的样本数据就能准确预测出用全部数据构建的模型的精确度。先用小的样本数据快速试验，然后再用数据库的全部数据构建最终模型。

· 丢弃一些数据

如果物联网设备和其他来源的流动数据将你淹没了，你可以丢弃一些数据，或者丢弃很多数据。因为你买不到足够的磁盘来存储这些数据，而且这些数据会搞砸数据科学项目的后期工作。

· 寻找更多数据来源

近来人工智能的许多突破并非来自更大的数据集，而是因为机器学习算法能够挖掘其之前无法获取的数据。例如，大文本、图像、视频和音频数据集等，虽然在现在很常见，但20年前却是没有的。要不断寻找新的数据机会。

四件事情可以使数据变得更好

如果你关注的不仅仅是大数据，还有深度数据，那么你将会受益良多：

· 所有的进程都变得更快

数据越小，数据的移动、实验、训练和模型评分都会更快。

· 存储和计算需求更小

将重点放在深度数据上，你可以有效地使用更小的磁盘和更少的云计算空间。这将直接减少建设设施的成本，省下的钱可以雇佣更多的数据科学家和AI专家。

· IT团队的压力更小数据科学家心情更好

【机器学习】更大的数据=更好的ML？这些误区你得知道

正文

请到「今天看啥」查看全文