机器学习自主解决安全威胁离我们还有多远？

大数据文摘 · 公众号 · 大数据 · 2017-03-16 06:58

正文

授权转载自bigsec岂安科技

作者 | marvin

---------------

手把手辅导，教会为止

距离课程开始仅 2 天

用云实验环境

完成第1个数据科学项目

美国大选数据分析与可视化

电商销量预测

海量文本分析

3月18日开课小班辅导

名额有限欲报从速

详情见文末

---------------

曾经听见不止一次这样的问题：

“

机器学习会替代基于人工经验规则的安全解决方案么？

”

把这个问题放在去年来看，我们已经得到了非常多的讨论甚至是一些已经实际应用的解决方案，对于人工智能在安全以及其它各种对数据进行价值挖掘的场景下，大家都表现出了极高的兴趣与激情。

1.你希望机器学习帮助你解决什么问题？

这个问题实际上代表了我们对机器学习的期待，而绝大多数人包括笔者在内的回答可能都比较类似：

我希望机器学习算法能够帮助我更有效的挖掘数据内在价值，发现潜在未知问题，并且极大的节省人工成本；实际上有更偏激的想法是想把数据丢给模型算法，然后期待它可以告诉我所有我想知道的事情。

2.机器学习应用在安全场景下的担忧

笔者最初发现机器学习算法的应用并不是在安全领域，而是在电商精准营销的场景下，通过用户的一系列搜索、收藏、购买行为积累，预测一个新的用户可能更倾向于买什么商品从而进行推荐。

这与安全场景是有一定类似性的，同样也是通过用户的访问、登陆、购买行为对威胁进行预测，评估一个用户是否是坏人。但这两个场景又具有一个本质的不同：

在精准营销场景下，你预测错误推荐了一个用户他不喜欢的商品，用户并不会为此大发雷霆；但是如果你的算法错误的预测了一个坏人的身份，用户又因此而被锁定账号、封禁或被限制，影响的就不仅仅是用户的感受，同时也降低了信任甚至对其他用户产生负面影响，我们所承担的代价是不同的。

3.机器学习在当下更多的是一个驱动者

在有限条件的应用场景下，机器学习无论从效率还是效果上都有着惊人的表现，从下围棋到设计电路板，我们无法理解也无法解释为什么电脑能够做的又好又快。

安全场景下为什么去封禁一个IP或者取消一个订单是需要给业务部门合理的解释的，一个黑盒的逻辑最大的弊端就在于对于给出的结果合理性无法从常识角度来给出解释，你只能默认接受。

所以，我们看到应用了各类机器学习算法的安全解决方案往往会回避最终决策的步骤，而是交给人工进行再次确认或只做参考。由此笔者认为，现阶段机器学习更多的是一个驱动安全运营的角色。

4.数据质量决定了机器学习算法应用于安全场景的价值天花板，而安全运营则是决定了转化率

数据源就是机器学习算法的黄油和面包，没有高质量的数据喂进去很难指望有高价值的产出，而目前接入数据的思路主要有两种：

一种是从企业现有数据中去做清洗和适配，这种方式对于集成双方都是一个非常痛苦的过程；
另外一种是摒弃企业现有存量数据，通过JS、SDK等方式从底层通用环节重新搭建业务数据模型，这种方式会导致历史数据无法有效的应用。

从卖方来讲，希望后一种模式，因为降低了方案实施难度，复制性较强，产品形态简单。而从买方来讲，条件允许的情况下都希望前一种模式，因为可预期的产出价值最高。

两种想法冲撞的结果下，最终会寻求到一个平衡点，但这里存在一个特例，也是最近两年比较热的威胁情报＋机器学习概念，区别于内部数据挖掘场景，威胁情报的数据大多都来自外部，服务提供方一次性接入数据便可以快速复制给多个客户，这无疑规避了一个客户一个处理方式的弊端。

但笔者认为，威胁情报如今可以快速聚集起大量数据的原因在于数据持有者变现意愿增强同时监管存在空白，之后还是存在很大的政策风险的。

而我们进一步来看机器学习应用所驱动的安全运营，“一人安全部”甚至没有安全运营是目前的普遍现状，在机器学习引入过之后发现依然需要大量的调优、协调、结果落地评估工作需要人工来完成，这种尴尬局面我认为在热度过后，今年会有更多的冷静思考，认识到：既然现在没有可以绝对替代人工完成风险决策的方案出现，那么安全运营这个角色就是不可或缺的，至少是在目前的过渡阶段。

5.机器学习的安全前景

经济增长往往都来自于生产效率的大幅提升，所以无论是在安全或是其他，机器学习的应用都已经表现出了可承诺的前景。

机器学习自主解决安全威胁离我们还有多远？

正文

请到「今天看啥」查看全文