【听杨姐说】
大家知道现在最令人意想不到的“黑客”是怎样入侵的么?
艾玛,前两天跟亚信网络安全产业技术研究院副院长童宁聊了半天,结果怎样,说出来你都不敢相信:
现在的黑客其实干活很轻松,人家给你的HR发一封求职简历,简历是一个PDF文件,里面使用带Adobe Reader漏洞的PDF文件(或者在word里加个恶意的宏命令),先破了你们公司HR的邮箱(每个公司其实最薄弱的对外环节就是HR),贵公司那点破事就没啥秘密可言了——这还有个特文艺的名字叫“社交工程学攻击法”;
再有给你们公司门口“丢”U盘的,U盘里一般会事先准备好一个例如名为“公司绝密:年底涨薪名单.doc”的文件,只要有人捡到一插电脑再打开那个诱人的名单……贵公司那点破事就又没啥秘密可言了;
还有更简单粗暴的。现在不是都在搞智慧城市、公司里也有一大堆摄像头吗,一般这些摄像头不远的地方就是户外交换机,黑客们就把锁一撬,把交换机换成他自己留了“后门”的,人家在家里就可以直接连过来soho办公了,贵公司那点破事……你懂的!
当然,也有一些颇具“技术含量”的,买通二级域名注册商,在一些大家都爱上的网址前加上二级域名,用户一点,直接到了他的赌博网站啥的。
你会说,这都是老套的玩法了吧,唉,确实老套,但据亚信童宁所说——仍然好使!因为小白太多了……
童宁是谁?
这么说吧,他所在的亚信集团,一直给中国三大电信运营商提供计费系统,现在已经是全亚太第一的电信软件服务商,目前又有一部分业务是给三大运营商和全行业提供安全服务——此前他们收购了全球最大独立安全公司趋势科技的中国区业务,现在手里有来自全球15个实验室汇总的、最大的恶意病毒库。童宁就在亚信网络安全产业技术研究院担任副院长。
但是,更多黑客其实没那么“勤快”去你公司附近扔U盘,换交换机,他们喜欢的仍然是网络上的远程攻击,手法千变万化,而安全行业的很多人并不能及时搞清楚,所以童宁就特别希望搞出一套利用人工智能来训练的系统,能够让这些安全人员能够经过简单地培训就使用这套系统。到了那个时候,每个公司的安全管理员都可以“自己”就判断一个行为是不是“黑客入侵”了!
想法确实不错,可是如果攻击的一方也去训练一套人工智能的系统……呢?
训练一个“大脑”
最早接触童宁,是在成都举办的C3安全峰会上。童宁有个演讲,就是在说他正在如何计划用机器学习的方法来对付黑客。
童宁干这件事的背景是2006年开始的病毒和黑产的大规模爆发——2007年约有600万个新病毒出现,也就是每天出现1.6万个病毒。2012年达到第一个高峰期,新病毒大量出现。
人们也一直在对抗。“第一代”主要是防守法:首先是建栅栏,打补丁;其次是做入侵检测;第三是做防病毒,第四是做关键文件审计,即关键文件有没有被人替代,被人修改。这些都是御敌于外的策略。
“第二代”的方法论则是“监视”,既然拦不住——信息必须进入,那好,就“监视”进来的人一举一动,从行为特征上判断谁是小偷。但这个监视的人必须是个公安局的抓偷能手,或者本身就是“小偷”,因为只有更专业的人才能通过行为识别“小偷”。
因此出现了土豪公司请来了“攻防专家”对付黑客和病毒,其实就是人肉战!
这显然并非长久之计,一来攻防专家数量特别有限,成长时间又很慢长,不够用啊;二来,如果真的好不容易修炼成了攻防专家,他们有很多方法能挣到大钱,就甲方给的那几十万的单子,真正落入专家手中的并没有多少——留不住人家的心啊。
所以在这种情况下仅靠网络安全专家分析和阻挡是绝对不够滴——童宁就想到了要打造一个可以通过机器学习的方法来筛查漏洞的“系统”。
“无论是U盘、HR简历还是更换交换机这样的攻击,都能够通过简单地本地分析来识别,但过程比较复杂且代价是个问题。例如针对摄像头的交换机被人换掉,人工智能也许就能发现异常断网了,发现设备号发生变化,再进一步识别……理论上讲这些攻击手法进行训练,机器学习都会产生认知。”童宁说。
是的,如果越来越多的人来不停地用线索、特征来“喂”这个系统,这个系统就会越来越聪明,童宁目前正在训练这台“机器”,通过机器学习的四类方法:监督学习、无监督学习、半监督学习和强化学习,应用在安全领域里,就是识别攻击和病毒。
所谓“监督学习”其实就是界定和分类,通过已有的病毒攻击样本去训练得到一个最优模型,再利用这个模型将所有的最终结果,例如病毒、攻击名称等等特征与样本对应起来。目的就是以后见到了特征就能知道原因,也就具有了对未知数据进行分类的能力。
就像教一个孩子,这个是鸟,这个叫树,开水是烫的,雪是冷的……以后孩子见到这些东西,就知道它的名字、特征,这个过程就相当于“定义”的过程,都是针对已知的病毒、攻击用的。
无监督学习的过程则是“聚类”,前提就是不知道它具体是什么,直接建模,只要有相似性就放一起——这个主要用于监督那些此前从未出现过的攻击,人们缺乏足够的先验知识,因此难以人工标注类别。也就是说,这个理论用在发现异常现象上特别好使,因此一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
但童宁强调,无监督学习的核心价值是相当于亚信安全给这个客户派了一个已经对客户、网络、环境能够有认知的机器学习大脑在客户环境里,基础算法虽然都有,但是训练的过程必须在客户的环境里——行业不一样,训练的结果也不一样,例如银行、电信或者是公安的网络里,训练出来的最后的认知也都不一样!
半监督学习的过程介于前面两者之间,既使用大量的未标记数据,又使用标记数据,其基本思想是利用数据分布上的模型假设, 建立学习器对未标签样本进行标签。这种方法用人少,准确性又高,因此正越来越受到重视。
而强化学习就比较好理解了,比如马戏团逗狗熊,做对了一个投篮动作就给个巧克力,强化狗熊对这个动作的正向肯定——判断、对抗病毒和攻击也是如此,如果系统能够通过某种方法干掉一个病毒并获得正向肯定的奖励信号,系统就会更倾向于这样做……
当然,机器学习这四种方法不但需要研发时间,还需大量数据,不仅仅是日志,而是核心数据。
童宁的这个防御系统,第一步就是做“取证系统”,数据足够多的时候,可以做异常行为的发现,并且启动第二步“对战模块”,通过机器进行对战,等战到机器把所有已知的进攻行为、防御的部分都产生一个认知之后,才可以商用,即用机器学习做防御。
“到了那个时候,识别攻击对于一般的运维人员来讲难度可以降到很低,培养运维人员的周期甚至缩短到几个月,因为未来取证的课程是场景化的,感觉就像是Google一样。”童宁说:“这就像你自己请了个保安,有可疑的人在家门口徘徊保安就可以去询问一下进行判断,不用凡事都去报警了。”
艾玛,那攻防专家会失业么——当然不会,攻防专家那个时候就去研究最新的攻击手法,然后再丢到这个机器学习的模型里,再进行训练。
ok,姐的问题来了:那如果黑客也去“训练”一个基于同样原理的人工智能系统来不断产生新的攻击方法呢?
魔高一尺,道高一丈
这个问题多好玩——告诉你,童宁的回答是“理论上确实是可行的”!
但黑客攻方也要做机器学习,跟守方做机器学习的过程和条件都是类似的,他们也必须具备条件:第一个,高质量数据,且是大量的数据,还是持续学习——这点对攻方来讲是一个非常大的挑战。
可是吧,黑客攻击一方却不能像守方一样可以合法地利用大数据,所以挑战不小。当然攻方也可以购买到数据,但他也要伪装身份,用不合法的方式拿到——这对持续的机器学习是一个很大的挑战。
此外,攻方的方式目前还是找到别人的弱点和系统漏洞,基本还处于第一代方法,即便攻方有利用人工智能的思路,但是也没有看到特别明显的做法。还有一个原因是,现在守方实在太弱势了:扔个U盘都有很多公司中招,黑客不需要用很高级的方法去费那么大的劲!
所以,现在的很多资料都在讲,如果有人在干机器学习攻击这件事,那他最想做的事情是如何用正常的行为来拿到数据。当然,攻方也可以把自己伪装成一个“良民”,就像在菜场里,总要拎个菜篮子,总要买点菜,总要天天来……
据悉亚信安全在做相应的机器学习的时候,也不是放开了100%放心让他跑,而是将第一代技术、第二代技术和第三代技术组合用的,即黑白名单、行为识别一起都在用,且加上机器学习识别。
唉,现在的世界本身就是攻防世界,说穿了还是人与人的“对抗”!而在网络安全这个世界里,永远是先有“魔”,后有“道”——“道高一尺,魔高一丈”!
【小白不菜】微信号:xiaobaibucai521
我们是小白,但我们不是菜鸟!
荣获2014年最佳自媒体
媒体训练营2014最佳自媒体
百度知道认证专家
2015媒体训练营年度媒体之星
2016年度媒体训练营媒体之星
您可以在百度百家、今日头条、QQ公众账号、腾讯新闻客户端、网易新闻客户端、网易云阅读、雪球、百度号……等平台同时阅读