专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
宝玉xp  ·  //@西雅图黄都督://@程序员邹欣://@ ... ·  昨天  
爱可可-爱生活  ·  【Elysium:在Emacs中自动应用AI ... ·  3 天前  
爱可可-爱生活  ·  【Aria训练与评估工具包ATEK:一个加速 ... ·  3 天前  
爱可可-爱生活  ·  【「TAI前沿」第12期 ... ·  6 天前  
51好读  ›  专栏  ›  机器学习研究会

【推荐】两个案例,掌握AI在大数据领域的前沿应用

机器学习研究会  · 公众号  · AI  · 2017-07-17 21:23

正文

阿里妹导读:近日,全球技术学习技术大会首次在京举行,阿里巴巴数据技术及产品部资深算法专家杨红霞(鸿侠)作为特邀嘉宾出席并发表主题演讲。鸿侠从什么是数据新能源说起,接着介绍了阿里目前比较成功的两款数据产品,一个是是自动化标签生产,另外一个是大规模分布式知识图谱,以及在此之上的一些重要应用。最后是她对机器学习和人工智能技术对数据新能源产业中有效落地的一些建议和期望。



下面是基于鸿侠现场演讲内容摘要:


如果大家对阿里巴巴的新闻比较关注,最近可能会频繁听到阿里巴巴谈到“五新”这个词,“五新”中的其中一个概念是新能源。其实新能源就是大数据本身。技术、数据和算法三个方面结合在一起,才可以把数据真正用起来。



大家都知道,Google的数据量很大,但是它的数据源本身其实比较单一。以Google  search,Google  map等为主导。再来看看Facebook,它更多的是社交行为数据,缺少出行数据、 浏览器数据、或者类似优酷的视听数据。但是,对于阿里来说,上述的这些数据我们都有。我们面临的极大挑战是:怎么样有效的把这些全域数据融合在一起。


首先我们需要把数据有效地收集起来。把数据有效地收集、存储起来之后,接着要做的就是怎么通过算法把这些数据打通,并且真正有效、智能地把这些数据提炼出来。



这是阿里的一个生态体系图。最底层是阿里云,这是我们的一个计算存储框架。上面是阿里妈妈,阿里妈妈是负责整个阿里巴巴计算广告的一个部门,再上面是菜鸟、支付宝和蚂蚁金服。然后是与电商业务相关的,像淘宝网、天猫、聚划算等等,或者是跟文娱相关的,优酷土豆,还有像阿里旅行,口碑之类的业态。


阿里巴巴数据中台要做的事情是什么呢?举一个最简单的例子,之前有一个比较火的电视剧《三生三世》。《三生三世》火热上映的时候,与之相关的商品元素,比如饮食或者穿戴之类的商品,也会瞬间在淘宝网上火爆起来。那么如果我提前就知道某一类人群是《三生三世》的粉丝,我就可以在淘宝网上做非常高效的、准确的定位推广。阿里数据要做的是:把数据真正打通,深度挖掘数据的价值,为业务创新应用提供数据决策基础和依据。


下面具体介绍一下数据融合的技术框架。因为在真正进入算法之前,我们一定要对数据进行非常认真、仔细地进行清洗过程。俗话说,如果你的数据不清洗,其实就是“learn trash from trash”。所以数据本身一定要做得非常干净。



首先来看一下架构图,第一个数据层中有各种各样的数据,比如有消费数据,有广告数据,出行数据等等。把这些数据层经过有效结合在一起之后,接下来得到这种特征层的提取。在阿里数据内部,大概有这样几个比较抽象的维度:像账号设立的静态特征,电商行为的特征,或者设备的特征等等。


在特征层之上,我们会有模型层, 这里面有基于业务规则的模型,也有其他的例如异常检测,有监督或者无监督的学习,然后特征的联合校验等模型。因为我们的数据源非常多,因此我们也可以通过部分的数据源验证另外一个数据源,看数据的增长或者留存是否处于一个正常范围。另外还有一些比较好的方法,比如基于Graph的一些算法,实时的反作弊算法等等。在算法层之上,就是评估层。在评估层内,我们可以判断留下来的数据是否是真正有效的数据。


在上述这些数据层的上面,会有一个应用层,也同时会抽象出一些产品来帮助内部员工或者外部商家进行使用。所以,整个数据中台实际上是从底到上对数据进行清洗的一个架构。


转自:阿里技术