36大数据专稿
於今,新南威尔士大学 (University of New South Wales)计算机科学博士,历任蚂蜂窝的副总裁兼首席架构师,OpenX公司副总裁兼首席架构师(全球第二大的广告交易平台)TriTech Tiburon执行技术总监,分别创立过专注于社交大数据开发的Portaura公司和专注于电子商务搜索引擎的Martsoft公司,现任亚信数据CTO。
日前,36大数据对亚信数据CTO於今进行了专访。
36大数据:是不是可以理解为公司目前正在转型,以前是项目合作,现在开发推出很多产品,吸引客户,从而促使公司业务层面从被动变成主动出击。
於今:公司转型其实是循序渐进的过程,可以理解是业务上主动出击。我们以前是项目型的,客户有需求,我们满足客户需求。我们现在要逐步研发新产品,考虑产品怎么进入市场,这是主动出击,也是提升效率很关键的地方。产品进入市场能够快速复制,效益就会提高,整个团队也会更加主动。亚信的品牌历程很长,大家都知道亚信做了20年电信运营商的支撑业务,在国内通信服务市场份额占比较高,但是对于具体的产品,大家并不是十分清楚。所以,我们希望通过大数据、人工智能这样新的领域,通过数据资源和大B的资源优势,未来在市场上有更好的表现。
36大数据:您认为AI对企业运营决策产生了怎样的影响?需要什么样的核心能力?
於今:关于企业运营决策的演进,从时间轴来讲,最开始都是在分析历史数据。以前,企业决策大部分靠经验。80年代,开始进入商业智能爆发。大数据算起来差不多有十年,真正推动起来是近五年,慢慢开始规模化,并且开始实施到各个垂直领域。人工智能发展在近两年不断加速,我们根据数据,利用人工智能帮助企业更有效的做运营和决策。
运营决策有两方面重要因素,一方面是数据本身,另一方面是运营的智能。人工智能的核心是机器学习,机器学习大家听得很多,大家都有不同的认知角度。传统的程序是程序员写代码,让计算机执行输出结果,这些是大家非常熟悉的。用计算机模拟已有的业务流程,达到一定的自动化效率的提升。机器学习则提供了一个新的典范,它通过处理期望的输入输出数据,自动形成决策程序,大大提高效率。深度学习是机器学习中的一个子领域。深度学习受人脑结构启发,进行端到端的模型训练。近几年来,深度学习领域发展很快,主要依靠理论不断改进,并行计算能力提高,大数据技术提供海量数据这三个因素,不断发展,使许多问题从不可能变成了可能。
36大数据:亚信开始推进产品化,这次也参加了2017上海MWC大会,展示了很多大数据、人工智能和物联网的内容,目前有哪些研发成熟的产品吗?产品有什么独特性?
於今: 亚信数据已经研发了自己的机器学习平台Aura。依托亚信的传统优势,Aura定义为运营商级别(Carrier-grade)的平台,有如下几个方面的特点:(1)覆盖面广 —— 服务国内大部分人口;(2)高稳定性 —— 达到了电信级别的SLA;(3)高效率,模型相应速度非常快,满足实时性需求。
亚信推出Aura的目标在于降低人工智能的学习门槛。一直以来,从事机器学习研究和应用往往需要计算机科学相关专业或有统计学丰富经验的中高端人才,而传统企业人才的技术背景难以匹配。 亚信研发Aura平台就是为了让更多企业利用大数据和人工智能技术,享受机器学习技术所带来的价值提升。
Aura里其中一个重要部分是“通用数据模型”(Common Data Model, CDM),依靠CDM,机器学习模型可以快速在同一个行业内的企业间移植复用,实现企业用机器学习技术开发效率的大幅提升。 Aura的机器学习平台提供两个开发工具,其中,Aura Visual Pipeline 提供向导式和情景化的快速模型定制。我们经过探索和实践抽象出一系列典型的机器学习应用场景,针对每个场景,都将科学的分析建模过程形成一个向导式的流程。使用者只需要提供一些必要的信息,就可自动生成一个有效的应用模型,也使整个流程变得水到渠成。另一个工具Aura Advanced Notebook,支持多种编程语言,并基于浏览器界面操作,有助于快速调试模型,Advanced Notebook适于数据科学家深度的进行的模型调整。
在Aura平台架构设计上,最重要的是数据和模型之间建立了反馈闭环。机器学习技术日趋成熟,以往项目化的应用机器学习技术,往往只关注模型交付时的效率表现。而随着时间的变化,模型的效果没有新数据的增量训练,往往会逐渐降低。这是因为数据和模型之间由于缺乏系统性和平台级的支持,没有形成反馈闭环。所以Aura机器学习平台着力于这个痛点,Aura平台上部署的模型采用自动化模型的再训练机,保证模型持续的有效性。
36大数据:现在人工智能的概念已经被谈及很多,但是关于真正商业价值变现的应用场景还是较少被提及,你们现在已经有落地的业务场景吗?
於今:Aura在垂直领域的有很多案例在进行机器学习与业务场景结合的探索,包括电信运营商、金融、医疗、零售等都已有实际应用案例。
36大数据:您能简单讲讲机器学习在这些业务场景是如何应用的么?怎样实现商业价值变现?
於今:我们在电信运营商方面有非常多经验,从营销、垃圾短信过滤到反欺诈。在营销场景以前都是用规则来做,比如这个用户的流量这个月快用完了,提供给用户一个流量包,这是一个非常简单的规则。现在我们把用户历史信息和深度画像结合在一起,对产品和服务具体信息进行精准匹配,并且考虑到时间维度的不同,来精准的预测客户的需求。
还有一种场景,Predictive Maintenance(预测设备的维修),替企业节约成本。所有大型的企业,包括运营商和电力这些企业,他们有很多硬件设备。一般采用都是用巡检对设备定期检测维修,但是这个方式会有很多漏洞。现在采用机器学习模型预测的方法来预测这个设备的维修周期。利用机器学习模型,数据需要闭环,数据提供给决策系统之后,要看系统到那个时候是不是有故障发生,如果没有发生故障,则说明没有需要进一步调整模型。
在金融行业我们也有案例。金融行业场景,主要有两个场景,是实时支付反欺诈和智能投顾。实时支付反欺诈场景下,我们的支付欺诈检测解决方案提供了4个方面的能力:首先,我们引入数据驱动的风控模型,以机器学习为基础,科学设定反欺诈规则,实现从数据到业务语言以及机器代码的转化。其次,我们实现了包括电子、手机、网银等多渠道的全面数据接入,提供完善的欺诈案件记录和处置的功能,填补事中风险管控工作的空白。第三,系统提供了优化的交易风险处置,通过量化风险,触发不同级别的防控策略,优化系统效果和用户体验。最后,我们提供全面的报表和分析功能,实时监控全局的风险情况,以便掌握信息。
关于医疗行业案例,主要是医保控费。美国数据显示大约750亿美元的卫生保健费用存在被骗、浪费和乱用现象。估计中国的数据也很可观,因为我们这边人口更多,基数比较大。解决这个问题我们分两步走,数据集中加建模分析。以咸阳为例,咸阳有30多家实体医院,集合三大类医疗数据:影像数据、医疗设备IoT数据、EMR 数据。亚信数据和咸阳市政府合作,把咸阳人口的医疗数据集中在医疗云中。然后进行特征分析,利用一些专家规则和机器学习模型共同判断,最后输出是一个客户化可以调节阈值的分数,这样实现效率的提高。
再讲一个零售行业案例,收银防损监控。零售行业利润比较薄,像超市这样的零售行业,货品损失会高达3%。收银视频监控防损应用的场景是针对收银员货品扫码的场景,检测漏刷和错刷的问题。我们捕捉收银员的扫描动作用深度学习的进行模型训练,并和POS数据进行核实比对,达到了非常高的异常检测准确度。
亚信数据是亚信集团专注大数据业务的子公司,致力于成为“关键行业和城市大数据的运营者”,依托亚信20余年在电信行业的积累,帮助行业客户和区域政府充分挖掘和释放数据价值。亚信数据聚焦医疗、政务、扶贫和城市运营等领域,结合以应用为导向的大数据产品、AI驱动的智能算法和以价值为引导的专业服务,帮助客户解决痛点问题,并与多个关键客户建立基于联合运营的长期合作关系。
数据是工业文明向信息文明演进的动力之源。在亚信集团“产业互联网领航者”愿景下,亚信数据携手客户和各界合作伙伴,构建协同开放、共享繁荣的大数据生态,使数据价值充分释放,成为全球大数据新大陆开拓中的“中国力量”!
负责研发Aura的亚信数据人工智能团队由於今博士牵头,多名毕业于全球知名高校的博士及硕士精英AI科学家及AI应用工程师组成。此前,团队已在大数据海量数据处理、机器学习在位置匹配策略、分布式服务器虚拟访问、实时流量监控和欺诈检测等方面展开了一系列研究应用,相关成果居世界领先地位,并与INTEL公司、NVIDIA公司、银行、医疗等机构开展了一系列产业化合作。未来团队将专注于机器学习平台产品的开发,以及在银行、医疗、政府等垂直行业的数据驱动型应用的开发实践。
End
为了让大家能有更多的好文章可以阅读,36大数据联合华章图书共同推出「祈文奖励计划」,该计划将奖励每个月对大数据行业贡献(翻译or投稿)最多的用户中选出最前面的10名小伙伴,统一送出华章图书邮递最新计算机图书一本。投稿邮箱:[email protected]
点击查看:你投稿,我送书,「祈文奖励计划」活动详情>>>
如果有人质疑大数据?不妨把这两个视频转给他
视频:大数据到底是什么 都说干大数据挣钱 1分钟告诉你都在干什么
人人都需要知道 关于大数据最常见的10个问题
从底层到应用,那些数据人的必备技能
如何高效地学好 R?
一个程序员怎样才算精通Python?
排名前50的开源Web爬虫用于数据挖掘
33款可用来抓数据的开源爬虫软件工具
在中国我们如何收集数据?全球数据收集大教程
PPT:数据可视化,到底该用什么软件来展示数据?
干货|电信运营商数据价值跨行业运营的现状与思考
大数据分析的集中化之路 建设银行大数据应用实践PPT
【实战PPT】看工商银行如何利用大数据洞察客户心声?
六步,让你用Excel做出强大漂亮的数据地图
数据商业的崛起 解密中国大数据第一股——国双
双11剁手幕后的阿里“黑科技” OceanBase/金融云架构/ODPS/dataV
金融行业大数据用户画像实践
“讲述大数据在金融、电信、工业、商业、电子商务、网络游戏、移动互联网等多个领域的应用,以中立、客观、专业、可信赖的态度,多层次、多维度地影响着最广泛的大数据人群
搜索「36大数据」或输入36dsj.com查看更多内容。
投稿/商务/合作:[email protected]