专栏名称: 软件定义世界(SDX)
软件定义世界, 数据驱动未来。
目录
相关文章推荐
软件定义世界(SDX)  ·  长芦海晶数字化转型思路分析与探索 ·  昨天  
软件定义世界(SDX)  ·  各大城市数据要素生态发展情况如何?看这份报告怎么说 ·  5 天前  
大数据文摘  ·  国庆从你的城市出发,5小时高铁最远能到哪 ·  1 周前  
51好读  ›  专栏  ›  软件定义世界(SDX)

【PPT】人工智能助力企业智能化@数库科技CTO夏磊

软件定义世界(SDX)  · 公众号  · 大数据  · 2017-06-25 06:57

正文

热门下载(点击标题即可阅读)

☞【下载】2015中国数据分析师行业峰会精彩PPT下载(共计21个文件)

转自:金鸡湖大数据产业联盟

夏磊,数库科技 CTO兼研发高级副总裁。曾先后就职IBM demandtec solutions 和HP 担任系统架构师。数库科技成立于2009年,先后获得穆迪和京东金融投资,在 2016 年被毕马威KPMG评为金融科技 50 强。

点击文末阅读原文下载PPT

以下为整理后的全文



企业智能化之路





最近20 年里,企业在信息化建设道路上经历了三个时期:


1) 最初企业解决的是信息管理系统的建设,通过搭建MIS 系统,把企业的业务流程进行电子化、无纸化,结构化的数据存入数据库,非结构化的数据,如PDF/WORD/EXCEL 等直接存档保存。

 

2) 随着互联网的演变,电子商务快速发展,出现越来越多的网上渠道,从采购到销售到在线广告,移动互联网的发展让企业有更多的渠道和用户交互,比如:O2O、对接支付宝支付、使用微信公众号营销。


3) 去年AlphaGo 的胜利让越来越多的普通大众认识到人工智能的重要性,企业里积累了大量数据都未曾被很好挖掘和使用,物联网和5G 网络的发展也必然给企业带来更多的过程数据,而对这些数据的挖掘和使用将帮助企业做更好的提效和决策。




人工智能发展历程





人工智能诞生于1956 年达特茅斯会议,经历了两次低谷,随着2006 年Hinton 提出深度学习,2013 年深度学习在语音和视觉识别上取得很高的准确率,2016 年AlphaGo 基于深度学习和强化学习算法战胜人类,这些让人们重新审视人工智能和机器学习算法对企业的帮助。




人工智能应用





比如以下三家公司:


IBM Watson 是一个通过自然语言处理和机器学习,从非结构化数据中揭示洞察的技术平台,他实现了认知计算:理解、推理、学习、交互。利用医学影像 “狙击”癌症、糖尿病、心脏病等重大疾病;Watson 把其认知学习能力用在云上,应用到分析、识别、阻止网络安全的威胁;颠覆千篇一律的购物体验。

 

AlphaGo 的作者DeepMind 研究方向是开发通用自我学习算法,2014 年被Google 4 亿英镑收购,DeepMind 的人工智能技术其实是从智能代理器开始的,你可以把智能代理器看做是一个机器人手臂、一辆自动驾驶汽车、或是一个推荐引擎的控制系统,这个智能代理器有一些目标需要完成,而且它也正在尝试不断优化。DeepMind 已经利用深度学习算法成功帮助谷歌数据中心的冷却系统节约用电40%。


高盛和JP 摩根、花旗都是华尔街高科技公司Kensho 的客户,Kensho 通过机器学习系统爬取大量的数据和市场动态,搜寻全球事件对资产价格影响的相关性;通过全球事件库连同知识图谱实时分析世界事件的影响。用户可以在搜索框里键入类似的问题:当三级飓风袭击佛罗里达州后,哪些水泥股会上涨?当苹果公司发布新版iPad,哪个苹果供应商的股票价格上升的最多?而以前我们回答这些问题,通常需要几个分析师几天的时间,现在只需要短短几秒。




人工智能正在改变金融





在金融行业,今年以来大家可以陆续看到市场上的一些资讯,人工智能已经取代了很多人的工作,人工智能存在的目的绝不是取代人类,而是为各行各业带来新技术、新工具,革命性地提升人类生活的质量和工作的效率。已经有越来越多的企业已经享受到了人工智能带来的效率提升,相信会有更多的企业加入人工智能的应用行列。

 

我们再来看国外的两个案例。


 

首先是智能搜索引擎AlphaSense,创始人是摩根士丹利的分析师,通过对上百万份上市公司公告、研究报告、投资关系演示文档、新闻期刊等非结构化文档进行提取,对每一行文本或者表格进行索引,通过可视化界面对用户的问题进行智能检索,在大量文档中揭示关键数据点。


 

另外一家非常创新的公司Quid 通过自然语言处理技术对亿级别的文本进行解读,寻找出其中的模式和共同点,进而对公司、行业、专利等进行可视化交互展示,指导各行业技术投资、并购、市场调研、制定公司战略。




机器学习算法




前面说了这么多的案例,这背后涉及哪些技术呢?人工智能研究应用的领域有自然语言处理、图像识别、语音识别、机器人(包含机器人流程自动化),要实现的目标是从感知到理解到决策的过程。算法则分为监督学习、无监督学习、强化学习和半监督学习;这些机器学习算法解决了预测、分类、聚类、降维等问题。

 

 

监督学习是在有大量标注样本的情况下,通过统计机器学习算法或者CNN 进行训练实现一个二分类或者多分类的模型,如:证券投资概念、舆情分析里对主题的情感分类。

 

无监督学习是在没有标注集的情况下,对数据进行建模,比如我们想通过财经新闻找出今天

热门话题就是一个无监督聚类的过程。

 

强化学习解决的是序列决策的问题,他适用于智能控制机器人及分析预测等领域;在AlphaGo 围棋对战中我们通过策略网络选择行动,告诉我们在哪里落子是最佳选择,通过价值网络评估当前位置,有了这两个网络,再使用蒙特卡罗树搜索方法把所有的参数部件都组合在一起来选择最佳的动作。

 

半监督学习有两个样本集,一个有标注,一个没有标注,因为通常我们很难获取大量标注集,我们可以在标注集的监督分类算法里加入无标记样本拟合样本的现实分布,同时在无标注集的无监督聚类算法里加入标记样本增强分类效果。

 

另外从模型的角度,除了传统的模型,深度神经网络近年得到了快速发展,在图像、语音、文本理解上都有了非常好的效果,通过对大量数据使用多层神经网络,端到端的自动学习抽象知识表达,输出最终的结果。在自然语言理解方面,以前我们把语料中每句话看成一个序列,通过N-Gram 来做语言建模,其缺点是数据稀疏且缺乏泛化性,词与词之间语义无法表示,无法进行相似性比较,2003 年Bengio 提出神经概率语言模型,使用一种连续空间词表示方式word embedding,把one-hot 词表示通过降维进行信息压缩用连续空间的向量表示,如[0.6,0.1,0.2];在此基础上,2013 年Tomas Mikolov 推出word2vec,使用CBOW 和Skip-Gram两种模型可以对大量文本训练出词和词的相似度;随后深度学习在自然语言处理领域就越来越热了。

 



人工智能应用如何落地




上面说了这么多人工智能的应用和算法,那么在企业里如何落地呢?我们在座的大部分企业几乎都没有资源像人工智能大牛那样发明很多新的深度学习模型,更多的还是综合使用一些机器学习算法,使用Java 或者Python 去调用很多的开源算法工具。除此之外我认为针对目前国内机构的现实情况,我们需要把更多精力放在以下几个方面:确定场景,挖掘领域知识,工具和平台。


 

首先,定义场景,我们需要对自己要解决的问题有个清晰的边界,就像前面提到的那些公司在做的事情一样,它一定是一个有着明确流程和目标,能帮助企业减少大量人工重复工作的事情,而且需要有持续的数据反馈。

 

其次,需要构建领域知识,包括词库、知识库搭建、特征工程等,拿医学专利文档分析来说,我们可以对互联网上抓取的海量医学文档进行初步分析,得到医学相关的重点词汇和主题,可以是作者、学科、医学名词、学校等,发现其中的相关性。

 

接着给领域专家提供标注工具,他们可以通过标注工具对语料进行标注,并建立实体和实体的关联关系,这样可以使模型训练更精准并且具有持续自我学习的能力。

 

最后搭建平台训练模型,发布模型,线上测试模型效果。


 

所以在企业智能化这条道路上,企业由传统的三层架构(数据存储、业务平台、前端产品)转向新的智能型架构:大数据平台、人工智能平台、云服务;其中大数据平台存储着企业内部的结构化、半结构化、非结构化数据;人工智能平台包含工具、算法、知识库、模型;云服务层通过微服务和可视化提供企业产品。




数库科技的解决方案




 

1. 非结构化文档挖掘


数库的文本挖掘技术,可以帮助企业将海量、格式多样的资料库通过程序自动转化为结构化的数据,将企业的资料库充分盘活。使用场景包括公告财务报表提取、合同信息提取和审核、法律文书信息提取和检索。



比如:当美联储加息或者人民币对美元汇率变化时,分析师想知道哪些上市公司会受到影响?那么就需要我们在非常短的时间对几千家上市公司PDF 公告中披露的外币构成明细业务表格进行提取,提取出相关财务科目和对应的币种。对于PDF 和word 文档,我们首先转换成xml 格式的文件,记录了字符、字体、坐标等信息,再结合规则、文本相似性算法、机器学习算法对其中的段落和表格进行自动提取,数库研发了一整套工具来辅助标注和训练,以及对结果的校验审核。

 

2. 资讯文本分析平台



通过分布式抓取平台对互联网上公开的财经站点资讯实时抓取,每天大概有近3 万篇相关新闻,资讯实时抓取后,传输到消息队列进行异步分析,资讯分析服务接收到每一篇新闻,会使用已训练好的模型对文本中的命名实体进行识别,比如公司、行业、产品、人名;使用主题概念分类模型挖掘出相关的概念,并对概念的热度变化进行跟踪分析,同时使用聚类算法发现热点话题;使用句法分析和触发规则对事件进行提取,并分析出事件相关的时间和地点;使用情感分类模型对文章进行正负面分析。这样每天分析师和个人投资者就不需要去整理阅读那么多的资讯,可以实时知道市场的热点和自己关注的事件。

 

3. 机器学习标注训练平台



那么是不是针对不同行业、不同需求我们对资讯的处理都要重复开发一套算法呢,比如供应链上的客户舆情分析、融资租赁客户的舆情分析、跟踪分析国家十三五规划政策的趋势等。其实是不需要从头研究算法的,因为我们已经研发了一套资讯标注训练平台,在这个平台,我们可以对词库进行标注、构建知识库、特征工程、对主题进行训练等。这也是我前面说的,人工智能的落地并不是有了深度学习算法就可以了,越是开始,越需要工具的支撑。

 

4. 金融智能搜索和问答



基于前面的介绍,我们有了对非结构化文档的信息提取能力,有了对文本的自然语言处理能力,我们就能更好的从海量的非结构化文档,如:公告、研究报告、资讯和社交媒体上,快速精准的解析出关键信息点。对于用户的搜索输入或者问题进行Query 查询解析,从几个方向去实现回答:首先,通过对用户意图进行识别,把用户的问题映射到API 服务;其次,对于领域知识的问答,可以通过领域知识图谱进行查询和推理;最后,采用启发式搜索的方式,从海量文档的搜索引擎里寻找相关的答案。




总 结




 

最后我们总结一下,人工智能的发展必将给企业带来革命性的效率提升,而在企业落地智能化应用的过程中,我们不仅仅关注模型算法,更需要考虑场景和工具,什么样的工作是机器比人做更有优势的,然后通过一些机器学习辅助工具去挖掘并构建企业的知识库,这样整个落地就变得可行,开始将AI 融入企业大数据平台,从弱到强,从自动化到感知到理解到决策,助力企业智能化!

推荐文章


点击蓝色标题即可阅读全文

10万读者睿选2016年TOP1002015年TOP100
CCTV大数据名人讲堂PPT&视频:万亿元产业安全城市】【农业航运】【数据资产变现

DTiii:1203家大数据产业地图PPT及下载】【1203家详单 1~411412~819820~1203 】

院士:李国杰【(PPT)(全文)】【数据开放】,邬贺铨倪光南【大数据时代)()】,怀进鹏

大数据100分:【金融】【制造】【餐饮】【电信】【电商】【更多行业大数据应用请点击底部导航栏BD100分】;

征信:ZestFinance】【BCG】【芝麻信用】;

工业4.0:罗兰·贝格】【安筱鹏

人工智能:阿里&BCG】【埃森哲经济社会】【美国AI国家战略伯努利李开复】【TOP100】【2016中国AI报告】【美国AI国家规划】【深度学习】【人智合一

区块链:TED视频】【麦肯锡】【毕马威

算   法: 【10大经典算法】【推荐算法

可视化:2014年最佳】【十大标志性作品】【43款工具

PPT:【大数据产业地图】【数据之巅互联网的未来】【软件正吃掉整个世界】【互联网思维】【互联网+】【一带一路】;

VC:【倒闭教训2014投资报告】【2015创投趋势】;

原创:陈新河:万亿元大数据产业新生态软件定义世界,数据驱动未来数据交易互联网+观点】。

专题版本:20170101V3.0

底部新增导航菜单(点击顶部“软件定义世界(SDX)”,点击“进入公众号”,底部菜单栏即出现),下载200多个精彩PPT,持续更新中!

上下滑动查看更多精选专题

微信公众号:软件定义世界(SDX)

微信ID:SDx-SoftwareDefinedx

软件定义世界, 数据驱动未来;

❷ 大数据思想的策源地、产业变革的指南针、创业者和VC的桥梁、政府和企业家的智库、从业者的加油站;

个人微信号:sdxtime,

邮箱:[email protected]

=>> 长按右侧二维码关注。


底部新增导航菜单,下载200多个精彩PPT,持续更新中!