专栏名称: 微言创新
“微言创新”由上海科学院规划研究处和上海产业技术研究院战略咨询中心共同出品,专注产业创新领域研究。言微意未尽,集智求创新。
目录
相关文章推荐
绝对现场  ·  名医到院区 | ... ·  19 小时前  
共同体Community  ·  深圳市第三儿童医院,开业时间定了! ·  昨天  
共同体Community  ·  深圳市第三儿童医院,开业时间定了! ·  昨天  
闽南日报  ·  延时门诊!漳州市医院最新通知 ·  2 天前  
51好读  ›  专栏  ›  微言创新

是时候该关注“知识图谱”了!

微言创新  · 公众号  ·  · 2018-04-08 19:00

正文


编者按

随着大数据、自然语言处理、人工智能等技术的发展,知识图谱成为近几年的热点技术,在生活服务、医疗辅助、金融风控等不同行业和领域,实现了众多的智能化应用。


1

知识图谱是什么


通俗地讲, 知识图谱就是将复杂的知识通过数据挖掘、信息处理、知识计量和图形绘制等一系列方式,把所有不同种类的信息连接在一起得到的一个关系网络。 在知识图谱里,用节点表示现实世界中存在的“实体”,用边示意实体与实体之间的“关系”。知识图谱是表示关系的最有效的方式,提供了从“关系”的角度分析问题的能力,让机器能够像人一样理解世界、获取知识,进而做出决策和行动。

在大数据的推动下,知识图谱受到了业界和学术界的广泛关注。自2012 年Google推出第一版知识图谱软件,相继涌现出一大批面向不同领域和应用的知识图谱,如Yago,DBpedia,MusicBrainz,PubMed等,为各类智能应用带来了大量结构化知识。以DBpedia为例,其英文版知识图谱拥有400万实体,包括144万人物、73万地点、41万创意作品、24万组织机构、25万物种和6000多种疾病。在国内,搜狗和百度分别推出搜狗知立方和知心,百度还开放其知识图谱Schema,作为百度知识图谱构建和知识计算的核心数据结构,并用于规范百度内外部合作方的结构化数据交换。


2

知识图谱的构建


假设我们直接向Google提问:“爱因斯坦的儿子是谁”。可以看到,除了一堆关于爱因斯坦的网页,Google还会直接给出答案:爱德华·爱因斯坦。Google到底是怎么做的呢?

首先,Google要理解我们的提问。对输入的问话进行自然语言分析,抽取句中的实体,比如“爱因斯坦”、“儿子”,再依据这两个关键词进行检索。

然后,Google利用网页中的搜索结果建立知识图谱。构建知识图谱的关键是进行实体之间的关联连接。通过大量的网页分析,可以得出Albert Einstein和Eduard Einstein具有父子关联,同时构建与爱因斯坦相关的知识图谱。

最后,反馈答案。虽然本例中Google返回的是直接答案,实际上知识图谱应用的反馈结果还可以是自然语言或可视化图表。

因此,知识图谱的构建可能涉及网络爬虫、数据预处理、图数据库和算法、关系型数据可视化等多种技术。 在一个实现知识图谱的典型流程中(见下图),使用目标网站作为信息源,通过网络爬虫技术,使用本体方法或者其他自然语言处理方法定位复杂网页中需要抓取的实体属性信息。对抓取到的数据的部分字段值进行清洗和规范化,选择要抽取的实体和关系字段,并定义实体间的关系及关系的方向,通过增加唯一性约束,对实体进行对齐操作。最后将实体和实体之间的关系一并保存到图数据库中。此后便可以通过各类图算法,提供对外服务,包括各类查询分析及图谱可视化。



3

知识图谱的应用


知识图谱技术为不同的商业场景带来了大量的智能应用和成功案例,上文用于搜索引擎的例子只是冰山一角,常见的领域还包括问答系统和金融风控等。

1.问答系统

问答系统是信息检索的一种高级形式,它能用准确、简洁的自然语言回答问题。建立基于知识图谱的问答系统,不仅需要建立一个拥有高质量数据的知识图谱,还需要解决语义理解问题和语义检索问题。大数据的发展,为精确的语义理解和高质量的知识来源带来了数据层面的发展契机;而图数据库的发展,则提供了比关系型数据库更为高效的技术解决方案。

从 2011年Siri诞生,到Google Now,再到微软的Cortana和亚马逊的Alexa,语音助手本质上都是问答系统。这些面向公开领域的问答系统,能帮助我们订行程、打电话、开启导航甚至网上购物,带来生活便利。

除此之外,还有一部分面向特定领域的问答系统,如2016年10月“百度医疗大脑”首个产品化项目发布的“对话机器人”。该问答系统模拟医生的问诊流程,依据用户的症状提出可能出现的问题,反复交流验证,直到给出最终建议。同时收集整理病人的症状描述,提醒医生更多可能性,辅助基层医生完成问诊。


2.金融风控

随着互联网特别是移动互联网的爆发式发展,金融行业的数据增长量十分惊人,据统计,国内大型商业银行和保险公司的数据量已超100TB。 由于对数据强烈的依赖性,金融领域被看作人工智能最适合落地的领域之一。 金融风控知识图谱的构建需要从金融机构内外部数据中对金融实体进行抽取、定义,并挖掘金融实体间的各种关系,如企业间的投资关系、担保关系,企业与个人间的任职、实际控制关系。除了记录实体的基本信息,还可以把实体的其他相关数据,如消费记录、行为记录、关系信息等,整合到知识图谱里,并在此基础上对该实体的金融风险进行评估和预警。如下图所示,以借款申请人李某为中心的担保关系中,已有的五个客户一半以上存在借款逾期的情况,从风险角度考虑,知识图谱会提供“拒绝李某借款申请”的建议供审核人员参考。



近几年,金融欺诈的形式多种多样,资料造假、团伙欺诈、内外勾结等手段越来越“高明”,原来单点突破的反欺诈方法已经远远不够,有必要引入知识图谱丰富的关联知识。如国内的明略数据公司搭建的新一代金融风控大脑,挖掘隐藏在复杂网络之下的关联关系风险和资金流动异常,及时有效地防范和化解业务风险。

此外,在科技服务领域,上海产业技术研究院也进行了知识图谱的应用探索,研发了面向科技服务大数据的知识图谱工具,实现了路径检索、相似检索、环路检测等功能,并对大量科技服务数据进行链接、分析,通过可视化技术展现复杂的领域知识,为用户提供最直观的决策依据。



责任编辑:雷蓉



作者简介


戴炳荣,博士、高级工程师,上海计算机软件技术开发中心软件平台服务部副主任。数据资产管理标准核心研究人员,在知识图谱与大数据分析等方向有深入研究。

袁汝焱,研发工程师,主要负责知识图谱与大数据分析等技术研发工作。


延伸阅读

应用大数据,做好技术成果市场价值评估

AlphaGo积累的数据值多少钱? ——谈数据价值评估

你真的了解大数据系统吗? ——大数据系统评测的挑战与方法

大数据开放共享?数据治理应先行

工业大数据的六种应用场景

值得期盼的“大数据试验场”







请到「今天看啥」查看全文