我 相 信 这 么 优秀 的 你
已 经 置 顶 了 我
作者:阿若
转自:新知元,已获作者授权,拒绝二次转载
人工智能2.0是基于重大变化的信息新环境和发展新目标的新一代人工智能。其技术特征之一是从传统知识表达技术到大数据驱动的知识学习,转向大数据驱动和知识指导相结合的方式,进而实现可解释、更鲁棒和更通用的人工智能。
为了更好的实现从无序的大数据到有序的知识转变,需要对网络中蕴含的开放知识有效的计算。即对网络大数据环境下海量碎片化的数据进行自动的、实时的结构化与体系化组织,对知识进行深度语义关联,进而支撑智能决策。
开放知识计算,从过程角度来讲,包括三个方面的计算:知识获取阶段的计算、知识关联阶段的计算、知识学习阶段的计算。在知识获取阶段,通过对开放的数据进行结构化与体系化组织,形成少量的知识;在知识关联阶段,通过专家经验或机器学习算法,实现知识的多维语义关联,进一步完善和补充知识;在知识学习阶段,通过不断的学习知识间的关联信息,机器实现对知识的进一步组织和表达,使得知识从人类可读、可理解转化为机器可读乃至机器可理解,并将上述过程不断的进行重复与迭代,获取新的知识并更新旧的知识,最终实现机器的自主学习。
开放知识计算,从特点上讲,应该具备如下两个特点:开放性与自适应性。其中,开放性是指知识获取来源是多样的,使得机器具备感知网络数据的能力,同时,机器必须能够融合一些外部的、已有的知识,转化为自身的知识储备。自适应性,是指在知识获取、知识关联与知识学习的过程中,尽可能的减少人工或专家的投入,实现自动的获取、关联与学习。这就需要从数据获取、机器学习算法、特征选取与处理等方面进行有针对性的设计。
构建开放网络知识库,是开放知识计算的具体产出形式。通过将知识表示成三元组(即(实体,关系,实体))或其他形式,进而更好的对知识进行存储、管理和加工。有代表性的知识库或应用系统有KnowItAll,,NELL以及一些基于维基百科等在线百科知识构建的知识库DBpedia,YAGO等。除此之外,一些著名的商业网站、公司和政府也发布了类似的知识搜索和计算平台, Wolfram的语义知识搜索平台Wolframalpha,Google的知识网络Knowledgegraph、Knowledge Vault、Facebook推出的实体搜索服务Graphsearch、IBM公司推出的IBM Watson Knowledge Studio、AMAZON公司推出的Product Graph、微软公司推出的Microsoft Satori、Palantir公司推出的Palantir Gotham和Palantir Metropolis等大数据平台等。中文知识图谱的构建也有大量的研究和开发工作。代表性工作有:搜狗公司的知立方系统、百度公司的百度知心、上海交通大学最早构建的中文知识图谱平台zhishi.me、复旦大学GDM实验室推出的中文知识图谱展示平台、清华大学的跨语言知识图谱XLORE、中科院计算技术研究所构建的基于OpenKN(开放知识网络)的“人立方、事立方、知立方系统”等。
围绕基于大规模开放知识库或知识图谱的应用方面,目前的应用尚处在持续不断的发展与探索的阶段。比较典型的应用有以谷歌公司和wolfram公司为代表的语义搜索、以IBM Watson为代表的语义问答、以中科院计算所OpenKN团队为代表的领域专家自动生成、以Palantir公司为代表的行业生态深度分析与预测等。
谷歌公司通过建立Google Knowledge Graph,实现了对知识的体系化组织与展示,试图从用户搜索意图感知、以及查询扩展的角度,直接提供给用户想要的知识。
IBM公司通过搭建知识图谱,并通过自然语言处理和机器学习等技术,开发出了Watson系统。在2011年2月的美国问答节目《Jeopardy!》上,Watson战胜了这一节目的两位冠军选手,这被和1996年同样来自IBM的“深蓝”战胜国际象棋大师卡斯帕罗夫相提并论,被认为是人工智能历史上的一个里程碑。
构建面向特定领域、特定主题、特定主题的大规模知识库是实现对某一领域深度分析和计算的重要基础,OpenKN通过实现端到端的开放知识库构建工具集,实现了在给定部分种子(seed)的情况下,从无到有的生成领域知识库,进而形成领域专家。在构建百万规模、相同准确率的情况下,将知识库构建的人力投入成本下降了40%。例如,基于该技术构建的特定人物的大规模知识图谱,实现了人物间关联关系的深度分析,进而描绘出人物关系的谱系图。包括人物间静态关系的分析、随时间变化的动态关系,以及通过推理得到的潜在关系等。
利用开放大数据可以帮助企业发现潜伏在数据中的威胁,将结构化网络日志、文本数据、开源和第三方数据整合进一个单一的环境,屏蔽可行的信号与噪声,有效保护用户网络。Palantir 是一家数据分析公司,于2004年成立,公司使用专利软件为商业公司和政府机构提供大量的数据,旨在提供有用的、可预见性见解。其平台内算法在公司网络中梳理多个数据源来检测异常或可疑活动,产生的情况根据相关性排名呈现给用户。分析师可以分类这些情况下,然后在任何特定异常调查进一步深入。算法在调查结束,新信息出现的过程中随着时间的推移的得到提高。分析师可以在一个工作区跨多个维度调查事件,发现看似无关的事件之间的联系,识别重要的跨企业系统和网络的漏洞,解决问题。Palantir也不断藉由其核心能力发展出了更多解決方案。如消弭犯罪活动以及信用卡欺诈的行为、强化组织数据安全、协助军队決策制定、抑制疾病的传播、健康保险与房屋贷款之分析、协助办案及法律分析服务等,多方面提供有价值的服务。
[1]Pan Y H. Heading towardartificialintelligence 2.0. http://engineering.org.cn/EN/abstract/abstract12324.shtml
[2]王元卓, 靳小龙, 程学旗. 网络大数据:现状与挑战[J].计算机学报. 2013, 36(6), 1-15.
[3] 王元卓,贾岩涛,刘大伟,靳小龙,程学旗. 基于开放网络知识的信息检索与数据挖掘.计算机研究与发展[J]. 2015, 52 (2): 456-474.
[4] 刘知远, 孙茂松, 林衍凯等. 知识表示学习研究进展[J].计算机研究与发展, 2016, 53(2): 247-261.
[5] 刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600.
[6] Wu X, Chen H, Wu G, etal.Knowledge engineering with big data[J]. IEEE Intelligent Systems, 2015,30(5):46-55.
[7] 林海伦, 王元卓, 贾岩涛, 等. 面向网络大数据的知识融合方法综述[J]. 计算机学报, 2017, 40(1): 1-27.
[8] Suchanek F M, WeikumG. Knowledge bases in the age of big data analytics[J]. Proceedings of the VLDBEndowment, 2014, 7(13): 1713-1714.