NLP 与知识图谱的对接

待字闺中 · 公众号 · 程序员 · 2017-04-12 18:44

正文

请到「今天看啥」查看全文

本文整理自中国中文信息学会常务理事、白硕博士在杭州金融知识图谱论坛上的演讲。文因互联授权转发。

两个问题

第一个问题是，为什么有人说“中文知识图谱”，难道知识图谱是有国籍的吗？它是有母语的吗？知识是无国界的，这个当然是理论上的说法。具体到一个国度，一个语言文化的大环境，我们就会发现，事实上知识是有母语的。理论依据就是所谓的 语言相对论 。可能大家最近都看了《降临》，《降临》讲的就是语言相对论。一种思维方式、一种文化是被它的语言，它所操的母语所塑造。这是一个很重要的论断，也正因为这个，在英语世界里搞得非常好的一些技术，到汉语的世界来，就有可能水土不服。这给我们提出的任务，就不止是一个移植、汉化的问题。实际上与 NLP 的对接，就是知识处理。与 NLP 对接的这一块，任务比我们想象中重。语言的差距越大，亲疏关系离得越远，这个任务就越重。因为英语和德语之间不会那么费劲，法语跟意大利语之间也没有那么费劲，但是英语跟汉语之间，可能就是要费劲的。这与语言相对论是同样的道理。

第二个问题，知识图谱与 NLP 对接是一个新问题吗？这需要看我们从什么意义上讲。

从学术意义上讲，肯定不是一个新问题，这个问题我们早已有之。在知识图谱不叫知识图谱的年代，实际上自然语言处理的研究者们，就已经在研究如何表示自然语言的语义。自然语言的语义和具体的知识，具体的常识，具体的一些事实陈述之间，到底是什么样的关系，也有不少研究。这里面我们暂且还不说这些具体的研究。知识抽取有很多经典性的工作，比如恐怖活动，恐怖事件这样一个大的范畴，它里面一系列的环节，再比如凶杀案、恐吓信。还有事件范围更大的，比如总统选举，它的选举前期怎么样，中期怎么样，后期怎么样，就不是一个事件而是一个话题了。作为自然语言的语义和作为知识的表示之间，是有着天然的联系的。但是还不完全是一回事。因为语言有语言的单位，它叙述的单位，有它切入的视角。叙述单位和知识要把握的，一个大的场景要把握的单位之间，可能会有一个粒度不一样的衔接。比如我们可能一句一句地说发生了什么事情，什么人死了，在什么地点，那么语义理解也是一句一句把它转义为语义的表示。但是这个语义的表示，还不直接就是知识图谱，还不直接就是那样一个大的场景的描述。所以还要通过不同的蛛丝马迹，通过不同外围的描述，再去激发核心的大的场景，然后再往里面添一些相应的添项。以上是从学术观点看。

从技术观点看，它也是一个不新不旧的问题。不新不旧就是说它与过去是有很多衔接的。但是在新的形势下，对技术也提出了一些新的要求。这些新的要求，也需要我们把它落地。具体到金融领域，我们也会看到确实是有一些新的要求，面对这样一些要求，需要去把它们落地。

从产业来看则是一个新的问题。我们怎样有效地把知识图谱的资源和 NLP 的资源衔接起来。不久前，在一个微信群里面，有一位投资人说他想找这样的资源，找这样的人，找这样的团队合作，把 NLP 直接与量化投资结合，一起合作开发搞成一个系统。在我看来，这不是一个系统，这是好几个系统了。系统之间是有衔接的，你不能说淘金的人，把卖水的生意都一块做了，这是不行的。术业有专攻，有人擅长这个，你就让擅长这个的人去做，有什么需求就给人家提，但你不要把大家都搞成一个系统，那就没法玩了。这个说明了领域的产业分工，NLP 做哪一段，知识图谱做哪一段，知识图谱的应用做哪一段，这分别是几个系统，分别由不同的人来提供。这个事情可能还是没有形成一个稳定的业态导致的。因此需要我们大家一起来探索和努力。

模态算子

我现在介入一些比较专业的话题，模态算子。这个模态算子是什么东西，大家一看就知道的。因为我们在一些报道中，在一些关于产业、经济发展的这种新闻报道中，以及各种各样的公司公告和业绩公告中，都会看到有这样一些描述。这些描述是一个事实在前面加了一个东西，如果我们不认真对待或者说把它们忽略了，是会有问题的。

这个东西叫模态算子，它有几种表达形式。

第一种表示未然，就是说还没发生，但是预计或者计划，或者将要发生。我们看这样一些例子，第一个，我们预计增产 15%，第二个是准备裁员 20%，计划涨价 50%，拟采购多少多少吨。如果我们把这些词放过去了，那就可能错把一个未然的东西，当成一个事实来处理。如果放到知识库，那么这个没有发生的事情，跟已经发生的事情搅在一起，你有一些推理能力的话，就会推出很多最后你自己都不相信的结果。所以怎么样去处理未然？这里面我们提出的模态算子一类，在我们中文的这个语言学里面，算是计划类。

第二类在陈述前面加了主观的折扣或者表示分寸的东西。比如说我不认为有必要怎样，这样一个前缀，或者说倾向于暂缓什么，或者说坚信一定不会怎么样。可能会用一些，就是副词或者说一些表示认知的这样一些词，再进行什么样的组合。这样一种组合，它会把一个裸的陈述加上一些分寸感，一种主观的过滤。这样一些东西，我们也要注意，不能忽略。如果把这些前缀都忽略掉，然后把后面的被前缀约束的东西，当做一种事实陈述，然后再跟事实混在一起，无论是进行推理也好，进行问答也好，都可能会放大一些小概率的事情。

第三类是一些高阶表述。我们在外交场合会见到一些高阶表述的外交辞令。不幸的是，关于财经类的新闻报道中，也看到了这样的表述。比如说对房价过快上涨的预期减弱，这里面对价格做了上涨的修饰，然后又对预期价格上涨这件事做了减弱。对于这种套了好几层的套路，是一些对高阶导数的定性描述。我们怎样去把它落到所谓的知识库里面，也是一个问题。比如对去产能措施的成功充满信心，还没成功呢只是充满信心，还没有去产能，只是要采取一些措施。

如果我们去采集这样一些数据，采集到的不全是客观事实。因为除了陈述本身之外，还覆盖了一些东西，到底是谁说的，说的是哪个世界的事，是现实世界的事还是我们未来世界的事，说的时候打了多少折扣，从里到外套了多少套路，这些都是我们需要关注的。如果不关注这些点，或者只去采认识的东西，就是采出一些裸事实来。如果不看这些裸事实外面套的外套，可能会有偏颇。

另一方面，这些不全是客观事实的表述，它也有自己的意义。尤其是在金融领域，资本市场是最典型的，不管有没有风，起浪就够了。因为它造成的一些效果，在人的心理有投射，而这些效果会引发后面的一些动荡和行为。不管这个东西是真是假，它引发行为总是真的。如果焦点恰恰在引发行为的这个分析上，那么有这个风，它的作用就会存在，我们就要分析它的作用。那么具体怎么分析呢？我们刚才说的这三类，一类是未然的，那它到底能不能变成已然，这里面是有它的主观性在内的，是谁说的，来源是否可靠。其来源是否可靠，也对它从未然到已然的概率，会产生影响。所以这时候我们需要一些标签把看到的模态算子变成标签，比如说消息源的标签，就绪度的标签。第二类就是打了折扣的这些，我们就要根据这个折扣的分寸感，去给它标注相应的可信度的标签。第三类是定性的导数，我们还要给它标变化率的标签，比如表现率的定性曲直。通过这样一些标签，我们就能够区分带了模态算子帽子的陈述跟裸的事实陈述。这些标签也可以在后期加以利用，我们把它叫做模态元数据。

如何使用模态元数据？

可以想到的三种方法，一种是分库存放，隔绝推理。我推我的，事实跟事实在一起推，不是事实也许可能成为事实的，或者说有一定概率成为事实的或者怎么样的，那些放到另外的地方另外推，这两个互相不相往来。这样分库存放可以减少一定的混乱，但隔绝推理就可能会使我们失去了一些挖到更多知识的机会。

第二种方式就是混合存放，放开推理，这种其实也不好。因为它们长的也不一样，性质也是有所区别的，如果全放在一起，放开推理的话，推出来的东西可能你就无法掌控。

我们推荐的是第三种，就是分库存放。同时对推理有一定的控制，就不让它放开了推。当然说是这么说，具体实施还是要注意到很多事情，我们这里就是从学术角度强调，有这样一类陈述，这类陈述需要大家引起重视。那么一些路径上的考虑先放在这儿，至于说怎么样去实现，我们可以底下再做一些探讨。

它能怎么用呢？比如说这个公司在不同的时间，会承诺未来做一些事情，它到底做的怎么样呢？这个可以给进度，通过计划最终给进度划线，什么时候哪些东西的未然成为已然了，我们可以看它实现的情况。还有就是观点聚类，那也就是说根据大家对同一件事情打的不同的折扣，我们可以给这样一个人群的观点的分布画像，让他知道谁是站在左边，谁是站在右边，谁是站在中间。我们还可以对趋势进行一些定性导数的分析。

深层语言分析结果的对接

下一个话题，深层语言分析的结果如何与知识图谱进行对接。

深层语言分析，传统来说是把这个语言分成词法、句法、语义三个层面，然后剩下的就是计入应用场景，语义也属于应用场景的一部分。有一条线，线的左边是语言，线的右边是知识，实际上语义已经延伸到知识领域一小块了，但场景基本都属于知识这个领域，而还有一大部分语义，一大半句法，词法的全部都是属于语言这个领域的。从什么地方出发，来达到我们最终的目标，场景，会产生不同的技术路线。

最早是用词袋来激活场景，在知识图谱里面当时叫框架。从这儿就隔得非常远，我们可以利用的信息就非常少。当然这个应用，如果说有一些非常限定领域的应用，出于效率的考虑，我们可以这样用。那么基于模板往前了一步，它利用了一些浅层的句法，但是这个句法不够深。不够深的情况下，它再进一步，就离场景近了一点，但是实际上它还是有一些信息没有捕捉到，或者有一些结构性的关键信息没有捕捉到。因为没有捕捉到，所以这里面还是有一些失误，或者说不够精准的情况。利用句法分析去做，可以用所谓的 SVO，就是主谓宾语言上的一个简写。去找这种主谓宾的搭配，然后利用主谓宾的组合这种深层的信息，跟相应的一些场景里面的知识图谱也好，什么样的表示也好去对接。SVO 也有它的一个位置，在上图我们画星星的地方。它除了采用深层的句法之外，还采用了一定的语义特征，我们叫次范畴语义特征，这个深层句法加上次范畴语义特征能干的事，又比这个又多一点。现在这种对接的效果，我们看它处的位置跟我们的场景距离就比较短了，它能够利用的一些结构性的信息就更多了。

说到这儿，我想说一个产品，小孩拿到了一个新机器人，很高兴跟机器人对话玩。小孩说，你给我讲个故事吧，然后机器人从故事库里面挑一些故事就开始讲了。小孩挺高兴，但是过一会，他表现欲很强，就跟机器人说，那我给你讲个故事吧。机器人不懂，以为是让他讲故事，又开始讲。是“我给你”还是“你给我”这个事情没有搞明白。可以肯定，它是基于模板来做的，可你要考虑一下语序这个事情，至少你这个技能就不会是单打一的出来，一定是成对的或者怎么样出来。正因为它不是成对出来的，所以我们可以很有信心的说，他们是基于模板的技术。基于模板里面就是说，我给你，你给我这个语序的信息，它是没有捕捉到的。

在证券市场里，买卖，在银行里面借贷，包括我们生活当中的娶嫁，都存在一个相对关系，一个讲一个听。你赋予它讲故事的能力，如果说同时能够因为语义上的关联，赋予他一个倾听的能力，不是更好嘛。所以这个是我们从这里面看到的，基于模板的对接。

SVO 的局限

那么 SVO 会出现什么问题呢？它会出现这样的问题：比如说一个公司增长率超过了 15%，然后另一个场景表示，它的增长率是超过了联想（公司）。这都是主谓宾，宾语是放在不同地方的，说明我们知道谁跟谁有关系，但是关系的性质其实是不一样的，而这个是一个细粒度才能区分，只从 SVO 区别不了这件事情。为什么区别不了？因为超过了联想的意思是以联想为对标，在这个增长率上，是超过了联想的那个增长率。

我们的做法就是深层 parsing，这里面我们看底下那行，这一行就是语义次范畴，那个 Cat 还是句法的范畴，这个 Subcat 就是语义次范畴。那么在这里面，我们就看到有一个做法，就是脑补。把联想顺着杆往下滑，从一个组织滑到一个组织的某项指标，然后在某项指标的数值，用这种方法顺着杆滑下来，然后从不可比就变成可比了。其实我们提出语法分析的过程，不仅能分析我们金融领域比较实用的句子，还能分析看起来老大难的句子。

比如说“这个问题老张的处理方法我有意见”，这句就不是常规的用法，而是宾语提前的用法。这种宾语提前的用法，就是说处理的，处理的是问题，办法是处理的办法，意见是对办法的意见。像这样一些名词，按说都是不挖坑的，但是我们这里是要挖坑的，而且要有其他的名词给它填坑，甚至是动词给它填坑，那么这样复杂的过程，我们也可以做，比如说用线图的方式去表达这个分析的结果，或者用平面图的方式去表达这个分析的结果，这都是可以做的。

最后我们简单说一下自然语言当中的风格选择问题。大家看这个就知道了，实际上我们很多的地方，每一个零件都是可替换的，而替换的不同选择反映了风格。风格反映了听说对方的关系，反映了说话人的性格特征和情绪状态。

知识图谱跟自然语言的对接，知识图谱自身的推理需要有一个共同的中间站，我们比拟的说法，虚拟的说法，它是图谱操作的系统，这可能是需要的。

最后是关于阡寻科技的，因为我本人是阡寻科技的董事长，阡寻正在致力于知识图谱建模推理的应用，致力于对接自然语言和知识图谱，也致力于推广人工智能在行业的应用，主要是关于中医和智能投研，也就是研报，在知识图谱下做的一些推理。谢谢大家。

白硕

中国中文信息学会常任理事，曾领导上交所新一代交易系统，企业级数据仓库，第三代监察系统等项目的开发建设。