专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
NaturePortfolio  ·  长新冠患者不宜献血?“抗体假说”引关注 ·  1 周前  
社会学研究杂志  ·  作者手记|瞿秋白的社会学知识遗产再认识 ·  1 周前  
51好读  ›  专栏  ›  PaperWeekly

第3期Talk实录 | 数据驱动的大规模分类体系构建

PaperWeekly  · 公众号  · 科研  · 2017-03-24 15:55

正文

本文为 3 月 23 日,复旦大学计算机本科直博生(博士二年级),知识工场实验室(Knowledge Works, kw.fudan.edu.cn)技术负责人——梁家卿在第 3 期 Talk 中的直播分享材料和 QA 问答。


>>>>

获取完整PDF+视频回顾


关注“Paperweekly”微信公众号,回复“20170323”获取下载链接。



Q & A


Q

对于关系传递性的正确性判断这篇论文文章是建立在构建标注数据和特征上来做的想请问下有没有一个宏观的解释在什么情况下传递性成立以及什么时候不成立呢换句话说不成立主要是因为什么引起的呢

梁家卿

因为我们使用的是一个黑核就是机器学习模型所以我们很难知道它具体是由于什么原因引起的。我猜想的话主要是因为中间词 意思的偏移但是这个偏移我们很难严格的定义。总来说很难知道具体原因是什么因为机器模型实在是不可解释。


Q

对于 recall 的评估文章的模型发现的错误 isA 关系都包含在 baseline 发现的错误关系里面么我觉得分母应该是所有模型发现的错误 isA 关系的并集才对

梁家卿

这里我没有细讲我们的 baseline 模型其实是用拓扑排序去找到一个差不多的拓扑序去找到所有逆向边作为错误所以会找到非常多。那事实上我们很难去计算 recall ,因为我们不知道错误总数。所以我们 paper 中写的是用一个相对的 call 去计算所有的逆向边但我觉得你说得更好确实是用所有错误的并集会更好一点。


Q

请问一下,本文检测 wrong isA relation 是建立在错误的 isA 关系出现在环里面,但是假如正确的关系没有抽取出来,比如 Paris isA exciting_city 时,或者对于没出现在环里面的错误的 isA 关系,有没有比较好的检测方法?

梁家卿

我们现在的方法只能通过环来找,那其它当法的话可能其它类型的错误可能找不到。如果有其它方法可找到其它非环的错误的话,可另外做一篇 paper。


Q

论文中 Figure3 的那条曲线,纵坐标是 error@k,按我的理解应该是递增的,为什么还有波动的这种情况?

梁家卿

比如说排完序之后,第一个是错的,二三都是对的。那么 error2 就是 1/2,error3 就是 1/3,1/3 显然小于 1/2。




关于PaperWeekly


PaperWeekly 是一个分享知识和交流学问的学术组织,关注的领域是 NLP 的各个方向。如果你也经常读 paper,喜欢分享知识,喜欢和大家一起讨论和学习的话,请速速来加入我们吧。

关注微博: @PaperWeekly
  微信交流群: 后台回复“加群