专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
51好读  ›  专栏  ›  PaperWeekly

聊聊“事件抽取” | 每周话题精选 #05

PaperWeekly  · 公众号  · 科研  · 2017-07-12 07:49

正文

「每周话题精选」是根据 PaperWeekly 最近一周的专题交流群讨论沉淀下来的精华内容。目前已成立的专题交流群有:知识图谱,量化,GAN,医疗 AI,CV,Chatbot 和 NVIDIA。
这是第 5 期「每周话题精选」

本期问题清单


  • 事件抽取的定义/概念是什么?哪些比赛/会议给出了定义?

  • 有哪些常用的评测数据集和评测标准?

  • 国内外有哪些研究团队和学者,它们主要研究的目标是什么?

  • 事件抽取有哪些应用场景和实际的产品?

  • 事件抽取的一般过程,有标注数据开展研究,如何扩展,没有数据怎么做?事件抽取有哪些经典的方法,效果如何?

  • 事件抽取与其他信息抽取任务(关系抽取、NER 等)有什么联系,难点在哪?

  • 事件之间的关系如何表示,如何做事件之间的关系抽取,目前有哪些研究?

  • 有哪些值得阅读的论文?有哪些开源了代码的工作?

  • 最新的前沿进展有哪些?


话题讨论精选



事件抽取的定义/概念是什么?哪些比赛/会议给出了定义?


A: 时间,地点,人物,故事情节。


A: ACE 05 中对事件进行了明确的定义。


A: 属性信息(Attribute),包括:类型(Type)、子类(Subtype)、模态(Modality)、倾向性(Polairty)、普遍性(Genericity)和时态(Tense)。


Q: 不同任务对事件的定义不同吧,能具体解释下这些字段吗?


A: 属性是实体、数值和时间的集合。


A: 我认为关系抽取一般来说是针对两个实体的,而事件抽取的话,不同事件类型会对应不同的元素元素(事件要素)。


A: 一般来说是的,需要提前定义好事件的类型以及每种类型包含的属性。


A: ACE05 中给出了类似的 schema,此处给出 ace05 对事件抽取的定义:


Q: 能简单介绍一些事件抽取的应用背景吗?


A: 比如一个事件里的被杀人数就是个数值,我记得最开始是用于反恐情报收集的。


A: 之前看过有人写事件是一种特殊的关系,不知道是否正确。


A: 新闻撰写机器人,比如百度知识图谱团队研发的写稿机器人,基于事件图谱自动生成一些大事件文章。



Q: 事件是要分类型的吧


A: 看描述好像也有实体那种感觉。


A: 事件类型要先定义出来。


A: 有些研究是针对微博,将事件分为 4 元组:命名实体, 事件短句,日期,事件类型。


A: 觉得定义事件跟抽取语义是一样的,此处放上一张分类ace05事件抽取分类图:



Q: 事件抽取针对的是一段话还是一篇文章呢?


A: 针对一句话是 sentence-level 的,还有 document-level,cross-sentence level,cross-document level 的等等。



有哪些常用的评测数据集和评测标准?


A: ACE2005



国内外有哪些研究团队和学者,它们主要研究的目标是什么?


A: 国内好像苏州大学周国栋团队,哈工大刘挺,秦兵团队。

A: 国外有韩家炜,继桓团队。

A: Heng 的相关文章推荐读。


A: 国内企业有百度知识图谱团队。


A: 国内外相关研究团队发表的论文:







事件抽取有哪些应用场景和实际的产品?


A: 股票,金融,QA,新闻趋势跟踪,舆情,事件型投资,并购。


A: 反恐,反诈骗,政策性投资。


A: 生物医学有类似药物不良反应的事件抽取。


A: 通过对新闻热点事件的抽取,也许可以用来预测 IT 基础设施的故障,这个案例 NTT 做过,通过大量新闻事件的分析抽取预测了大规模网络故障。


Q: 为什么通过新闻可以预测网络故障呢?

A: 如果突然有个突发事件,网络上也许会引发大规模的群体关注,相关网络的服务器也许突然大规模负载上升。


A: 百度的知识图谱团队在事件图谱这块开展了不少前沿性的工作,并已经落地在了一些产品上;他们的目标是打造一个覆盖面最全时效性最快分析最全面精准的中文事件图谱。目前的产品形态比如事件脉络,明星事件追踪,明星历史热点等产品:











请到「今天看啥」查看全文