专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
NaturePortfolio  ·  中国高影响力数据论文榜单发布!22篇来自 ... ·  4 天前  
研之成理  ·  给大家介绍一位纳米科学领域的大牛! ·  5 天前  
研之成理  ·  华南理工大学AFM:超快速高温烧结制备HEB ... ·  5 天前  
51好读  ›  专栏  ›  PaperWeekly

聊聊“事件抽取” | 每周话题精选 #05

PaperWeekly  · 公众号  · 科研  · 2017-07-12 07:49

正文

「每周话题精选」是根据 PaperWeekly 最近一周的专题交流群讨论沉淀下来的精华内容。目前已成立的专题交流群有:知识图谱,量化,GAN,医疗 AI,CV,Chatbot 和 NVIDIA。
这是第 5 期「每周话题精选」

本期问题清单


  • 事件抽取的定义/概念是什么?哪些比赛/会议给出了定义?

  • 有哪些常用的评测数据集和评测标准?

  • 国内外有哪些研究团队和学者,它们主要研究的目标是什么?

  • 事件抽取有哪些应用场景和实际的产品?

  • 事件抽取的一般过程,有标注数据开展研究,如何扩展,没有数据怎么做?事件抽取有哪些经典的方法,效果如何? 

  • 事件抽取与其他信息抽取任务(关系抽取、NER 等)有什么联系,难点在哪? 

  • 事件之间的关系如何表示,如何做事件之间的关系抽取,目前有哪些研究? 

  • 有哪些值得阅读的论文?有哪些开源了代码的工作?

  • 最新的前沿进展有哪些?


话题讨论精选



事件抽取的定义/概念是什么?哪些比赛/会议给出了定义?


A: 时间,地点,人物,故事情节。


A: ACE 05 中对事件进行了明确的定义。


A: 属性信息(Attribute),包括:类型(Type)、子类(Subtype)、模态(Modality)、倾向性(Polairty)、普遍性(Genericity)和时态(Tense)。


Q: 不同任务对事件的定义不同吧,能具体解释下这些字段吗?


A: 属性是实体、数值和时间的集合。


A: 我认为关系抽取一般来说是针对两个实体的,而事件抽取的话,不同事件类型会对应不同的元素元素(事件要素)。


A: 一般来说是的,需要提前定义好事件的类型以及每种类型包含的属性。


A: ACE05 中给出了类似的 schema,此处给出 ace05 对事件抽取的定义:


Q: 能简单介绍一些事件抽取的应用背景吗?


A: 比如一个事件里的被杀人数就是个数值,我记得最开始是用于反恐情报收集的。


A: 之前看过有人写事件是一种特殊的关系,不知道是否正确。


A: 新闻撰写机器人,比如百度知识图谱团队研发的写稿机器人,基于事件图谱自动生成一些大事件文章。



Q: 事件是要分类型的吧


A: 看描述好像也有实体那种感觉。


A: 事件类型要先定义出来。


A: 有些研究是针对微博,将事件分为 4 元组:命名实体, 事件短句,日期,事件类型。


A: 觉得定义事件跟抽取语义是一样的,此处放上一张分类ace05事件抽取分类图:



Q: 事件抽取针对的是一段话还是一篇文章呢?


A: 针对一句话是 sentence-level 的,还有 document-level,cross-sentence level,cross-document level 的等等。



有哪些常用的评测数据集和评测标准?


A: ACE2005



国内外有哪些研究团队和学者,它们主要研究的目标是什么?


A: 国内好像苏州大学周国栋团队,哈工大刘挺,秦兵团队。

 

A: 国外有韩家炜,继桓团队。

 

A: Heng 的相关文章推荐读。


A: 国内企业有百度知识图谱团队。


A: 国内外相关研究团队发表的论文:







事件抽取有哪些应用场景和实际的产品?


A: 股票,金融,QA,新闻趋势跟踪,舆情,事件型投资,并购。


A: 反恐,反诈骗,政策性投资。


A: 生物医学有类似药物不良反应的事件抽取。


A: 通过对新闻热点事件的抽取,也许可以用来预测 IT 基础设施的故障,这个案例 NTT 做过,通过大量新闻事件的分析抽取预测了大规模网络故障。


Q: 为什么通过新闻可以预测网络故障呢?

 

A: 如果突然有个突发事件,网络上也许会引发大规模的群体关注,相关网络的服务器也许突然大规模负载上升。


A: 百度的知识图谱团队在事件图谱这块开展了不少前沿性的工作,并已经落地在了一些产品上;他们的目标是打造一个覆盖面最全时效性最快分析最全面精准的中文事件图谱。目前的产品形态比如事件脉络,明星事件追踪,明星历史热点等产品:







事件抽取的一般过程,有标注数据开展研究,如何扩展,没有数据怎么做?


A: 种子迭代,规则,模板。机器学习也可以用,比如论元的检测,就是构建一些特征,然后分类。


A: 这个还是要做垂直领域,从规则和模板开始。


A: 一些门户网站倒是可以通过访问量(检测波峰)的方法来看是不是发生了事件。


Q: 事件抽取一般有什么方法呢?


A: 带监督的深度卷积网络肯定是一个。


A: CNN 用的比较多。


A: 估计从规则到机器学习都有,看具体的场景和数据。


A: 经典方法就是:规则+模板,前沿方法:强化+模版(深度卷积)。


A: 基于模板的抽取方法、半监督学习的模板抽取方法、经典机器学习方法、latent model 等等。



深度学习在事件抽取上有哪些应用,与传统方法比有什么优势/劣势?


A: 性能好,不用人工构造特征。


A: 触发词的识别和分类,CNN 模型要好。



事件抽取与其他信息抽取任务(关系抽取、NER 等)有什么联系,难点在哪? 


A: 得先 NER。


A: 时间是不是直接抽取就好了,其它属性该怎么办呢?


A: 配模板的嘛,时间也是模板的一部分。


Q: 触发词一般是预定义好的,还是需要做检测任务?


A: 一般是定义好的,也有检测触发词的任务。



事件之间的关系如何表示,如何做事件之间的关系抽取,目前有哪些研究? 


A: 我个人看法:事件也许应该是在时间轴上,有明确开始和结束的一段实体与实体产生关系的“运动”。


A: 外国一般都是只做二元关系或者时序上的关系。


A: 研究“事件”必须给他来个操作性定义。


A: Semeval 2015 task4 是有定义的,但是产出产出太少。


有哪些值得阅读的论文?有哪些开源了代码的工作?



A: 基于符号特征的方法:



A: 基于表示学习的方法:




最新的前沿进展有哪些? 


A: 我觉得事件之间的关系或网络会是将来的热点。


A: 事件抽取必然会和监控视频结合。


A: 和关系抽取在一起应用。检测事件的关系,舆情监测。其实对话系统也能用。


A: 适合社交媒体,通过分析过往当事人发布的微信及 Facebook,可以做性格分析工作介绍、相亲配对。


A: 延伸过去也可以做推荐系统,顾客销售行为预测。


相关资源


关于短句子事件短语抽取的论文:



ACE 数据:


https://github.com/oferbr/BIU-RPI-Event-Extraction-Project/tree/master/ACE_EVENT/corpus/orig


用 event embedding 做股票预测:



爬虫:该爬虫爬取了 36 kr(科技资讯网站) 的新闻快讯,以 json 的格式储存,适合用来做信息提取的测试样本或自动摘要的语料。


https://github.com/HughWen/wen_spiders


中文 NER 识别:作者希望大家可以贡献自己的力量一起维护一个开源的中文 NER 项目。


https://github.com/zjy-ucas/ChineseNER


参与讨论


请长按识别以下二维码添加群主微信,备注「知识图谱」申请入群。




关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。