专栏名称: 中国人工智能学会
关注中国人工智能学会官方公共账号,收取学会的科普信息、新闻动态、活动预告及人工智能领域科技前沿信息。
目录
相关文章推荐
爱可可-爱生活  ·  【RL_Reasoning_Writing_ ... ·  2 天前  
机器之心  ·  为什么让大模型理解「内外远近」更重要? ·  2 天前  
51好读  ›  专栏  ›  中国人工智能学会

2017GAITC自然语言理解分论坛实录丨黄锦辉:社交媒体内容分析:自然语言处理方法和其它

中国人工智能学会  · 公众号  · AI  · 2017-06-01 16:55

正文

主题:自然语言理解分论坛

时间:2017年5月22日上午

地点:国家会议中心405


本文根据速记进行整理


社交媒体内容分析:自然语言处理方法和其它

黄锦辉

香港中文大學創新科技中心主任

香港中文大學工程學院副院長

香港廣州创新科技協会会長


    朱小燕:下面有请香港中文大学创新科技中心主任、香港中文大学工程学院副院长、香港广州创新科技协会会长黄锦辉老师,他演讲的主题是“社交媒体内容分析:自然语言处理方法和其它”,大家欢迎!

    


    黄锦辉:大家好!我的普遍话不是母语,但是我在北京也跑了好多年。我今天给大家分享的就是过去五、六年一些想法,这里有一些是从事实业的,可能觉得会这个有一点虚,可能还没有到落地的时候,但是大家可以给我们一些指正。


    我们一直做Social  Media。我分三部分来讲,首先是Introduction,这是2017年的一些数据,我们做了一个简单的统计。我们2011年的时候,所谓Microblog  platforms,就是在WeChat,twitter,etc上。


    看一下这个例子,比如李晨跟范冰冰这个例子,有很多不同的信息都出来了,可能没有注意到有很多东西都是没用的,只是跟着讲而已。


    Microblog  Repost  Tree是两块,Structure和Messages。


    这是举一个例子。从发起人开始,每一个信息如果合起来,就可以当成Document,每一片是Sentence。


    NLP  is  applicable  to  microblogging。


    NLP  for  Summarization。Discourse是我们会利用的东西。这是有关Sematic。比如有一个社交圈,已经有100人,运行了一个月,两个月,有一个新人进来这个圈,旧的100人突然发了一句“ABC”,对于现有的100个人当然知道是什么意思,但是新进来的人并不一定知道了,如果Summarization存在,就可以解决这个问题。


    2013年Chang做过这个方法,认为效果不太好,主要的理由就是太短,噪音太多。


    现在怎么做?先是聚类,Event-based,但是没有结构上的关系,只是把同类型的放在一起。


    比如一个明星发一个东西出来,因为他是明星,有很多人跟随他,但是他所讲的东西有没有用呢?


    我们怎么处理这个事情呢?Some  microbloggers(ie  leaders)  are  more  influential  than  others(ie  followers)。有一些人提到那些问题,加上新的资料上去,有一串人继续跟着你,我们利用leader  follow。既然把leader  follow分出来,我提出问题,我回答,我命令你,这些东西其实也不是什么新的东西。


    我们另外看一个问题,Rumor  Detection。Rumor是比格比较麻烦的事情,出来的时候会有很大影响。现在一般来看,只是看每一个词,或者每一个片语,或者是看整个信息的容量资料来判断。在整个过程之中,那些人用的词是会改的。有一个例子给大家看一下,这是Question  mark的用途,另外一个是First-person  pronoun。根据时间的变动,有新的技术可以帮助你去分析。


    Time  Series  of  Microblog  Event.

    这是Our  Contributions.

    Time  Series  Formation.


       看一下这个图,有些信息是很多的,但是到这里就没有了,我们想把它切成三个。

    谢谢大家!

    

    提问A:您有没有做过话题之间的关联关系这种工作?

    

    黄锦辉:有,我们一开始做的就是两个信息之间的关系…

    

    提问B:微博评论把时间分割了,只保留波峰,波谷去掉了,我觉得这个事情没有说服力,波峰波谷的评论肯定也是有用的,出现波峰波谷会有一定的原因。

    

    黄锦辉:我们碰到的问题,最直接,最自然可以做的…

    

    主持人:再次感谢黄老师。