专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
黄建同学  ·  学习-20250205192620 ·  12 小时前  
宝玉xp  ·  转发微博-20250205150219 ·  16 小时前  
宝玉xp  ·  //@高飞:OpenAI也是神奇,和谷歌的产 ... ·  2 天前  
机器之心  ·  进击的DeepSeek,一夜之间登陆Micr ... ·  5 天前  
51好读  ›  专栏  ›  机器学习研究会

回顾 | 达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

机器学习研究会  · 公众号  · AI  · 2018-03-30 22:22

正文


本文为3月29日晚,达观数据联合创始人张健在将门技术社群,分享如何在海量的文本数据中提炼出有价值观点的内容的回顾。


主要内容包括结合实践经验,盘点观点挖掘的应用场景及价值、目前业界主流的观点挖掘技术以及该技术目前面临的挑战。

获取完整PDF+视频回顾>>关注“将门创投”(thejiangmen)微信公众号,回复“180330”获取下载链接。


以下为根据直播整理的文字内容:


一、什么是文本观点挖掘?


在简单介绍观点挖掘的基本概念之后,张健首先对“观点”的五个组成要素进行了强调:

1. 观点评价对象(客体);

2. 观点评价对象的属性。例如,我评价谁哪里哪里好,又哪里哪里不好,“哪里”就是属性;

3. 观点所蕴含的情感极性。包括正面、负面、中性等;

4. 观点的持有者。在考虑到处理问答、对话的流程,涉及到主体的识别;

5. 观点的时间。这对观点是有一定影响意义在的,因为随着时间变化,观点持有者也可能改变自己的观点。


结合自己的业务经验,张健罗列了观点挖掘可能涉及到的一些任务类型,具体而言:

  • 情感分类

    我们所收集到的一些观点文本,可能都存在一定的情感倾向性,觉得XX是好的,XX是不好的,这可以帮助分析文本的倾向性;

  • 观点抽取

    从一段文本中属于观点的文本内容抽取出来,主要是为了方便分析人员从文本中获取结构化的有用的信息;

  • 观点过滤





    请到「今天看啥」查看全文