专栏名称: 人工智能头条
专注人工智能技术前沿、实战技巧及大牛心得。
目录
相关文章推荐
歸藏的AI工具箱  ·  最强多模态模型!人人都能精准 P 图 ·  22 小时前  
歸藏的AI工具箱  ·  最强多模态模型!人人都能精准 P 图 ·  22 小时前  
爱可可-爱生活  ·  3月18日晚8点,有幸跟郭老师一起做客图灵直 ... ·  昨天  
债市硫磺岛  ·  怎么使用AI来开发和调试债券量化模型(二) ·  昨天  
债市硫磺岛  ·  怎么使用AI来开发和调试债券量化模型(二) ·  昨天  
爱可可-爱生活  ·  【[495星]Local Deep ... ·  昨天  
元素和同位素地球化学  ·  AI或许会取代我们的工作,但也许会让我们成为 ... ·  2 天前  
51好读  ›  专栏  ›  人工智能头条

“达观杯”文本智能处理挑战赛,季军带你飞

人工智能头条  · 公众号  · AI  · 2019-01-29 18:30

正文


作者:乐雨泉(yuquanle),湖南大学在读硕士,研究方向机器学习与自然语言处理。 欢迎志同道合的朋友和我在公众号 "AI 小白入门" 一起交流学习。

前段时间和朋友何从庆( AI算法之心 )等队友一起组队参加了这个比赛,本来以为小比赛人少,没想到参加的人会有几千人。

最后我们队伍取得 季军(4st/3131) ,虽有些许遗憾,但是也很荣幸认识了更多的大佬。

在此和队友整理总结了一波,放出答辩PPT以及开源了部分代码,希望对刚接触这个领域的小白新手能有些帮助~~~

竞赛背景

  • 2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上,目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作,并在各行各业得到充分应用。

  • 自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。

  • 此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。未来文本自动化处理的技术突破和应用落地需要人工智能从业者和爱好者的共同努力,相信文本智能处理技术因为你的算法,变得更加智能!

比赛网址

http://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html

答辩 PPT



详细解决方案

对于这个比赛,我们尝试了很多方法,最后我们发现了一些对解决这个赛题很不错的解决方案(当然,对于其他任务也可以起到不错的效果)。总结如下:

  • 通过对于词向量做一个增强,即利用 word2vec 与 glove 的差异性,构建一个鲁棒性更高的词语向量表征。

    具体而言,我们对于每个词通过 word2vec 以及 glove 分别训练出两个200维度的词量,两种向量相结合,表征出更强的语义信息,从而得到一个 400维度的词向量。







请到「今天看啥」查看全文