专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
新浪科技  ·  #苹果因AI延期面临集体诉讼#【#AI版Si ... ·  昨天  
InfoQ  ·  当大模型接管编程:NASA ... ·  2 天前  
新浪科技  ·  【#iPhone17有望全系标配24MP自拍 ... ·  3 天前  
36氪  ·  金沙江创投也要「分家」了 ·  3 天前  
51好读  ›  专栏  ›  雷峰网

专访光明日报、三角兽和码隆科技,看中央机关报如何利用 AI 完成升级

雷峰网  · 公众号  · 科技媒体  · 2017-03-20 22:37

正文

雷锋网按:前段时间,光明日报客户端上线“小明AI两会”功能,首次将人工智能技术应用于两会报道中。用户通过手机拍一张全国两会代表委员或光明日报刊载的照片,小明就能识别出照片中的人物或刊载的照片,并展示这名代表委员在履职期间关注的主要领域,同时以人物图谱的形式,展示与其关注同样领域的其他代表委员。

小明 AI 两会功能,最直接的体现是改变传统的交互模式,主要以照片、语音形式进行交互,同时也提供了文字输入方式。



雷锋网了解到,“小明AI两会”的后台技术主要由三角兽科技以及码隆科技提供。

据悉,为快速识别代表委员,AI小明项目组抓取了数万张照片对小明进行模型训练;与此同时,三角兽科技为了让“小明”了解代表委员的履职情况,分析了 40 多万篇有关媒体报道和官方报告对其进行训练,从 29 万个词汇中挖掘出近 5000 个与两会相关的关键词,并据此整理出针对每一位代表委员的个性化报道。


光明日报为何要尝试人工智能?


当下不少媒体面临内容再消化问题,文章发出后的时效性往往较短。光明网希望借助 AI 的能力不断把过往的经典内容再次挖掘出来,并在合适的场景中重现。其中小明 AI 两会就是一个让过往两会内容再消化的典型案例。


小明AI两会功能是光明日报小明在人脸识别、图像识别、大数据方面的一次探索与自身技能的完善,小明还具备语音沟通、天气查询、机票预订等功能。小明是光明日报在 2016 年 11 月推出的国内首款人工智能新闻信息服务平台,项目开始之初,无论是人员还是资源投入都非常之多。大力招收相关人才,同时广泛联系人工智能领域公司展开合作。

“AI 与媒体相结合的产品以什么样的形式呈现给读者和用户会比较好?”这个棘手的问题摆在了光明网面前。

媒体的首要任务是提供信息服务,即便是推出新兴的 AI 产品,也一定不能离开媒体的信息服务本身。光明网认为,不管产品与多少新技术结合,其核心功能仍旧是提供新闻,AI 只是一种辅助手段帮助他们获得更好的新闻阅读体验和交互方式。

如果把新闻资讯集成在聊天机器人里面,用户不仅可通过小明直接查看新闻,同时也可与机器人聊天,丰富与用户沟通。

在经过一段时间开发后,于 2016 年光明小明问世。

当用户用文本或语音的形式对小明说“我要看时政新闻”,它便会提供当天的时政要闻。此外,“光明小明”还能为用户提供查天气、订机票、搜电影等生活信息服务,也可以完成闲聊形式的陪聊。

两会前夕对 AI 的新需求

两会期间,各家媒体要从较为同质的相关报道以及内容分发中脱颖而出并不容易。在内容创新难度较大的前提下,形式上的创新便成了提升竞争力的重要因素。如南方日报在两会期间采用了非常炫酷的 H5 做宣传,在视觉呈现效果上 与此前火热的 H5 《吴亦凡即将入伍》相似。


光明网也早早开始筹备两会报道的创新形式。去年年底,光明网同三角兽进行“小明AI两会”功能的对接,三角兽CTO亓超说,第一次与光明网碰面时,他们对两会功能提出了自己的想法。三角兽根据 AI 技术的现状和两会话题,对提出的需求做出一定修剪。


2 月 6 号开始,AI小明项目组开始着手开发“小明AI两会”功能。

通过输入自然语言或图像识别的方式跳转到代表和委员的详细页面。

下图为两会委员和代表的页面,主要技术均由三角兽提供,这里以雷军为例:


亓超介绍到,人物图谱是把人物属性比较相近的群体进行计算,通过语料和个人资料来计算他们之间的关系。除了雷军的关系图之外,也有其他人之间的关系网络。


下图则为通过算法挖掘的雷军关注领域的关键词。


第三部分是相关新闻和热点新闻。该功能背后的本质新闻搜索,根据人物关键词和自己所关注的领域挖掘人物跟两会相关的报道。


两会热点通过对热点词和相关报告进行挖掘,除了今年两会的报道外,还包括往年所有两会的上百万篇报道和百科资料以及政府网站报告。总共挖掘的词有几十万,通过数据清洗和迭代把有用的数据保存。

在谈到“光明AI两会”功能的最大难点在哪里时,亓超主要提到两点:准确和有力,尤其是两会相关的报道一定要匹配准确,容不得半点差错。在“有力”层面,AI 抓取的内容尽量做到要和人为采编有所不同,发挥机器的优势。

而背后几十万篇报道的筛选,这内部涉及到一个排序问题。排序方式与根据传统搜素中的“焦点”、“关键词”、“位置”、“权重”、“时间”、“来源”类似,同时内容必须紧扣两会主题。整个过程纯粹靠机器来完成,然后靠人力来抽查。当然,在面对大量数据时也不可避免地会遇到格式错误和抓取失败等问题。经过大量的技术研究和沟通,对面临的问题进行了解决。







请到「今天看啥」查看全文