用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课,www.mooc.ai 现已开放预约。
雷锋网按:2015 年 9 月腾讯财经曾推出了一个名为 “Dreamwriter” 的自动化新闻写作机器人,一时间让广大媒体同行纷纷感叹要 “失业” 了。不过,写稿机器人受限于一些消息、快讯,也主要应用于体育、财经类报道中,并不能够完全取代编辑记者们的工作。据腾讯财经主编,也是内容机器人团队的负责人刘康回忆,当时需求非常强烈,推出 Dreamwriter 主要是想让新人能把更多精力放在更有创造力的事情上。
4 月 17 日下午,在一场媒体沟通会上,刘康总结了 Dreamwriter 此前所做的一些事情。从 2016 年奥运会期间的 3600 篇稿件,到腾讯体育 APP 上小梦战报的机器人稿件专栏,写稿机器人功劳可不小。
刘康认为,“机器写作从 0 到 1 大家都可以有,但从 1 到 2、到 3 要花费相当大的精力。” 他表示 “今天的数据量非常细,我们可以描述到每一个数据的颗粒还原。”
他举例此前奥运期间的一篇跳水的稿件。“因为跳水是一个评分制的比赛,比如说我现在是评委,大家在进行比赛,我要给每个动作打分,这些打分都是记录在数据库里的,比如走板、空中姿态、落水姿态、水花这些都是有详实的数据的,它会被录进数据库。
然后我们再怎么写它呢?这些数据会被我们通过一定的算法和机器自己的识别,我们先让机器跑几十万篇的数据,跑一个规则出来,它会自己把这些数据重新还原。因为每一个分数都可以还原成一个动作,这样通过一定的算法把它还原成原先的场面。”
但是要做的很好,就非常难。刘康解释到,像财经和体育两个领域都难,但又不难。这是因为,财经本身有强烈的规则和算法模型,做简单的报道没有太多的技术含量,而难在对数据的解读、认知需要一套模型来判断它,甚至将来的预测。至于体育,关于球队比分可以从数据里抓取,但难在描述本身,“只有表示精彩才会看,如果不够精彩我会想去看视频。”
目前,写稿机器人主要针对的稿件领域为财经、体育、科技和新闻,其中新闻则偏向于社会类的、天气等。刘康还提供了一份机器人写稿的数据量。半年的稿件量是 30 万篇,稿件字数 600 万,运营事故 0 起。
针对运营事故,刘康表示他们有一个专门的安全管理平台:
机器自己写的时候会单独做一个算法和规则判断机器写的有没有问题;接着会经过人工安全审核;最后才会推送出来。
三个步骤中间衔接的时间越少,意味着出来的作品越准确越迅速。
现在,他们的三项技术已经拿到了国家专利,包括:智能撰文技术 Dreamwriter、内容抽取技术 Dreamreader、要闻萃取技术 Secretary。接下来,他们希望在不同的领域,不同的频道尝试。
除了回顾此前写稿机器人达到的成果外,这次沟通会刘康特别介绍了一款基于写稿机器人而孵化的新产品——Dreamreader(新闻超秘)。在刘康看来,现在一些资讯应用占据了人们日常的太多时间,有时候不知不觉已经在一款应用上耗费了一两个小时。而 Dreamreader 是想让大家 “用完即走”,它可以成为人们的资讯秘书,通过智能算法,将每天的最重要的新闻筛选出来呈现给用户。
据介绍,Dreamreader 是基于 Dreamwriter 的机器写作技术和内容抽取技术而产生的。沟通会现场,雷锋网、试用了这款应用。目前该应用还是 1.0 版本,整个界面只有两个栏目,一个是精选新闻,一个是新闻详情。
同时,一些由 Dreamwriter 撰写的最新资讯会不时进行更新,而精选后的资讯则会用语音读给用户。未来,他们的目标是把它做成一个新闻 AI - 个性化资讯生产和服务平台。刘康强调,对于这款产品,重要的是将每天那么多的资讯,按照用户的需求整理成简报,就像秘书一样。
不过,尽管在设计时,采用了 “能解放双手” 的语音交互方式,但语音朗读十分生硬,而且没有匹配的文字版本,毕竟我们听一段语音要比看一段文字花费的时间长的多。刘康称在之后的 1.5 版本会弱化语音本身,并增加文字版本。
现场雷锋网所看到的 Dreamreader 所抓取的信息源全部由 Dreamwriter 撰写,至于未来会不会抓取其他信息源,刘康表示,“会抓取腾讯所有版权内容,内容源的使用是合法合规的。” 从全网抓取信息整理成简报也是可行的,但是否会涉及到版权问题,这还需要考虑。他称从技术上来说并不难实现。
刘康现在还无法给出 Dreamreader 确定的上线时间,还想把它完善的更好。
虽说这次沟通会的主题是 Dreamreader,但当看到写稿机器人已经能完成大量的快讯后,当天在做的媒体也不禁问道,“腾讯什么时候会把写稿机器人开放给第三方使用?”
刘康透露,现在
“要把全品类兼容好,把像娱乐其他品类全部搞定,优化后可以使用了,然后我们才可以对外开放,不可能在一两个场景内单独开放。如果觉得某一个垂直领域不错,想用的话也可以探讨,因为单独开放之前是没有放在日程上。”
此刻雷锋网编辑已经不怕机器人抢走 “饭碗” 了,反倒希望机器人能帮忙出快讯。
2017 新智造成长榜评选启动
雷锋网正式启动 2017“新智造成长榜” 评选,旨在寻找智能未来三年十倍的创新变量。
即日起雷锋网接受创新企业的报名,最终榜单将由雷锋网于 7 月份举行的 CCF-GAIR 2017 大会期间公布。
如果您有意参加我们的评选活动,可以点击阅读原文,加入榜单评选!