专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
数据派THU  ·  通知 | ... ·  昨天  
CDA数据分析师  ·  【干货】5步搞定数据异常分析 ·  2 天前  
大数据与机器学习文摘  ·  民间大神魔改 4090 48G 秒杀 ... ·  2 天前  
大数据分析和人工智能  ·  258页PPT精解DeepSeek应用 ·  4 天前  
51好读  ›  专栏  ›  大数据文摘

MGC+AI=MAGIC!技术出身、NYT工作经历,且听徐常亮博士畅谈媒体大脑

大数据文摘  · 公众号  · 大数据  · 2019-10-23 13:02

正文

大数据文摘出品
作者: 刘俊寰

今年云栖大会上,闪亮登场的不是只有阿里首款自研芯片含光800等“硬科技”,新华智云自主研发的会议报道机器人的表现也相当抢眼。

据了解,该机器人将140条会议短视频自动拆条剪辑,平均每位嘉宾分享完不到一分钟即可生成一条短视频,大幅降低人工成本,提升了会展内容的传播效率。

新华智云是新华社和阿里巴巴在2017年6月成立的媒体大数据人工智能公司,现由徐常亮任新华智云董事兼联席CEO。

说到徐常亮,他从普林斯顿大学博士毕业后进入到了纽约时报工作,正是在纽约时报这段时间他第一次接触到云计算和大数据,让他对新闻领域产生了兴趣,这也是他参与建设新华智云的重要原因。

在徐常亮看来,媒体行业会率先采用新技术,可以说,媒体行业本身需要技术支撑,而当下最领先的技术是人工智能,媒体大脑的构想就应运而生。 媒体大脑就是试图在媒体行业实现AI技术落地,让机器学习听说读写能力,理解具体生活场景,然后再以新闻形式输出。

可以说,媒体大脑的开发也是对新闻领域的一次革新!

同时,徐常亮也是本次大数据文摘与猎聘共同颁发的“30位新生代数字经济人才”精英奖的获奖者之一。 精英奖旨在表彰在相关领域对数字经济发展作出卓越贡献,利用数据和技术对产业带来的实际推动作用的行业精英。

媒体大脑将为新闻创作提供数据视角


非结构化数据多,首先要明确基本能力


正如徐常亮在演讲中说到,媒体行业的产品就是数字化,但是与一般互联网数据相比,新闻领域的非结构化数据较多,这也大大提高了数据提取的难度。

阿里有一句话,先要一切业务数据化,然后再是一切数据业务化。 对应到媒体这个行业,徐常亮提出了“新闻即数据,数据即新闻”, 从数据中挖掘新闻,待新闻沉淀为数据,为今后的新闻打造提供历史依据。


追溯互联网发展历史可以发现,大数据的发展基于搜索引擎,谷歌提出的“三驾马车”也是想要针对搜索文档进行处理,而搜索文档的一个重要特点就是新闻数据。

因此在徐常亮看来,新华智云现在做的工作、面对的挑战和谷歌相比没有太大差别。 也正是因为如此,在语言文字的处理方面,新华智云完全可以吸收借鉴谷歌在过去20多年的经验。

选择在图片视频领域的发展,技术层面上是因为深度学习的计算能力、数据储备和模型都已经得到了相当不错的发展,商业场景上,4G的普及、5G的应用都使得短视频领域的业务形态得到广泛关注。

其中,徐常亮将视频处理的难点总结为以下三个方面:
  • 视频的非结构化数据更复杂,怎样对数据处理,怎样实现商业落地
  • 技术产品与基础算法能力如何实现互补
  • 数据的获取和准备,对偶发事件的建模难度


针对这些难点,首先必须将媒体大脑的基本能力明确化——定位文档和视频片段,最开始的数据集也将会在某个垂直领域进行相应完善,不会针对全网的所有数据。

徐常亮认为,媒体大脑的理想形态取决于人类的进步和实时的需求。

近期媒体大脑的工作还是会围绕短视频的编辑与生产。

必须承认的是,新华智云目前还无法实现在通用领域完成动作理解,但是在视频理解和视频摘要领域已经取得不错的成绩,他们在 国际计算机视觉顶级会议 ICCV 2019的 CoView 挑战赛中取得了第一名的成绩。

注:ICCV(国际计算机视觉大会,全称:International Conference on Computer Vision)是计算机视觉方向的三大顶级会议之一,由IEEE主办在世界范围内每两年召开一次。ICCV论文录用率非常低,是三大会议中公认级别最高的。


数据能为深度报道提供不一样的视角


现在机器生产内容还是局限于体育、财经等领域,对于机器能否参与深度报道的撰写,徐常亮指出,首先要明确何为“深度”,在数据中同样可以找到很多新闻点,数据也能给创作者提供很多新的角度和观点,比如台风数据的整理,这也是深度报道的一种形式。

再比如,在云栖大会上,可以通过抓取互联网上对含光芯片的评价,调查对象就能从嘉宾变成全体互联网网民,素材量也就相应地得到扩大。

此外,深度报道是否需要机器参与,欠缺的更多是评价。 能生产内容远远不够,如何做到还要做到有态度,进而做到有温度,即如何拿捏态度和情感的强弱,也需要在深度报道中体现出来。


在MGC(机器生产内容, Machine Generated Content)时代,徐常亮根据自己在纽约时报和阿里的相关经历描绘了机器、读者和记者三方的关系。 他认为,就像今后的商品生产会逐渐转向顾客需求为主导,个性化生产也会成为重要的一环,读者可以自己命题、自己找角度,在自己想了解的维度上获取信息。 而这点,新华智云已经具备了相应能力。

从内容生产者的角度上说,现在已经进入到了UGC时代,广义上,所有人都是在做内容创作。 新华智云的愿景是整合数据可供人人使用,甚至通过数据和舆情的准备激发人们的创作欲望。

如今早已是海量信息充斥,对于资讯而言大家想达成的更多还是如何更精准更精炼地获得信息,精准推送所造成的信息茧房现象就像游戏沉迷一样,是不可避免的,而相应的防范措施也需要和具体平台的应用进行结合。

从“有图有真相”到“有视频有真相”,技术发展的每个阶段都有每个阶段的挑战,不能因为技术发展所带来的不良后果把技术本身否定掉。 而且,目前包括新华智云在内的许多机构都在做事实核查方面的研究。

面对5G的发展,徐常亮认为5G时代真正到来之后,会给用户带来更好的视听感触,许多内容都能逐渐往高清上发展,今后用户都能做到在线生产、在线存储、在线分发,打造在线新闻中心会越来越容易。

探索数字经济时代的媒体新业态


以下是徐常亮在数字经济人才晚宴上的分享速记:

大概介绍一下新华智云媒体大脑,新华智云是新华社和阿里巴巴合资成立的,大家看媒体大脑的“大脑”这个词也可以猜到和阿里相关,阿里在各个行业都在推出“大脑”系列。






请到「今天看啥」查看全文