专栏名称: GIJN
全球深度报道网(GIJN)致力于整合并分享深度报道资源,包括报道手册和书籍、国内外公开数据库、数据新闻工具包和深度报道的前沿探索。
目录
相关文章推荐
51好读  ›  专栏  ›  GIJN

在深度报道领域,人工智能可以有哪些应用?

GIJN  · 公众号  ·  · 2019-10-23 13:00

正文

为什么在深度调查报道中运用 AI 技术这么困难?近期内,深度报道的哪些环节最适合使用 AI 技术?为了回答这些问题,哥伦比亚大学老师 Jonathan Stray 做了一些研究。




图片:Shutterstock


在新闻中使用人工智能的前景是值得期待的,但同时也有些被夸大炒作之嫌。 如今,许多大的媒体平台对读者进行个性化推荐的时候,都已经开始借助完成过深度学习的机器的帮助。 至于文字自动生成技术,更是让体育、商业新闻的报道实现了自动化。 但是,要想让 AI 投入到深度调查的报道中,可能还得再花一点时间。 为什么在深度调查报道中运用 AI 技术这么困难? 近期内,深度报道的哪些环节最适合使用 AI 技术? 为了回答这些问题,我做了一些研究。


目前,关于将 AI 应用到新闻业、尤其是深度调查新闻业的可能性讨论主要集中在「找到规律」、「建立联系」、甚至是「发掘社会问题」上。 人们期待着这种新式的算法会在数据分析阶段为记者节约大量时间,甚至令对于之前新闻人来说难度过大、成本过高的某些故事类型变为可能。


然而,真的可以做到这样吗? 有些时候,答案是肯定的。 AI 技术在一些案例中发挥了重要的作用。 举例来说,《亚特兰大立宪报》(Atlanta Journal-Constitution)在报道医生与性侵犯案件时,曾经从来每个州份、合计超过100000份的医生纪律报告中爬取数据,以寻找医生对患者实施性侵犯以后却仍被允许继续执业的个例。 经过个性化深度学习的算法最后从中找出了6000份有疑似记录的报告,之后记者们再对这6000份经过筛选的报告进行人工的阅读与分类。


BuzzFeed 也运用过深度学习训练的算法从公开航班数据中找到政府侦察机; 《华盛顿邮报》运用情感分析(sentiment analysis)算法从美国国际发展局(AID)的审计报告中找出被从较早版本里移除的负面发言。 但像这样成功应用的个案只有十几个,为什么在深度调查报道中应用 AI 如此之难,在我看来有以下几点原因:


首先,你没法把调查项目所有的相关资料全部都扔进一个数据库中,然后让 AI 去处理。 即便「公开」资料通常也需要你亲自从网络上爬取、向资料提供方发出请求,或协商、或购买(有时候还不能一次性购买,必须要分批购买)。 对于记者来说,即便将这些资料整合到一起也是一项大工程。


同样,AI 系统所需的费用并不便宜。 在商业分析中投入的 AI 系统,由于业务的连贯性,通常可以重复使用。 但对于记者,每报道一个故事,可能就要新建一个系统。 《亚特兰大立宪报》为一个故事分析完100000份医生纪律报告以后,也没有另外100000份报告可供分析了。


而且,我们必须要有一个现实的预期。 在调查报道中的很多问题,即便使用目前最新的技术也是没法解决的。 现阶段的 AI 还没办法去总结法律文件或自动化地调查一批公司。 因为如果想要创建解决这类问题算法,就需要向机器投喂大量经过特别处理的训练数据,而要搜集到这么大量的数据是很困难的。 例如如今的自然语言处理系统(NLP)就要求成千上万、乃至上百万的范例来进行深度学习。


最后,还有准确性的问题。 你是不能以一个95%准确率的模型,就去控诉某人犯下恶行的。







请到「今天看啥」查看全文