在新闻中使用人工智能的前景是值得期待的,但同时也有些被夸大炒作之嫌。
如今,许多大的媒体平台对读者进行个性化推荐的时候,都已经开始借助完成过深度学习的机器的帮助。
至于文字自动生成技术,更是让体育、商业新闻的报道实现了自动化。
但是,要想让 AI 投入到深度调查的报道中,可能还得再花一点时间。
为什么在深度调查报道中运用 AI 技术这么困难?
近期内,深度报道的哪些环节最适合使用 AI 技术?
为了回答这些问题,我做了一些研究。
目前,关于将 AI 应用到新闻业、尤其是深度调查新闻业的可能性讨论主要集中在「找到规律」、「建立联系」、甚至是「发掘社会问题」上。
人们期待着这种新式的算法会在数据分析阶段为记者节约大量时间,甚至令对于之前新闻人来说难度过大、成本过高的某些故事类型变为可能。
然而,真的可以做到这样吗?
有些时候,答案是肯定的。
AI 技术在一些案例中发挥了重要的作用。
举例来说,《亚特兰大立宪报》(Atlanta Journal-Constitution)在报道医生与性侵犯案件时,曾经从来每个州份、合计超过100000份的医生纪律报告中爬取数据,以寻找医生对患者实施性侵犯以后却仍被允许继续执业的个例。
经过个性化深度学习的算法最后从中找出了6000份有疑似记录的报告,之后记者们再对这6000份经过筛选的报告进行人工的阅读与分类。
BuzzFeed 也运用过深度学习训练的算法从公开航班数据中找到政府侦察机;
《华盛顿邮报》运用情感分析(sentiment analysis)算法从美国国际发展局(AID)的审计报告中找出被从较早版本里移除的负面发言。
但像这样成功应用的个案只有十几个,为什么在深度调查报道中应用 AI 如此之难,在我看来有以下几点原因:
首先,你没法把调查项目所有的相关资料全部都扔进一个数据库中,然后让 AI 去处理。
即便「公开」资料通常也需要你亲自从网络上爬取、向资料提供方发出请求,或协商、或购买(有时候还不能一次性购买,必须要分批购买)。
对于记者来说,即便将这些资料整合到一起也是一项大工程。
同样,AI 系统所需的费用并不便宜。
在商业分析中投入的 AI 系统,由于业务的连贯性,通常可以重复使用。
但对于记者,每报道一个故事,可能就要新建一个系统。
《亚特兰大立宪报》为一个故事分析完100000份医生纪律报告以后,也没有另外100000份报告可供分析了。
而且,我们必须要有一个现实的预期。
在调查报道中的很多问题,即便使用目前最新的技术也是没法解决的。
现阶段的 AI 还没办法去总结法律文件或自动化地调查一批公司。
因为如果想要创建解决这类问题算法,就需要向机器投喂大量经过特别处理的训练数据,而要搜集到这么大量的数据是很困难的。
例如如今的自然语言处理系统(NLP)就要求成千上万、乃至上百万的范例来进行深度学习。
最后,还有准确性的问题。
你是不能以一个95%准确率的模型,就去控诉某人犯下恶行的。