在深度报道领域，人工智能可以有哪些应用？

GIJN · 公众号 · · 2019-10-23 13:00

正文

为什么在深度调查报道中运用 AI 技术这么困难？近期内，深度报道的哪些环节最适合使用 AI 技术？为了回答这些问题，哥伦比亚大学老师 Jonathan Stray 做了一些研究。

图片：Shutterstock

在新闻中使用人工智能的前景是值得期待的，但同时也有些被夸大炒作之嫌。如今，许多大的媒体平台对读者进行个性化推荐的时候，都已经开始借助完成过深度学习的机器的帮助。至于文字自动生成技术，更是让体育、商业新闻的报道实现了自动化。但是，要想让 AI 投入到深度调查的报道中，可能还得再花一点时间。为什么在深度调查报道中运用 AI 技术这么困难？近期内，深度报道的哪些环节最适合使用 AI 技术？为了回答这些问题，我做了一些研究。

目前，关于将 AI 应用到新闻业、尤其是深度调查新闻业的可能性讨论主要集中在「找到规律」、「建立联系」、甚至是「发掘社会问题」上。人们期待着这种新式的算法会在数据分析阶段为记者节约大量时间，甚至令对于之前新闻人来说难度过大、成本过高的某些故事类型变为可能。

然而，真的可以做到这样吗？有些时候，答案是肯定的。 AI 技术在一些案例中发挥了重要的作用。举例来说，《亚特兰大立宪报》（Atlanta Journal-Constitution）在报道医生与性侵犯案件时，曾经从来每个州份、合计超过100000份的医生纪律报告中爬取数据，以寻找医生对患者实施性侵犯以后却仍被允许继续执业的个例。经过个性化深度学习的算法最后从中找出了6000份有疑似记录的报告，之后记者们再对这6000份经过筛选的报告进行人工的阅读与分类。

BuzzFeed 也运用过深度学习训练的算法从公开航班数据中找到政府侦察机；《华盛顿邮报》运用情感分析（sentiment analysis）算法从美国国际发展局（AID）的审计报告中找出被从较早版本里移除的负面发言。但像这样成功应用的个案只有十几个，为什么在深度调查报道中应用 AI 如此之难，在我看来有以下几点原因：

首先，你没法把调查项目所有的相关资料全部都扔进一个数据库中，然后让 AI 去处理。即便「公开」资料通常也需要你亲自从网络上爬取、向资料提供方发出请求，或协商、或购买（有时候还不能一次性购买，必须要分批购买）。对于记者来说，即便将这些资料整合到一起也是一项大工程。

同样，AI 系统所需的费用并不便宜。在商业分析中投入的 AI 系统，由于业务的连贯性，通常可以重复使用。但对于记者，每报道一个故事，可能就要新建一个系统。《亚特兰大立宪报》为一个故事分析完100000份医生纪律报告以后，也没有另外100000份报告可供分析了。

而且，我们必须要有一个现实的预期。在调查报道中的很多问题，即便使用目前最新的技术也是没法解决的。现阶段的 AI 还没办法去总结法律文件或自动化地调查一批公司。因为如果想要创建解决这类问题算法，就需要向机器投喂大量经过特别处理的训练数据，而要搜集到这么大量的数据是很困难的。例如如今的自然语言处理系统（NLP）就要求成千上万、乃至上百万的范例来进行深度学习。

最后，还有准确性的问题。你是不能以一个95%准确率的模型，就去控诉某人犯下恶行的。

在深度报道领域，人工智能可以有哪些应用？

正文

请到「今天看啥」查看全文