AI 已经在围棋上战胜了人类,接下来还会进军医疗、驾驶、社会服务等领域。对于科研人员来说,还有一个值得关注的话题:你投出去的论文会交给 AI 来处理吗?
同行评审有其缺陷。人类(即便是科学家也会)有偏向、懒惰和自私。而且即使是科学工作者,有时候数学也会不很灵光。所以不可避免的是,有人提议将人工从同行评审中剔除,以人工智能取而代之。计算机以其公正、不知疲倦和无自我身份定位著称,而且它们天生精通算数。科学家并不只是干等着 AI 专家来参与科研同行评审,期刊出版商已经在着手相关事宜。
最近,一个名为“ScienceIE”的竞赛为程序开发者设下挑战。参赛团队需要开发程序,要求这些程序能够从科学论文的句子中提取基本事实,并将其同其他论文所提取的基本事实进行比较。“项目的大目标是帮助科学家和从业者更快速地获得有关其研究领域的知识。”伦敦大学学院博士后 AI 研究员、竞赛设计者 Isabelle Augenstein 说。
竞赛涉及到处理自然人类语言,这是诸多人工智能难题之一。参赛者设计程序要解决三个子任务:阅读每篇论文并确定其关键概念,按类型组织关键词,以及识别不同关键短语之间的关系。这次竞赛不仅仅是一场学术活动:Augenstein 与世界最大的科学出版商之一的 Elsevier 签订了为期两年的合同,为后者的图书馆开发计算机工具。
Elsevier 出版超过2500种不同期刊。每个期刊的编辑都必须为每篇论文找到合适的审稿人。(2015年,70万同行评审人员在 Elsevier 上评审了超过180万份稿件,其中40万份最终出版。)“能够评审论文的人通常仅限于该领域的专家。”数字地图公司 Descartes 的 CEO 迈克·沃伦(Mike Warren)说。“你将这么一小群拥有博士学位的专家按学科和子学科进行细分,最后,全世界可能只有100人有资格审阅某论文。”Augenstein 帮助 Elsevier 使用科技手段为每篇论文自动寻找合适的审稿人。
Elsevier 开发了一套名为“Evise”的自动化工具来帮助进行同行评审。该程序能够检查抄袭(这只是搜索和匹配功能,还谈不上 AI),为审稿做最基础的把关。此外还有处理作者、编辑和审稿人之间的工作流程。另外几家主要的出版商也都有辅助同行评审的自动化软件。Springer-Nature 当下正在测试一个名为“StatReviewer”的软件,确保每份来稿具有完整、准确的统计数据。
不过这些同行在展示能力和愿景上并不像 Elsevier 这么开放。“我们正在探索更宏伟的任务,”Augenstein 说。“当你对一篇论文有疑问,机器学习模型能够通读论文并回答你的问题。”
不过并非所有人都沉醉于“机器人博士”的前景。今年年初,芬兰赫尔辛基大学环境政策教授 Janne Hukkinen 和 Elsevier 杂志《生态经济学》的编辑为 WIRED 撰写了一篇警示性文章,文中设想未来可能会有完全自动化的 AI 同行评审:
“通过查询出版商的审稿人数据库,分析过往评审中审稿人和编辑之间的交流,并识别从提交到最终编辑拍板这一整个流程中稿件的变化,学习型算法完全可以接管从最初提交到最终决定的整个评审过程。更重要的是,将人工从同行评审之中剔除,能够减轻力求开放的学者与反对开放的商业出版商之间的紧张关系。”
按照 Hukkinen 的逻辑,一个能够胜任同行评审的 AI 同样也可以动笔写论文。最终,人类将成为科研中的遗留系统——冗余、低效且过时。他最终的观点是:“不经人类产生的新知将会动摇人类文化的基础。”
不过 Hukkinen 的警惕有点忧虑过早。“尽管 AI 在象棋、围棋和扑克这样的游戏中取得巨大成功,但仍然不能理解大多数普通的英文句子,更别说科学文本了。”艾伦人工智能研究所(Allen Institute for Artificial Intelligence)首席执行官Oren Etzioni 说。ScienceIE 竞赛团队的实例或可为其提供佐证:最终获胜的团队在三个子任务挑战中的得分只有43%。
充斥着被动句式的科学论文晦涩至极,即便是在人脑看来也很难理解。所描述的对象经常隐身于层层前述之后,被动句式在日常语言面前显得深奥难懂。语言学家将任何人类所写的东西称为“自然语言”,而自然语言在计算机科学家看来实在是一团乱麻。
“自然语言给 AI 带来的一大难题是其模糊性。”纽约大学计算机科学家 Ernest Davis 说。斯坦福大学名誉计算机科学家 Terry Winograd 有一个经典的歧义例子:
市议会拒绝给示威者许可,因为他们(担心/主张)暴力。
The city councilmen refused the demonstrators a permit because they [feared/advocated] violence.
这句子你我都能看明白,动词“担心”暗示了“他们”指的是“市议会”而非示威者。我们轻而易举地明白:示威者“主张”暴力;市议会“担心”暴力。但是一个计算机大脑可是会在此花费经年累月的时间最终也还是搞不清楚到底哪个动词指向哪个代词。这种类型的歧义只是自然语言缠结的一个缩影,同形异义词和叙事逻辑将让 AI 更加困扰。
这还没涉及科学论文中的具体问题,比如将文本论点同数据模式进行连接等。即便在纯数学论文中这一需求也很常见。“从英语到数学中的形式逻辑不是我们能自动化的。”Davis 说。“这是最简单的工作之一。它是高度限制性的,而我们理解目标。”心理学等同数学比较远的学科更是如此。”在心理学论文中,我们几乎无法检查其论证的合理性。”Davis 说。“我们不知道如何以计算机能用的方式来表达一个实验。”
当然,一个完全自动的 AI 同行评审不仅需要对人类有所了解,还必须对其进行深入思考。“说起 AI 问题,同行评审可能是最难的一部分。因为同行评审最重要的职责是确保研究新颖,没有重复前人老路。”沃伦说。计算机程序能够查阅文献,找出那些问题仍悬而未决。但它可能无力辨认颠覆性的科学新发现。
俄勒冈州立大学 AI 研究员 Tom Dietterich 说:“也许我么只是需要改变科学出版的方式。别把我们的研究用英语写成一个故事,应该把我们的意见和论据套入一个类似数据库的正规架构中,比如一个涵盖人类在某主题下所有知识的数据库。”换句话说,同行评审 AI 化是途径而非解决方案。在这一点上,人们所要重新编程的不是计算机,而是人类行为。