长期以来,为我们所关注到的那些科研成果,往往都是那些卓有成效的结果。似乎只有获得理想的数据,令人满意的进步,一个科研项目才称得上成功。
然而,在这些光鲜的成就背后,隐藏着大量的失败实例与不尽如人意的结果。科研向来不是一帆风顺,成功的背后也是一次又一次的试错、迭代,但那些失败的过程,似乎一直以来消失在人们的视线里。
而且,这一趋势在过去几十年似乎越来越严重。
2012 年的一项研究表明,从 1990 年到 2007 年,样本论文中的正面结果增加了 22%;到 2007 年,发表的论文中有 85% 都是正面结果。
图丨报告支持被测假设的论文百分比,根据出版年份绘制(来源:
Scientometrics
)
2022 年法国的一项调查显示,尽管 81% 的研究人员在研究中取得了负面结果,但
只有 12.5% 的研究人员有机会在学术期刊发表这些结果。
图丨研究人员公布负面结果的方式(来源:
Learned Publishing
)
但实际上,
研究过程中的许多失败,在此前都已经为其他研究所经历了,所以,在很大程度上,这些失败都是在重复耗费研究资源
。
图丨在 310名 受访者中,发现自己重复了其他研究的失败的人数比例(来源:
Learned Publishing
)
而且,不成功结果的缺失,可能导致学界过于强调发表的成功结果,进而误导其他研究者,让他们认为某种方法或策略总是有效的,而实际上可能并非如此。同时,也可能进一步加剧可重复性危机。
另一方面,近些年来,机器学习等 AI 技术在科研中的越来越多,而这些技术是在大型数据集上进行训练的,负面数据的缺失,也导致了 AI 发展的受限。
过度强调正面数据,可能会导致模型出现偏差,在某些情况下,模型预测出的指标可能过高,而无法反映其实际特性。
“失败是成功之母”,这句几乎无人不知的口号,在科研界尤其具有重要意义。将负面结果发表出来,无疑有助于帮助学界对相关问题产生更深入的了解,也节省不必要的重复性实验。
图丨相关文章(来源:
Nature Catalysis
)
所以,近些年来,负面成果也越来越得到学界的关注。
去年八月,
Nature
就曾刊发了一篇只有负面结果的文献,在当时引起了广泛关注。
图丨相关论文(来源:
Nature
)
近日,
Nature CAREER FEATURE
又发表了一篇文章,呼吁学界重视负面成果的公开发表。
文章中提到一个例子,德国明斯特大学的有机合成化学家
Strieth-Kalthoff
在利用数据驱动方法提升药物化学反应的产量时,就遇到了正面结果偏误的问题。
他们构建的模型旨在预测最优反应物组合及条件,最初,通过包含高低产率的多样结果的高通量实验数据集训练人工智能模型时,研究的进展一切顺利。
然而,当
Strieth-Kalthoff
尝试将 Reaxys 数据库中的实际文献数据纳入模型训练时,就遭遇了挫折。他发现,其原因就在于文献中普遍缺乏低产率(即所谓的“失败”)实验结果,几乎所有公开数据的平均产率都集中在 60%-80% 之间。
图丨相关论文(来源:
Machine Learning for Chemical Reactivity:The lmportance of Failed Experiments
)
这导致人工智能模型无法从真实世界中那些杂乱无章的低效实验中学习,进而难以准确模拟实际的化学反应过程。
对此,瑞士洛桑联邦理工学院的分子建模专家
Berend Smit
指出,尽管人工智能有望从复杂数据中挖掘出研究者难以直观发现的关联,但缺乏对负面结果的接触限制了模型的发展。
正如每位化学家在实验台前积累的“化学直觉”来自于对失败的深刻理解,仅在成功案例上训练的 AI 模型则缺乏这种关键的直觉。
Strieth-Kalthoff
认为,当前的人工智能模型的发展,受限于可用数据并未全面反映所有知识的现状。
为了解决负面数据缺失的问题,一部分研究者尝试使用超采样等统计手段,即复制现有负样本或创造人工数据点,比如加入零产率的反应实例,但这类方法本身又可能引入新的偏见。
因此,如何平衡科研记录中正面与负面结果的呈现,确保 AI 技术与科学研究的健康发展,成为亟待学界共同面对的挑战。
一些学者就敏锐地意识到了分享失败经验的价值。例如,芬兰奥卢大学计算机科学家
Ella Peltonen
就于 2022 年积极推动并协助举办了首届普适计算负面结果国际研讨会(PerFail),为科研人员搭建起一座沟通桥梁,鼓励他们公开探讨未达预期的实验经历。
(来源:PerFail)
Strieth-Kalthoff
等学者也提到,在各自的领域中,已经逐渐在发生积极的变化,如有机化学领域于 2021 年启动的开放反应数据库(Open Reaction Database),就旨在促进有机反应数据的共享,以支持机器学习模型的训练。
但遗憾的是,由于缺乏足够的激励机制,这一项目尚未得到广泛应用。
为解决这一系列挑战,
Berend Smit
提出了一个创新思路:构建一个模块化的开放科学平台,将该平台直接对接电子实验笔记本,简化数据的提取与再利用流程,从而绕过在传统同行评审期刊上发表负面结果的传统路径,又确保这些数据能有效服务于人工智能的训练”。
但也这一构想在实践层面上还有不少障碍,例如,实现这一目标需将分析仪器与外部数据源无缝整合,而这在技术上和合作意愿上(特别是仪器制造商的配合)都面临不小难度。因此,尽管前景光明,实现真正的科研数据开放共享依然任重道远。
在学术界,已经有一些通过专门的同行评审期刊开始公布非阳性或负面的研究结果。
例如,一些学者开始创办相关的期刊专门收录这些负面的成果,包括
Trial & Error 、The All Results
等 。
尽管在初期,这些期刊还是面临投稿不足的挑战,但经过各自不懈的努力,目前,它们也实现了相对稳定的发展。
(来源:
Trial & Error
)
而且越来越多的主流期刊,包括
Science
、
Nature
等,也逐渐开始对负面结果持开放态度。
不过,尽管期刊出版偏好有所松动,科研人员发表负面结果依旧面临重重阻碍。
毕竟,整个学术评价体系还是偏好于高影响力的正面成果,除了“失败是成功之母”,“成王败寇”也往往是现实的逻辑。
另外,一些学者也可能担心负面结果可能给个人职业生涯带来负面影响,而且发表失败的结果,还总是需要做更多的工作以进行完整的说明,但却几乎得不到任何的回报。
Smit 开玩笑说:
公开失败的实验不仅是无偿劳动,甚至可能无意间为可能取代自己的人工智能提供学习材料
。
而且,人们对待失败者,似乎总是更为严格。文章就提到,今年 8 月的一项研究就显示,
在学术评价中,无效结果比成功的结果要遭受更多偏见,往往被认为质量低且并不重要
。
但这种现象近年来终归还是有在改善。例如,为了应对科学发表中的正面结果偏误,心理学界就推出了注册报告(Registered Reports, RRs)这一项目。