近年来,随着深度学习等技术的发展,人工智能给作为科学发现基础的数据收集、转换与理解带来了变革,极大拓展了科学研究的广度与深度,为各个学科的理论发展与实践探索提供了新的可能。
AlphaFold 3 预测“几乎所有分子类型”的蛋白质复合物结构的能力、陶哲轩借助 AI 完成形式化多项式 Freiman-Ruzsa 猜想证明、AI 对托卡马克核聚变反应控制的优化及设计新型药物分子方面的应用……
凡此种种成就,都表明我们正迎来继传统实验、理论分析、模拟计算以及数据密集型的科学研究范式之后的“第五范式”——AI for Science。
但与之相随的,也是诸多风险与挑战。
包括人工智能系统的不透明性问题,即“黑盒”问题,以及 AI 研究的可重复性问题,还有伴随技术应用而生的伦理困境,这些都是迈向新范式途中必须跨越的障碍。
为了正确应对新的机遇和挑战,学界已经有不少科学家发出相关的呼吁,而各国政府也纷纷出台相关政策法规,旨在规范引导 AI 在新时代中的使用与发展。
例如不久前美国发布的《通过人工智能应对全球挑战》报告
,就是指导 AI 科技在新时代合理应用的标志性举措之一。
而近日,英国皇家科学院也推出了由牛津大学、剑桥大学等各大著名高校、
Deepmind
等 AI 企业的 100 余位专家联合制定的《人工智能时代的科学》(Science in the age of AI)报告,深度剖析了 AI 在科研领域的角色、潜力及面临的挑战,进一步强调了在全球科学共同体中构建共识、协同应对人工智能时代科学变革的重要性。
图丨相关报告(来源:The Royal Society)
该报告探讨了以下问题:
首先,人工智能技术具体是如何变革科学研究的方式及性质的?
在这场技术驱动的转型中,科研活动迎来了哪些前所未有的机遇,又具有怎样的局限性与潜在风险?
此外,为了全面支持人工智能技术在科研领域的开发、采纳及有效应用,政府、高等院校、工业界、科研资金赞助者等各方利益相关者应采取何种策略?
人工智能技术如何变革科学研究的方式及性质?
我们可以从三个方面来了解人工智能给科学研究带来的影响。
第一个方面,以深度学习为代表的人工智能,正在深刻地影响科学研究的方法论。
深度学习可自动从原始数据中提取和学习特征,处理大量数据集,并有效识别模式,从而革新了数据分析和知识产生的手段,在诸多领域展现了其潜力。例如,在医疗健康中改进疾病诊断和药物研发的方式、在气候科学中助力气候模型模拟等。
同时,AI 的一大突破在于它能驾驭非结构化数据的复杂性,这是传统方法难以应对的挑战。
非结构化数据,其特点在于缺乏统一格式,涵盖图像、文本等多种形态,例如在医疗保健领域,其涉及的信息尤为繁杂,囊括了医学影像、病历文档及临床测量值等。将这些来源各异、格式多样的数据整合并解析,对于预测疾病发展趋势和制定治疗策略至关重要。
AI 通过深度学习等手段,不仅能够处理这些数据,还能在图像识别和自然语言处理任务上展示高效的应用,为医疗决策提供有力支持。
生成式 AI 模型在此基础上更进一步,它能够创造出新的数据实例或转换现有数据格式,为研究提供丰富的、多维度的视角,且不受限于原始数据的形式,这极大拓宽了数据利用的边界。
例如,Benevolent AI 和微软的 Project Alexandria 分别在生物医药文献分析和企业知识管理中展现了从非结构数据中挖掘知识的能力。
此外,人工智能的模拟与生成能力开辟了科研的新途径。
通过学习现有数据,AI 能够预测新情况,实现对复杂系统,如分子动力学的精准模拟。这对于药物设计和材料科学等领域是重大进展,因为深度神经网络能够基于分子间作用信息,准确模拟原子级行为。
合成数据的运用不仅增强了模型的预测能力,还在保护个人隐私和减少数据偏见方面展现出巨大潜力,进一步推动了科研的深度和广度。
另外,AI 技术也推动了科学研究的自动化变革。除了最基础的代码编写、文献检索、论文撰写等劳动密集型任务,自动化工具(如
Deepmind
的 GNoME)与智能机器人也能自动化执行假设验证、材料探索、实验设计等任务,从而显著提升科研生产力。
图丨利用图形网络进行材料探索的 AI 工具 GNoME,曾发现 220 万个新晶体(来源:Deepmind)
第二个方面,除了方法论层面上的改变,人工智能更从多个维度上影响了科学事业的本质。
具体而言,人工智能技术的发展依赖于数字基础设施与人力资源的紧密结合。数字基础设施构成了 AI 应用的地基,它涵盖了从数据采集的前端设备、个人计算机,到处理大量数据集所必需的超级计算机,比如 HPC-UK 和 EuroHPC JU 中的高级计算设施。
这些基础设施为处理和分析大数据提供了必要的计算能力,推动了科研活动中对数据的深度挖掘和利用。
与此同时,与之配套的是对人力资本的重新配置与技能要求的转变。在 AI 科研的背景下,除了传统的科研人员,还需要专门从事数据收集、清洗、标注的工作人员,以及专注于算法设计、测试和实施的专家团队。
这些工作不仅要求高度的专业技能,还需要对 AI 技术有深刻理解,给科研工作提出了更多的新要求。
此外,随着云计算技术的发展,科研团队不再受限于本地物理设施,可以灵活利用如亚马逊网络服务(AWS)、甲骨文云基础设施等云平台,实现数据存储与处理,降低了对本地硬件投资的需求,进一步促进了科研资源的高效分配与利用。
当前,
科学研究领域日益以大数据为中心,这种趋势显著改变了科研工作的面貌
。体量庞大的异构数据数据与其他数据集的结合为科学事业带来了重要的机遇。
例如 AI 技术在应对疫情或是气候变化等全球性挑战上所展现出的潜力。
图丨华为的盘古天气预测模型(来源:
Nature
)
未来,科研活动将更加侧重于人工智能与大数据的融合,但这一转型的持续性有赖于能否获得足够强大的计算基础设施,以有效处理复杂的大型数据集。
同时,大数据研究的主导地位对那些依赖有限或片段数据的研究领域构成了挑战。
若管理不当,可能导致资源和关注向易于数据获取的方向倾斜,进而忽视那些难以大规模收集原始数据的重要研究主题或区域。
为了弥补数据不足,数据增强技术和合成数据的应用变得日益重要,尤其在诸如罕见疾病研究的场景中,人工智能在小样本数据研究上的潜力也得到了充分展示。
图丨波恩大学研究人员利用深度神经网络和计算面部分析来加快对超罕见和新型疾病的诊断(来源:
AJMG
)
此外,在人工智能时代,科学的跨学科研究的重要性格外突出。要充分发挥人工智能在解决科学问题上的潜力,并将此转化为实际效益,需要计算机科学家与各领域专家之间的紧密合作。
计算机科学家需要理解其他领域的研究,以有效应用人工智能;而非计算机科学家也需掌握人工智能工具,以增强其研究方法。跨学科合作能够融合多元知识,构建更为精确的模型,推动纯粹的科学探索而非仅仅追求商业价值。
如阿兰·图灵研究所等机构,都在积极促进这种跨学科交融的文化。但组织结构的孤立和跨领域职业路径的缺失限制了这一进程的发展。
人工智能研究的另一个关键方向是融合人类专业知识与自动化技术的优势。
AI 既可以作为人类研究者的辅助工具,增强其能力,也可以独立承担探索任务,实现研究过程的自动化。而关键就在于,需要在这两者之间,保持人类科学家的核心作用,
特别是在科学理解和方向把握等方面
。
随着 AI 工具的广泛应用,存在一种风险,即科学家可能陷入“幻觉”,误以为自己完全掌握了由复杂算法生成的结论。
因此,深入探索“人机协作”模式,
明确人工智能作为人类思维的补充,以及确保人类监督能保证研究质量正是当务之急
。
图丨人工智能促进科学理解的三种可能方式(来源:Royal Society)
第三个方面,在 AI 科研中,数据的质量往往是决定性的因素,如查尔斯·巴贝奇的名言“垃圾进,垃圾出”,这一准则至今依旧适用。
确保人工智能模型训练所用的数据集高质量,意味着在数据的全生命周期中必须妥善处理信任度、访问权限、偏见、可用性及不同数据源间互操作性等核心问题。
科研实验中累积的数据量极为庞大,尤其是在基因组学、高能物理、气候科学和天文学等前沿领域。事件地平线望远镜(EHT)就是一个典型例证,它通过全球十台望远镜每晚记录 1PB 数据,首次捕捉到了黑洞图像,其数据量级达到了十分惊人的程度。
数据的多样性则进一步使得数据的互操作性变得复杂,目前在处理异构数据方面还存在诸多挑战。
数据的共享在一定程度上能够为上述问题提供帮助,而相关的数据机构在促进研究人员获取数据方面就发挥着重要作用,它们不仅保护敏感数据并控制访问权限,还负责数据整合、开放数据集的创建、数据标准的维护等工作。
但同时,敏感数据共享带来的安全性问题,也有待学界进一步探索相关的解决措施,以确保能在安全而便利的情况下共享数据。
人工智能技术给科学研究带来了哪些挑战和风险?
除了机遇,技术上的革新也带来各种有待解决的新问题。首当其冲的,就是基于人工智能的研究的完整性和可信性问题。
在科研领域实现人工智能的负责任应用,首先要建立起对该技术的信任。而这种信任的前提是,AI 系统及其分析输出应当是可靠的、低误差且值得信赖的。然而,伴随 AI 技术在科研中的广泛应用,科学严谨性和完整性却面临着若干挑战。
长久以来,科学遵循着从假设到实验再到理论验证的循环,这一传统可追溯至古代学者哈桑·伊本·海赛姆的工作,其核心在于寻求现象背后的可解释原理。
图丨哈桑·伊本·海赛姆(来源:Wikipedia)
但人工智能,特别是深度学习技术,虽然能从复杂的大数据集中挖掘出非直观的关系,却也因为其“黑箱”特性而难以被彻底理解。
当研究成果高度依赖于难以阐释的人工智能模型时,科学家们可能难以清晰阐述结论的生成逻辑,导致这些发现难以按照传统的科学标准被同行审核或复制。
作为科学研究的基石,可重复性要求其他研究者能够验证原有发现,重复实验并获得一致结果。在 AI 科研的语境下,
这不仅意味着复现研究方法,还包括提供能够复制使用的代码、原始数据,以及实验运行时的全部环境条件,如计算平台、硬件配置和软件版本
。
如果研究者过于依赖 AI 进行数据解析,却无法清晰阐述结论的推导过程或实现研究的复现,那么该研究将难以通过同行评审的检验。
进一步说,
研究结果的不可验证性可能导致期望膨胀、对准确性的过度自信,甚至推导出基于错误关联的错误结论,并波及至其他学科领域,乃至整个科学界。
例如,普林斯顿大学在 2023 年的一项研究就发现,数据泄露问题(机器学习应用中因训练数据问题或其他原因引发的常见错误)影响到了包括医学等高风险领域在内的 17 个科学领域中的 294 篇论文,波及范围极广。
图丨相关论文(来源:
Patterns
)
进而,
AI 实验再现性及所得结果可信度就会遭到广泛质疑。这种不可重现性不仅会威胁科学的内在价值,还可能对社会构成风险。
因此,
确保 AI 驱动研究的可重复性,是维护科研诚信、避免误解和误用的关键所在。
另一方面,随着人工智能技术在科学界的广泛应用,数据处理的公平性、隐私保护,以及算法偏见、算法安全等伦理问题也是目前面临的重大挑战之一。
首先,训练数据和算法设计中可能内嵌的偏见,会使得 AI 的应用进一步
加剧社会不平等
。在医疗 AI 应用中,算法偏见可致误诊、不适当治疗,扩大健康差异。
同时,AI 在科研资金分配和论文评审中的应用,虽提高了效率,但也可能无意中复制并放大性别、地域或学术机构的既有偏见,损害边缘群体的职业机会。
其次,大语言模型的普及也带来新的道德与安全问题。LLMs 在加速学术创作的同时,也生成了各类虚假的科学信息。
这类模型在无恶意的情况下也可能创造不实的事实、数据和引用,产生“幻觉”,即生成看似真实却与实际不符的输出。
例如,Meta 基于海量科学文献训练的大模型 Galactica,虽然本意图给科研提供帮助,却因为生成误导性信息,在上线三天后就光速下架。
图丨相关文章(来源:MIT Technology Review)
类似的现象不仅会提高基于网络数据训练的新模型采用错误信息的风险,也会损害公众对科学的信任。
同时,原本旨在促进科研进步的 AI 系统也可能被恶意改造或误用,导致负面后果。
例如,药物发现领域的 AI 工具,原本设计用于治疗罕见疾病,却能被迅速调整为生成高毒性化学物质的工具,所体现出的就是技术滥用的潜在风险。这需要加强对 AI 应用的监管,以防范其恶意使用,如制造生化武器。
图丨相关论文(来源:
Nature machine intelligence
)
另外,数据安全和模型稳健性也面临着新的挑战,数据中毒和对抗性机器学习攻击也是我们面临的威胁。
攻击者可以通过巧妙植入错误或操控过的数据,在不引起注意的情况下欺骗机器学习模型,严重破坏模型的准确性和可靠性。这就要求科学家在构建AI模型时,增强其对数据操纵的抵抗力。
除了上述风险,AI发展的各种成本也不容忽视。
这一方面体现在其给环境造成的负担,因为大规模数据处理不仅消耗大量能源,还显著加剧碳排放,
与数据中心相关的温室气体排放已经相当于整个航空业
。
另一方面,在 AI 发展的背后,人力成本和伦理问题同样突出。尽管 AI 往往被视为“自动化”的典范,但 AI 系统的开发与维护实际上高度依赖于广泛的人力投入,包括数据标注、模型训练等。