《自然》测评大模型：全能型or牛马型？你用的AI什么型？

NaturePortfolio · 公众号 · 科研 · 2025-02-25 12:40

正文

原文作者：Elizabeth Gibney

可供选择的大模型很多，有些擅长写代码，有些擅长整合信息。

来源：Lionel Bonaventure/AFP via Getty

几乎每周都会出现一个新的、看起来更厉害的人工智能（AI）工具，让研究人员想要一探究竟。无论是用来改手稿、写代码、提假说，现在的研究人员比以往有着更多的生成式AI工具可供选择。

每个大语言模型（LLM）适用于不同的任务。有些以免费对话机器人的形式，有些则以付费应用程序编程接口（API）的形式——可与其他软件集成。还有一些可供下载，让研究人员能创建自己的自定义模型。

虽然LLM能生成类似人类的回答，但如果只靠它们自己，还是很容易出错的，福瑞德·哈金森癌症研究中心的数据科学家Carrie Wright说道。

所以，哪个LLM适合哪种任务？在此，科研人员与《自然》分享了他们当前最喜欢用的LLM，供读者借鉴。

o3-mini（推理型）

2022年，总部位于加州旧金山的OpenAI通过推出免费的ChatGPT对话机器人，让世界认识了LLM。 科学家主要用ChatGPT搜索信息，或是作为写作助手 ，比如草拟摘要，但更新的模型扩展了该技术的应用潜力。去年9月，OpenAI推出了这之后的最新力作：让科学家啧啧称奇的o1“推理模型”，随即又在12月推出了更先进的o3。这两个推理模型都比一个LLM独立工作的速度要慢，因为它们接受的是一种逐步式回答的训练方式。 这种“思维链”过程主要是为了模拟人类推理过程，这帮助它们突破了科学和数学的高基准。 也让它们更擅长技术任务，如解决代码问题和对数据进行重新格式化。

1月20日，中国杭州一家默默无闻的初创公司DeepSeek推出了一个竞品推理模型。之后，OpenAI便更新了一系列新工具，包括速度更快的o3-mini——对话机器人注册用户可免费使用的推理模型，此外还有deep research——部分付费用户可将数百个网站的信息整合成带引用的报告，有点类似做一篇文献综述。旧金山初创公司FutureHouse的化学家、AI专家Andrew White表示， 这个模型和其他工具一起用时是最出色的。

在一个新的数学证明中拆解不熟悉的概念，o3-mini能“做得非常好”，英国牛津大学数学家、AI研究员Simon Frieder说道。但他说，即使是最好的模型，“也完全谈不上是数学家的对手”。

DeepSeek（全能型）

DeepSeek-R1 于上月推出，其能力与 o1 不相上下，可通过应用程序接口使用，成本仅为o1的一小部分。 它和OpenAI模型的差别还在于它是“开放权重” （open weight），也就是说即使它的训练数据没有公开，但任何人都能下载底层模型，并修改用于特定的科研项目。 R1“解锁了一个新范式”，让这个群体里——尤其是资源相对有限的人——也能构建专门的推理模型 ，White说。

运行完整模型需要使用强大的计算芯片，这是很多专业学者所欠缺的。但香港中文大学（深圳）的计算机科学家王本友等研究人员正在构建能用单个机器运行或训练的版本。 和o1一样，DeepSeek-R1的强项是数学题和写代码。 但它对生成假说一类的任务也很在行，White说。这是因为DeepSeek选择公布该模型的完整“思维链”， 这能让研究人员更好地调整接下来的问题，最终优化模型的输出 ，他说。这种透明性对于医疗诊断或许也是很重要的能力。王本友正在用实验锻炼R1——使用该模型类似推理的能力构建一个从患者评估到诊断和治疗建议的清晰、符合逻辑的途径。

DeepSeek-R1也有一些缺点。 这个模型好像有一个很长的“思维”过程，这会减慢它的速度 ，使它在搜索信息或头脑风暴上的作用偏弱。 对于向其API和对话机器人输入数据的安全性担忧，导致一些政府禁止国家机构的工作人员使用这个对话机器人。DeepSeek也不像它的商业对手那样采取很多措施来防止模型生成伤害性的输出。添加过滤器来防止这类输出——如制作武器的步骤——需要时间和行动。虽然这肯定不是故意的，但缺少防护栏确实令人担忧，Simon说。

OpenAI还表示DeepSeek可能对其模型采取了“不适当的蒸馏”，这种方法是指用另一种算法的输出来训练模型，这在OpenAI的使用条件中是禁止的。

在本文发表前，我们无法联系到DeepSeek对这些评价作出回复。

一些研究人员认为这种蒸馏很正常，并且乐于使用R1，但也有人担心使用的工具未来可能有诉讼风险。 一旦使用该模型被认为有违期刊的伦理标准，使用R1的科研人员可能会被要求撤稿，EIT Manufacturing的AI法律律师Ana Catarina De Alencar表示。使用OpenAI和其他被指违反知识产权的公司的模型，也可能面临同样的处境，De Alencar说。新闻机构表示，这些公司是在未经允许的情况下使用新闻报道来训练它们的模型。

Llama（牛马型）

Llama一直是科研界的“必用”LLM。 作为加州的Meta AI在2023年首次发布的开放权重模型家族，各个版本的Llama仅在开放科学平台Hugging Face上就已下载了6亿多次。 能被下载和扩展可能是“科研界如此喜欢Llama的原因” ，福瑞德·哈金森癌症研究中心的数据科学家Elizabeth Humphries说。

如果要处理有所有权或受保护的数据，能在个人或机构服务器上运行LLM就是必需的，这能防止敏感信息反馈给其他用户或开发者，Wright说。

已经有研究人员扩展了Llama的模型，让LLM预测材料的晶体结构，以及用来模拟量子计算机的输出。北卡罗来纳大学教堂山分校的机器学习科学家陈天龙表示，Llama很适合用来模拟量子计算机，因为让它在改进后理解专门量子语言是相对容易的。

但Llama要求用户在使用前获得允许，对有些人来说，是个小的摩擦点，White说，因此， 其他开放模型现在往往是科研首选 ，如西雅图艾伦人工智能研究所开发的OLMo，或是杭州阿里云推出的Qwen。 DeepSeek的高效底层模型V3也是构建科研模型的一个竞品基础模型。

Claude（代码型）

Simon说， 硅谷的很多人都认为Claude 3.5 Sonnet是写代码神器 。Claude 3.5 Sonnet来自旧金山的AI公司Anthropic，除了文本外还能读取视觉信息，如图表等。此外， 它的一个模式还能远程操作用户电脑 ，具备操控其他软件的潜力。

Claude模型的写作风格也深受推崇。 ChatGPT等LLM在删除术语时，也省略了重要信息，Wright说。而Claude模型在通俗表达的同时能保留其原始含义。她说，使用该模型着手撰写经费申请或给代码添加注释时，这一点是加分项。

在一个基于数据驱动的科学任务的基准测试中，Claude 3.5 Sonnet在代码挑战中的表现很好，而这些任务都是选自生物信息学和计算机化学等领域的真实论文，俄亥俄州立大学的AI研究员孙欢表示。虽然Claude 3.5 Sonnet作为在线对话机器人可免费使用，就和OpenAI的模型一样，但研究人员只有通过一个付费API使用才能完全集成。孙欢说： “随着更便宜的开源模型不断强大，我相信人们会更喜欢用这些，而不是闭源的API。”

Olmo（真开源型）

如果研究人员想要了解LLM表面之下的运作原理，就需要比Llama和DeepSeek更透明的模型。 开放权重还不够，真正的开源模型会公开算法的训练数据，以及用来训练和评估模型的代码，Hugging Face的研究员Lewis Tunstall说。目前，这类模型中的顶尖选手是OLMo 2。

研究这类模型，就能将LLM中的偏见溯源到其训练数据，还能进一步理解算法如何生成回答，从而提升效率。 当前，任何开源模型的主要缺陷在于，研究人员需要一定的专业知识才能运行，但随着越来越多的免费实操课程的出现， “准入门槛每天都在降低” ，Tunstall说。

他表示，如果法院确实判处使用版权内容训练AI是违法的，那么利用允许重复使用和修改的“许可”数据集训练的模型——比如Hugging Face主导的重新创造DeepSeek-R1的行动——可能成了仅有的安全模型了。

原文以 What are the best AI tools for research? Nature’s guide 标题发表在2025年2月17日《自然》的新闻 版块上

© nature

Doi：10.1038/d41586-025-00437-0

点击 阅读原文 查看英文原文

点击文字或图片阅读相关文章

中国的平价开源AI模型DeepSeek惊艳全球科学家

《自然》测评大模型：全能型or牛马型？你用的AI什么型？

正文

请到「今天看啥」查看全文