《自然》测评大模型：全能型or牛马型？你用的AI什么型？

科研圈 · 公众号 · 科研 · 2025-02-28 16:55

正文

可供选择的大模型很多，有些擅长写代码，有些擅长整合信息。

图片来源：Pixabay

本文转载自公众号“自然系列”

原文作者：Elizabeth Gibney

几乎每周都会出现一个新的、看起来更厉害的人工智能（AI）工具，让研究人员想要一探究竟。无论是用来改手稿、写代码、提假说，现在的研究人员比以往有着更多的生成式 AI 工具可供选择。

每个大语言模型（LLM）适用于不同的任务。有些以免费对话机器人的形式，有些则以付费应用程序编程接口（API）的形式——可与其他软件集成。还有一些可供下载，让研究人员能创建自己的自定义模型。

虽然 LLM 能生成类似人类的回答，但如果只靠它们自己，还是很容易出错的，福瑞德·哈金森癌症研究中心的数据科学家 Carrie Wright 说道。

所以，哪个 LLM 适合哪种任务？在此，科研人员与《自然》分享了他们当前最喜欢用的LLM，供读者借鉴。

o3-mini（推理型）

2022 年，总部位于加州旧金山的 OpenAI 通过推出免费的 ChatGPT 对话机器人，让世界认识了 LLM。 科学家主要用ChatGPT 搜索信息，或是作为写作助手 ，比如草拟摘要，但更新的模型扩展了该技术的应用潜力。去年 9 月，OpenAI 推出了这之后的最新力作：让科学家啧啧称奇的 o1 “推理模型”，随即又在 12 月推出了更先进的 o3。这两个推理模型都比一个 LLM 独立工作的速度要慢，因为它们接受的是一种逐步式回答的训练方式。 这种“思维链”过程主要是为了模拟人类推理过程，这帮助它们突破了科学和数学的高基准。 也让它们更擅长技术任务，如解决代码问题和对数据进行重新格式化。

1 月 20 日，中国杭州一家默默无闻的初创公司 DeepSeek 推出了一个竞品推理模型。之后，OpenAI 便更新了一系列新工具，包括速度更快的 o3-mini——对话机器人注册用户可免费使用的推理模型，此外还有 deep research——部分付费用户可将数百个网站的信息整合成带引用的报告，有点类似做一篇文献综述。旧金山初创公司 FutureHouse 的化学家、AI 专家 Andrew White 表示， 这个模型和其他工具一起用时是最出色的。

在一个新的数学证明中拆解不熟悉的概念，o3-mini 能“做得非常好”，英国牛津大学数学家、AI研究员 Simon Frieder 说道。但他说，即使是最好的模型，“也完全谈不上是数学家的对手”。

DeepSeek（全能型）

DeepSeek-R1 于上月推出，其能力与 o1 不相上下，可通过应用程序接口使用，成本仅为 o1 的一小部分。 它和 OpenAI 模型的差别还在于它是“开放权重”（open weight），也就是说即使它的训练数据没有公开，但任何人都能下载底层模型，并修改用于特定的科研项目。 R1 “解锁了一个新范式”，让这个群体里——尤其是资源相对有限的人——也能构建专门的推理模型 ，White 说。

运行完整模型需要使用强大的计算芯片，这是很多专业学者所欠缺的。但香港中文大学（深圳）的计算机科学家王本友等研究人员正在构建能用单个机器运行或训练的版本。 和 o1 一样，DeepSeek-R1 的强项是数学题和写代码。 但它对生成假说一类的任务也很在行，White 说。这是因为 DeepSeek 选择公布该模型的完整“思维链”， 这能让研究人员更好地调整接下来的问题，最终优化模型的输出 ，他说。这种透明性对于医疗诊断或许也是很重要的能力。王本友正在用实验锻炼R1——使用该模型类似推理的能力构建一个从患者评估到诊断和治疗建议的清晰、符合逻辑的途径。

DeepSeek-R1 也有一些缺点。 这个模型好像有一个很长的“思维”过程，这会减慢它的速度 ，使它在搜索信息或头脑风暴上的作用偏弱。 对于向其 API 和对话机器人输入数据的安全性担忧，导致一些政府禁止国家机构的工作人员使用这个对话机器人。DeepSeek 也不像它的商业对手那样采取很多措施来防止模型生成伤害性的输出。添加过滤器来防止这类输出——如制作武器的步骤——需要时间和行动。虽然这肯定不是故意的，但缺少防护栏确实令人担忧，Simon 说。

OpenAI 还表示 DeepSeek 可能对其模型采取了“不适当的蒸馏”，这种方法是指用另一种算法的输出来训练模型，这在 OpenAI 的使用条件中是禁止的。

在本文发表前，我们无法联系到 DeepSeek 对这些评价作出回复。

一些研究人员认为这种蒸馏很正常，并且乐于使用 R1，但也有人担心使用的工具未来可能有诉讼风险。 一旦使用该模型被认为有违期刊的伦理标准，使用 R1 的科研人员可能会被要求撤稿，EIT Manufacturing 的 AI 法律律师 Ana Catarina De Alencar 表示。使用 OpenAI 和其他被指违反知识产权的公司的模型，也可能面临同样的处境，De Alencar 说。新闻机构表示，这些公司是在未经允许的情况下使用新闻报道来训练它们的模型。

Llama（牛马型）

Llama 一直是科研界的“必用” LLM。 作为加州的 Meta AI 在 2023 年首次发布的开放权重模型家族，各个版本的 Llama 仅在开放科学平台 Hugging Face 上就已下载了 6 亿多次。 能被下载和扩展可能是“科研界如此喜欢 Llama 的原因” ，福瑞德·哈金森癌症研究中心的数据科学家 Elizabeth Humphries 说。

如果要处理有所有权或受保护的数据，能在个人或机构服务器上运行 LLM 就是必需的，这能防止敏感信息反馈给其他用户或开发者，Wright 说。

已经有研究人员扩展了 Llama 的模型，让 LLM 预测材料的晶体结构，以及用来模拟量子计算机的输出。北卡罗来纳大学教堂山分校的机器学习科学家陈天龙表示，Llama 很适合用来模拟量子计算机，因为让它在改进后理解专门量子语言是相对容易的。

但 Llama 要求用户在使用前获得允许，对有些人来说，是个小的摩擦点，White 说，因此， 其他开放模型现在往往是科研首选 ，如西雅图艾伦人工智能研究所开发的 OLMo，或是杭州阿里云推出的 Qwen。 DeepSeek 的高效底层模型 V3 也是构建科研模型的一个竞品基础模型。

Claude（代码型）

Simon 说， 硅谷的很多人都认为 Claude 3.5 Sonnet 是写代码神器 。Claude 3.5 Sonnet 来自旧金山的 AI 公司 Anthropic，除了文本外还能读取视觉信息，如图表等。此外， 它的一个模式还能远程操作用户电脑 ，具备操控其他软件的潜力。

Claude 模型的写作风格也深受推崇。 ChatGPT 等 LLM 在删除术语时，也省略了重要信息，Wright 说。而 Claude 模型在通俗表达的同时能保留其原始含义。她说，使用该模型着手撰写经费申请或给代码添加注释时，这一点是加分项。

在一个基于数据驱动的科学任务的基准测试中，Claude 3.5 Sonnet 在代码挑战中的表现很好，而这些任务都是选自生物信息学和计算机化学等领域的真实论文，俄亥俄州立大学的AI研究员孙欢表示。虽然 Claude 3.5 Sonnet 作为在线对话机器人可免费使用，就和 OpenAI 的模型一样，但研究人员只有通过一个付费 API 使用才能完全集成。孙欢说： “随着更便宜的开源模型不断强大，我相信人们会更喜欢用这些，而不是闭源的 API。”

Olmo（真开源型）

如果研究人员想要了解 LLM 表面之下的运作原理，就需要比 Llama 和 DeepSeek 更透明的模型。 开放权重还不够，真正的开源模型会公开算法的训练数据，以及用来训练和评估模型的代码，Hugging Face 的研究员 Lewis Tunstall 说。目前，这类模型中的顶尖选手是 OLMo 2。

研究这类模型，就能将 LLM 中的偏见溯源到其训练数据，还能进一步理解算法如何生成回答，从而提升效率。 当前，任何开源模型的主要缺陷在于，研究人员需要一定的专业知识才能运行，但随着越来越多的免费实操课程的出现， “准入门槛每天都在降低” ，Tunstall 说。

他表示，如果法院确实判处使用版权内容训练AI是违法的，那么利用允许重复使用和修改的“许可”数据集训练的模型——比如 Hugging Face 主导的重新创造 DeepSeek-R1 的行动——可能成了仅有的安全模型了。

原文以What are the best AI tools for research? Nature’s guide标题发表在2025年2月17日《自然》的新闻 版块上

© nature

Doi：10.1038/d41586-025-00437-0

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至朋友圈，如需转载，请邮件[email protected]。未经授权的翻译是侵权行为，版权方将保留追究法律责任的权利。

▽ 精彩回顾 ▽

《自然》测评大模型：全能型or牛马型？你用的AI什么型？

正文

请到「今天看啥」查看全文