专栏名称: 环球科学
《科学美国人》独家授权中文版—《环球科学》杂志—www.huanqiukexue.com
目录
51好读  ›  专栏  ›  环球科学

火遍全球的DeepSeek:科学家是怎么用它的?

环球科学  · 公众号  · 科学  · 2025-02-07 22:00

主要观点总结

DeepSeek的模型在对话机器人app上的应用引起了广泛关注。其推出的平价但强大的AI推理模型DeepSeek-R1,经过测试表现优秀,被科学家视为鼓励使用大语言模型(LLM)的机会。DeepSeek-R1的开源和免费使用模式正在改变科研领域的使用习惯。该模型已在各种任务中展现出潜力,包括数据分析和可视化等科研任务。然而,该模型并非完美,也存在一些挑战和限制。

关键观点总结

关键观点1: DeepSeek-R1的特点和优势

DeepSeek-R1是一个平价但强大的AI推理模型,回答数学和科学问题的能力与o1模型不相上下。它的开放源代码和免费使用模式吸引了很多科学家,能在不同任务中表现出良好的性能。

关键观点2: DeepSeek-R1的应用

DeepSeek-R1的应用广泛,包括在线对话机器人DeepThink,科研人员使用它来训练自己的推理模型。它还能执行数据型科研任务,如生物信息、计算化学、认知神经科学等领域。此外,该模型还能通过微调提升能力。

关键观点3: DeepSeek-R1的挑战和限制

虽然DeepSeek-R1在很多任务中表现出色,但它并非完美。存在模型表现不稳定,对复杂问题的处理不够完善等问题。此外,该模型还面临着如何进一步拓展和提高性能的挑战。


正文


DeepSeek的模型能在一个对话机器人app上使用。来源:Mladen Antonov/AFP via Getty


来源 | 自然系列

撰文 | Elizabeth Gibney

两周前, 一家中国公司推出的DeepSeek-R1让美国股市大幅震荡 ——DeepSeek-R1是一款平价但强大的人工智能 (AI) “推理”模型。


经过反复测试, DeepSeek-R1回答数学和科学问题的能力与o1模型不相上下 ——o1是由加州旧金山OpenAI公司去年9月推出的一款模型,OpenAI的推理模型一直被视为行业顶尖水准。


虽然R1在科研人员想尝试的各种任务上仍力有不逮, 但它让全球科学家有机会根据其学科内的问题,量身训练定制款的推理模型


“基于它的绝佳表现和低成本, 我们相信Deepseek-R1能鼓励更多科学家在日常科研工作中使用大语言模型(LLM),同时不同担心成本问题, ”俄亥俄州立大学的AI研究员Huan Sun说,“几乎所有从事AI的同事和合作者都在谈论它。”



开放季


对于科研人员来说, R1的平价和开源可能会改变传统 :使用它的应用编程接口 (API) ,就能以其专利竞品收取的一小部分费用对这个模型提问;其在线对话机器人DeepThink (深度思考) 的使用更是免费。 科研人员还能在自己的服务器上下载这个模型,免费运行和拓展模型 ——这些都是闭源竞品模型o1办不到的。


R1从1月20日推出以来, “大量研究人员”基于R1或以R1为灵感,尝试训练自己的推理模型 ,加拿大不列颠哥伦比亚大学的AI研究员Cong Lu说道。这从开放科学AI资源库Hugging Face的数据中便可看出——DeepSeek-R1的代码就储存在Hugging Face上。 在模型发布后的一周内,Hugging Face上各版本的R1下载量就超过300万次 包括独立用户已经扩展过的模型。



科研任务


一些初步测试让R1执行数据型科研任务 ——这些任务选自生物信息、计算化学、认知神经科学等领域的真实论文—— 结果R1的表现与o1不相上下 ,Sun说。她的团队让这两个AI模型完成他们创建的一系列问题中的20个任务,这个系列被称为ScienceAgentBench。这些任务包括数据分析和可视化。两个模型只能答对其中约1/3的问题。用API运行R1的成本只要o1的1/13,但R1的“思考”时间比o1更长,Sun说。

R1在数学上也开始崭露头角 英国牛津大学的数学家、计算科学家Frieder Simon让这两个模型给出泛函分析这一抽象领域的一个证明,发现R1的证明比o1的更好。但考虑到这类模型通常会犯的错误,如果想要从这些模型中获益,研究人员本身就要具备鉴别证明水平的能力,他说。

R1令人激动的一大原因在于,它以“open-weight”(开放权重)的形式公开 说明其算法不同部分之间习得的关联可以进一步拓展。下载了R1或其“蒸馏”小模型 (也由DeepSeek发布) 的科学家能通过额外训练提升其能力,这也称为微调。如果有合适的数据集,科研人员或能通过训练,提高该模型在特定科研步骤编写代码的能力。

能在本地系统下载并部署R1也是个加分项 ,Sun说,因为这样科研人员就能掌控他们的数据和研究结果。“对于涉及敏感和隐私数据的学科来说,比如医学研究,这一点尤其重要。”


推理跨越


D eepSeek也搅动了AI科研领域 ,因为它指出了一条能优化无数其他模型的道路,旧金山AI公司Anthropic的联合创始人Jack Clark说。Clark的模型叫Claude。

DeepSeek通过将它的“推理”能力教授给其他大语言模型 (LLM) ——如Meta的Llama——创建了这个蒸馏模型。DeepSeek在1月22日在arXiv上发布的预印本论文 [1] 揭示了这背后的方法:用整理好的来自DeepSeek-R1的80万个逐步式“思维链”回答的样本训练这些大语言模型。

“现在网上有了一个开放权重的模型,你能用它让其他足够强大的基础模型变身为一个AI推理器,”Clark在他的简报Import AI中写道,“全球的AI能力又向前了一步。”

科研人员还在应用“强化学习”——用来创建DeepSeek-R1的试、错、赏技术——但打磨它在特定任务上的应用,Lu说。Lu去年联合创建了“AI Scientist”,这是一个能完成一整套机器学习科研任务的模型,从扫描文献到创建假说再到撰写论文。 通过定义适当的“奖赏信号”,科学家能朝着任何目标训练这个模型 他说。

但DeepSeek-R1还远谈不上完美。 对话机器人DeepThink在o1等大语言模型会“碰壁”的简单任务上也失败了,这类问题包括统计名字中含字母W的美国州的数量。Lu说:“也许有的人认为这个模型能把水变成酒,这只是炒作, 但对于其实际能力来说,它确实是最棒的。”

原文以 Scientists flock to DeepSeek: how they’re using the blockbuster AI model 标题发表在2025年1月29日《自然》的 新闻 版块上

© nature







请到「今天看啥」查看全文