专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
目录
相关文章推荐
gooood谷德设计网  ·  朱小地:建筑是最大的公共艺术品 ·  昨天  
今晚报  ·  天津又一所“实验小学”,即将投用! ·  昨天  
今晚报  ·  天津又一所“实验小学”,即将投用! ·  昨天  
君哥说房  ·  2025老黄埔各大楼盘客观点评 ·  2 天前  
君哥说房  ·  2025老黄埔各大楼盘客观点评 ·  2 天前  
gooood谷德设计网  ·  北京招聘 | 大屿建筑事务所 – ... ·  2 天前  
51好读  ›  专栏  ›  机器学习初学者

《自然》发文:中国廉价、开放的人工智能模型DeepSeek让科学家们兴奋不已

机器学习初学者  · 公众号  ·  · 2025-01-27 16:39

正文

来源:信息与反思

作者:伊丽莎白·吉布尼

中国廉价、开放的人工智能模型DeepSeek让科学家们兴奋不已

,NEWS 23 January 2025

(中文由原文机器翻译)

DeepSeek-R1执行的推理任务与OpenAI的o1级别相同,并且对研究人员开放。

一个名为DeepSeek-R1的中国制造的大型语言模型让科学家们感到兴奋,它是OpenAI o1等“推理”模型的一个负担得起且开放的竞争对手。

这些模型在类似于人类推理的过程中逐步生成响应。这使得它们比早期的语言模型更擅长解决科学问题,并可能使它们在研究中有用。1月20日发布的R1的初步测试表明,它在化学、数学和编码方面的某些任务上的性能与o1相当,这在OpenAI于9月发布时让研究人员惊叹不已。

“这太疯狂了,完全出乎意料,”人工智能研究员、英国人工智能咨询公司DAIR的联合创始人Elvis Saravia说。AI在X上写道。

R1脱颖而出还有另一个原因。构建该模型的杭州初创公司DeepSeek将其发布为“开放权重”,这意味着研究人员可以研究和构建该算法。根据麻省理工学院的许可证发布,该模型可以自由重用,但由于其训练数据尚未提供,因此不被认为是完全开源的。

德国埃尔兰根马克斯·普朗克光科学研究所人工科学家实验室负责人Mario Krenn说:“DeepSeek的开放性非常显著。”。相比之下,OpenAI在加利福尼亚州旧金山建立的o1和其他模型,包括其最新的o3,“基本上是黑匣子”,他说。

人工智能幻觉无法阻止,但这些技术可以限制它们的伤害。

DeepSeek尚未公布培训R1的全部费用,但它向使用其界面的人收取的费用约为o1运行费用的三十分之一。该公司还创建了R1的迷你“蒸馏”版本,使计算能力有限的研究人员能够使用该模型。Krenn说,“使用o1的实验成本超过300英镑,而使用R1的实验成本不到10美元。”。“这是一个巨大的差异,肯定会在未来的采用中发挥作用。”

R1是中国大型语言模型(LLMs)繁荣的一部分。DeepSeek从一家对冲基金分拆出来,上个月发布了一款名为V3的聊天机器人,该机器人的表现优于主要竞争对手,尽管其预算很小。专家估计,租用训练模型所需的硬件大约需要600万美元,而Meta的Llama 3.1 405B则需要6000万美元,使用了11倍的计算资源。

围绕DeepSeek的部分传言是,尽管美国的出口管制限制了中国公司获得为人工智能处理设计的最佳计算机芯片,但DeepSeek还是成功地制造了R1。华盛顿州西雅图的人工智能研究员François Chollet表示:“它来自中国的事实表明,高效利用资源比单纯的计算规模更重要。”。

华盛顿贝尔维尤的技术专家阿尔文·王·格雷林(Alvin Wang Graylin)在总部位于台湾的沉浸式技术公司HTC工作,他在X上写道,DeepSeek的进展表明,“美国曾经的领先优势已经显著缩小。”

LLMs在数十亿个文本样本上进行训练,将它们剪切成称为“标记”的单词部分,并在数据中学习模式。这些关联使模型能够预测句子中的后续标记。但LLMs倾向于编造事实,这是一种被称为“幻觉”的现象,并且经常难以通过推理解决问题。

与o1一样,R1使用“思维链”方法来提高LLM解决更复杂任务的能力,包括有时回溯和评估其方法。DeepSeek通过使用强化学习“微调”V3来制作R1,强化学习奖励模型达到正确答案并以概述其“思维”的方式解决问题。

人工智能竞争对手: 柱状图显示了DeepSeek进行的测试结果,该测试针对OpenAI的o1模型在数学、编码和推理任务上测试了其大型语言模型的三个版本。 DeepSeek-R1在数学和编码基准测试中击败或与o1相媲美。

很难说基准测试是否捕捉到了模型推理或概括的真正能力,或者仅仅是通过这些测试。但剑桥大学计算机科学家Marco Dos Santos表示,由于R1是开放的,研究人员可以访问它的思想链。他说:“这使得模型的推理过程具有更好的可解释性。”。

科学家们已经在测试R1的能力。Krenn挑战了这两个竞争对手的模型,根据它们的有趣程度对3000个研究想法进行排序,并将结果与人工排名进行比较。在这一指标上,R1的表现略低于o1。但Krenn说,在量子光学的某些计算中,R1击败了o1。“这相当令人印象深刻。”

China’s cheap, open AI model DeepSeek thrills scientists

DeepSeek-R1 performs reasoning tasks at the same level as OpenAI’s o1 — and is open for researchers to examine.

By
Elizabeth Gibney

Chinese firm DeepSeek debuted a version of its large language model last year.Credit: Koshiro K/Alamy

A Chinese-built large language model called DeepSeek-R1 is thrilling scientists as an affordable and open rival to ‘reasoning’ models such as OpenAI’s o1.

These models generate responses step-by-step, in a process analogous to human reasoning. This makes them more adept than earlier language models at solving scientific problems and could make them useful in research. Initial tests of R1, released on 20 January, show that its performance on certain tasks in chemistry, mathematics and coding is on par with that of o1 — which wowed researchers when it was released by OpenAI in September.

“This is wild and totally unexpected,” Elvis Saravia, an AI researcher and co-founder of the UK-based AI consulting firm DAIR.AI, wrote on X.

R1 stands out for another reason. DeepSeek, the start-up in Hangzhou that built the model, has released it as ‘open-weight’, meaning that researchers can study and build on the algorithm. Published under an MIT licence, the model can be freely reused but is not considered fully open source, because its training data has not been made available.

“The openness of DeepSeek is quite remarkable,” says Mario Krenn, leader of the Artificial Scientist Lab at the Max Planck Institute for the Science of Light in Erlangen, Germany. By comparison, o1 and other models built by OpenAI in San Francisco, California, including its latest effort o3 are “essentially black boxes”, he says.

AI hallucinations can’t be stopped — but these techniques can limit their damage

DeepSeek hasn’t released the full cost of training R1, but it is charging people using its interface around one-thirtieth of what o1 costs to run. The firm has also created mini ‘distilled’ versions of R1 to allow researchers with limited computing power to play with the model. An “experiment that cost more than £300 with o1, cost less than $10 with R1,” says Krenn. “This is a dramatic difference which will certainly play a role its future adoption.”

Challenge models

R1 is the part of a boom in Chinese large language models (LLMs). Spun out of a hedge fund, DeepSeek emerged from relative obscurity last month when it released a chatbot called V3, which outperformed major rivals, despite being built on a shoestring budget. Experts estimate that it cost around $6 million to rent the hardware needed to train the model, compared with upwards of $60 million for Meta’s Llama 3.1 405B, which used 11 times the computing resources.

Part of the buzz around DeepSeek is that it has succeeded in making R1 despite US export controls that limit Chinese firms’ access to the best computer chips designed for AI processing. “The fact that it comes out of China shows that being efficient with your resources matters more than compute scale alone,” says François Chollet, an AI researcher in Seattle, Washington.







请到「今天看啥」查看全文