近日,中国 AI 大模型创业领域涌现出一匹耀眼的黑马 ——DeepSeek(深度求索)。这家专注于前沿大语言模型(LLM)及相关技术研发的创新型科技公司,在 1 月 20 日正式发布了 DeepSeek-R1 大模型,一举成为全球 AI 领域的焦点,引发国际社会的广泛关注与热烈讨论。
1 月 27 日,苹果 App Store 中国区免费榜数据显示,DeepSeek 强势登顶榜首。与此同时,其在美区苹果 App Store 免费榜的排名也从 26 日的第六位一路飙升至第一位,成功超越
ChatGPT
、Meta 旗下社交媒体平台 Threads、Google Gemini、Microsoft Copilot 等一众美国科技巨头的生成式 AI 产品,着实令人惊叹。
DeepSeek 方面表示,DeepSeek-R1 在数学、代码以及自然语言推理等任务上,性能表现与 OpenAI o1 正式版不相上下。这一消息如同重磅炸弹,瞬间震动了全球 AI 圈。
在 DeepSeek-R1 大模型发布之前,DeepSeek 公司就已凭借 “高性价比” 在 AI 圈崭露头角。
公开资料显示,DeepSeek 于 2023 年 7 月 17 日正式成立。自成立以来,公司便致力于开发先进的大语言模型和相关技术。2023 年 11 月 2 日,DeepSeek 推出首个模型
DeepSeek Coder
,该模型不仅免费供商业使用,还完全开源,这一举措在当时就引起了不小的轰动。
2023 年 11 月 29 日,参数规模达到 67B 的 DeepSeek LLM 上线,其性能接近 GPT - 4,同时发布的聊天版本 DeepSeek Chat 也受到了广泛关注。
2024 年 5 月,DeepSeek-V2 震撼发布,它在性能上与 GPT-4 Turbo 相当,然而价格却只有 GPT-4 的百分之一,超高的性价比让整个 AI 行业为之侧目。
到了 2024 年 12 月底,DeepSeek-V3 正式亮相。这款模型的性能与 GPT-4o 和 Claude Sonnet 3.5 等顶尖模型相近,但其训练成本却低得惊人。整个训练仅在 2048 块英伟达 H800 GPU 集群上完成,花费约 557.6 万美元。相比之下,GPT-4o 等模型至少要在万个 GPU 量级的计算集群上训练,且使用的是性能更为优越的 H100 GPU,训练成本约 1 亿美元。
DeepSeek-V3 发布后,英伟达高级研究科学家 Jim Fan 在社交媒体上毫不吝啬地称赞 DeepSeek 是 2024 年度开源大语言模型领域的 “最大黑马”。
近期推出的 DeepSeek-R1 模型,在数学能力基准测试中展现出了强大的实力,准确率达到了 77.5%,与 OpenAI 的 o1 不相上下。在编程领域的 Codeforces 评测中,DeepSeek-R1 更是取得了 2441 分的优异成绩,高于 96.3% 的人类参与者。
DeepSeek R1 备受关注的焦点主要集中在两个方面:低训练与使用成本,以及开源。
与 OpenAI “海量数据投喂” 的方式不同,DeepSeek 独辟蹊径,利用算法对数据进行总结分类,经过选择性处理之后再输送给大模型。这种独特的方法不仅提高了训练效率,还大幅降低了成本。
在 DeepSeek 的高性价比模型发布后,OpenAI 创始成员 Andrej Karpathy 表示,或许未来不再需要超大规模的 GPU 集群。
除了极致的性价比,DeepSeek 大模型脱颖而出的另一个关键因素是其代码和训练方法完全开源。目前,DeepSeek-R1 已经一跃成为开源社区
Hugging Face
上下载量最高的大模型,下载量高达 10.9 万次。这意味着全球的开发人员都在积极探索这一模型,以助力他们自己的 AI 开发。
DeepSeek 创始人梁文锋表示,开源更像是一种文化行为,而非单纯的商业行为。在颠覆性的技术面前,闭源形成的护城河是短暂的,即使 OpenAI 闭源,也无法阻止被超越。
加州大学伯克利分校 AI 政策研究员 Ritwik Gupta 表示,DeepSeek-R1 的出现有力地证明了 “AI 能力没有技术护城河”。他还指出,中国庞大的系统工程师人才库是一大优势,他们懂得如何充分利用计算资源,从而更高效地训练和运行模型。
Meta 首席人工智能科学家
杨立昆
也在社交媒体上发表看法,认为 DeepSeek 成功的最大意义,并非来自中国竞争对手的威胁加剧,而是彰显了保持人工智能模型开源的价值,让任何人都能从中受益,这正是开放研究和开源的强大力量。