近日
中国AI大模型创业公司
DeepSeek(深度求索)
正式发布DeepSeek-R1大模型
1月27日
苹果App Store中国区免费榜显示
DeepSeek站上首位
同时其在美区苹果App Store免费榜
从26日的第六位飚升至第一位
超越ChatGPT、
Meta旗下社交媒体平台Threads、
Google Gemini、Microsoft Copilot等
美国科技公司的生成式AI产品
DeepSeek表示
DeepSeek-R1在数学、代码
自然语言推理等任务上
性能比肩OpenAI o1正式版
这一消息震动了全球AI圈
迅速引起国际社会
广泛关注与讨论
DeepSeek-R1大模型发布之前
DeepSeek公司就已经因为“性价比高”
而引发AI圈震动
公开资料显示
DeepSeek
成立于2023年7月17日
是一家创新型科技公司
专注于开发先进的
大语言模型(LLM)和相关技术
2023年11月2日
DeepSeek推出
首个模型DeepSeek Coder
该模型免费供商业使用
且完全开源
2023年11月29日
DeepSeek LLM上线
其参数规模达到67B
性能接近GPT-4
同时还发布了
该模型聊天版本DeepSeek Chat
2024年5月
DeepSeek-V2发布
该模型在性能上
比肩GPT-4 Turbo
价格却只有GPT-4的百分之一
2024年12月底
DeepSeek-V3发布
其性能与GPT-4o和Claude Sonnet 3.5等
顶尖模型相近
但训练成本极低
整个训练在2048块
英伟达H800 GPU集群上完成
仅花费约557.6万美元
相比之下
GPT-4o等模型至少要在
万个GPU量级的计算集群上训练
且使用的是性能更为优越的H100 GPU
训练成本约1亿美元
DeepSeek-V3发布后
英伟达高级研究科学家Jim Fan
在社交媒体上表示
DeepSeek是2024年度
开源大语言模型领域的“最大黑马”
近期推出的DeepSeek-R1模型
在数学能力基准测试中
达到了77.5%的准确率
与OpenAI的o1不相上下
在编程领域的Codeforces评测中
达到了2441分的水平
高于96.3%的人类参与者
DeepSeek R1被讨论的焦点
集中在两方面:
低训练与使用成本
以及开源
区别于OpenAI
“海量数据投喂”的方式
DeepSeek利用算法
把数据进行总结分类
经过选择性处理之后
输送给大模型
在提高训练效率的同时
也降低了DeepSeek的成本
在DeepSeek的高性价比模型发布后
OpenAI创始成员
Andrej Karpathy表示
未来或许不需要
超大规模的GPU集群了
除了极致性价比
让DeepSeek大模型
脱颖而出的还有
其代码和训练方法完全开源
目前
DeepSeek-R1已经一跃成为
开源社区Hugging Face上
下载量最高的大模型
达10.9万次
这意味着全球的开发人员
正在试图了解这一模型
以辅助他们自己的AI开发
DeepSeek创始人梁文锋表示
开源更像一个文化行为
而非商业行为
在颠覆性的技术面前
闭源形成的护城河是短暂的
即使OpenAI闭源
也无法阻止被别人赶超
加州大学伯克利分校AI政策研究员
Ritwik Gupta表示
DeepSeek-R1的出现证明了
“AI能力没有技术护城河”
并称中国的系统工程师
人才库比美国大得多
他们懂得如何充分利用计算资源
来更高效地训练和运行模型
Meta首席人工智能科学家杨立昆