专栏名称: TechWeb
TechWeb专注于互联网消费领域,每日专业提供互联网产品、智能设备及互联网服务等方面的最新资讯。
目录
51好读  ›  专栏  ›  TechWeb

震惊硅谷 !DeepSeek为何一夜火出圈?

TechWeb  · 公众号  · 科技媒体  · 2025-01-28 12:24

正文

1月28日消息,这两天,中国AI公司深度求索(DeepSeek)发布的大模型DeepSeek-R1震撼业界,该模型使用更低的成本和更小的算力规模,实现了足以匹敌美国顶尖AI模型的效果。

当地时间1月27日,苹果App Store美国区免费应用下载榜显示,DeepSeek一举超越ChatGPT,排名第一。这一现象让西方媒体都忍不住发文感叹“中国AI模型震惊硅谷”。

据报道,高盛发布报告,随着中国AI大模型DeepSeek的强势崛起,对冲基金已开始观望美国本土培育的AI模式热潮是否能持续。报告还指出,对冲基金上周已开始撤离对科技股的押注。

美股市场周一遭遇科技股大规模抛售,纳指开盘重挫逾3.5%,芯片股集体走低。截至周一收盘,英伟达暴跌16.97%,市值蒸发近5900亿美元,相当于跌去了三个AMD的市值。博通跌17.4%,AMD跌6.37%,阿斯麦跌5.75%,台积电跌13.33%。

DeepSeek是什么?

DeepSeek成立于2023年7月17日,是一家创新型科技公司,由知名量化资管巨头幻方量化创立,专注于开发先进的大语言模型(LLM)和相关技术。

幻方量化的掌门人梁文锋是DeepSeek的创始人。他出生于广东湛江,浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,2008年起开始带领团队使用机器学习等技术探索全自动量化交易,2015年幻方量化正式成立。

2021年,幻方量化的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年梁文锋宣布正式进军通用人工智能领域,创办DeepSeek,专注于做真正人类级别的人工智能。

2024年5月,DeepSeek发布混合专家语言模型DeepSeek-V2。同年12月,DeepSeek-V3问世,这款性能优越且性价比极高的大语言模型,被硅谷同行誉为“来自东方的神秘力量”。

此前,雷军千万年薪挖角的95后AI“天才少女”罗福莉便是DeepSeek-V2的关键开发者之一。

据大象新闻报道,DeepSeek团队不到140人,多来自清华、北大、北航等顶尖高校的应届博士毕业生、在读生以及硕士生。而且,团队没有“海归”,完全本土人才。

DeepSeek为何爆火?

这两天DeepSeek成为科技圈的关注焦点,主要原因在于其以极小的成本训练出了可以和OpenAI的ChatGPT一较高下的AI大模型。

今年1月20日,DeepSeek正式发布DeepSeek-R1大模型,并同步开源模型权重。DeepSeek-R1在数学、代码、自然语言推理等任务上的表现与OpenAI的O1模型正式版不相上下,并采用MIT许可协议,支持免费商用、任意修改和衍生开发。

据每日经济新闻报道,DeepSeek-R1的预训练费用仅为557.6万美元,仅是OpenAI GPT-4o模型训练成本的不到十分之一。同时,DeepSeek公布了API的定价,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。这个收费大约是OpenAI o1运行成本的三十分之一。

业内认为,DeepSeek正打破算力为王的行业规则。此前,OpenAI提出的Scaling Law被全球AI大模型厂商奉为圭臬,即计算规模越大,训练数据量越多,模型越智能。这也促使英伟达等不断研发拥有更强大算力的产品。而DeepSeek让业内看到通过软件架构及算法的革新,可能也是一条通往更高性能AI大模型的思路。

受此消息影响,美股周一纳指开盘重挫逾3.5%,芯片股集体走低。截至周一收盘,英伟达、台积电、博通、AMD、阿斯麦等均出现不同幅度的下跌,其中最受瞩目的是英伟达暴跌16.97%,市值蒸发近5900亿美元,相当于跌去了三个AMD的市值。

之后,英伟达发布声明称,“DeepSeek的研究成果展示了如何利用测试时计算扩展技术创建新模型,充分利用广泛可用的模型和完全符合出口管制规定的算力。”言外之意,DeepSeek并未违反美国对于英伟达芯片的出口管制规定。

同时,英伟达还在声明中表示,DeepSeek等AI公司的推理需要大量英伟达GPU(图形处理器)和高性能网络,DeepSeek的爆火表明市场对其芯片仍有需求。

据外媒报道,Meta成立了四个专门研究小组来研究国产大模型DeepSeek的工作原理,并基于此来改进旗下大模型Llama。其中两个小组正在试图了解幻方量化如何降低训练和运行DeepSeek的成本。

需求爆火,DeepSeek被挤到宕机,创始人回应

随着DeepSeek的火爆出圈,1月26日,该应用曾出现短时闪崩现象。

对此,DeepSeek回应称,当天下午确实出现了局部服务波动,但问题在数分钟内就得到了解决。此次事件可能是由于新模型发布后,用户访问量激增,服务器一时无法满足大量用户的并发需求。

1月27日晚,DeepSeek服务状态页面显示,服务暂时不可用,公司正在调查这一问题。多位网友表示,DeepSeek无法回答对话问题。

1月28日凌晨,DeepSeek于服务状态页面公告称,近期DeepSeek线上服务受到大规模恶意攻击,注册可能繁忙,请稍等重试。已注册用户可以正常登录,感谢理解和支持。

日前,梁文锋在接受媒体采访时表示,中国AI不可能永远处在跟随的位置。“我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”

他认为,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。

最新消息显示,DeepSeek在今日凌晨发布并开源了一款名为Janus-Pro-7B的多模态AI模型,可以生成图像。据梁文锋介绍,在 GenEval和DPG-Bench基准测试中,Janus-Pro-7B击败了OpenAI的DALL-E3和Stable Diffusion。

—【 THE END 】—

往期精彩文章回顾:

丨国行定档2月11日!三星Galaxy S25 Ultra 16GB版本或中韩独享


丨iPhone 17系列背板实拍图曝光:六年来首次设计大焕新


丨雷军:小米SU7上月交付量超越特斯拉Model 3