专栏名称: AI小岛
AI小岛,高效不烦恼!这里是AI的宝藏岛,通过AI魔法让学习和工作事半功倍,开启新生活的无限可能。
目录
相关文章推荐
纪法指引  ·  【镜鉴】政法委书记向阳,主动投案! ·  3 天前  
CHINADAILY  ·  Top News丨200 telecom ... ·  3 天前  
51好读  ›  专栏  ›  AI小岛

DeepSeek V3横空出世,震惊了整个AGI行业!

AI小岛  · 公众号  ·  · 2024-12-30 11:03

正文

国产AI再一次让世界刮目相看!

在硅谷,DeepSeek 被称为“神秘力量”; 在国内,是“你可能没听说过,但确实牛”的存在。

如今,这股神秘力量再次出手, 凭着 “便宜、强悍、开源” 的三板斧,震惊整个 AGI (通用人工智能)行业。

背景:一股清流的出现

AGI一直是科技圈的高地,大厂们烧钱如流水,动辄上亿美元。

但DeepSeek,不走寻常路,仅用557.6万美元(咱别问零头咋算的)搞出了一个“能打的”大模型DeepSeek V3。

不仅打破了“烧钱内卷”的惯性,更展现了中国 AI 的自信与创新。

正如一位网友所说:“硅谷圣诞节休假,中国 AI 加班发论文,这种自信,绝了!”

为什么 DeepSeek V3 被称为“开源界的天花板”?

来看几个硬核数据:

6710 亿参数,37B MoE 激活参数: 只激活必要参数,既保持性能又大幅降低计算成本。
每秒生成 60 tokens: 速度比 V2.5 快了3倍,同时依然保持极高的生成精度。
128k 超长上下文: 直接对标顶级闭源模型,支持大规模输入处理。
训练成本仅 557.6 万美元: 训练 14.8 万亿 token 的成本只有 5.5M 美元!
输入成本 $0.27/Mtok,输出 $1.1/Mtok: 简单算笔账,处理一百万字的成本还不到 2 元人民币,而生成同等内容费用也只需约 8 元,性价比爆表。

根据最新的测试结果,DeepSeek V3 在多个关键指标上几乎与 Claude 3.5 Sonnet 和 GPT-4o 并肩而行。

除此之外,型全面支持互联网访问,可执行实时任务,并且提供 免费试用,让更多开发者和用户轻松上手。

比如,想要开发一款微信小程序。

DeepSeek V3 可以完美胜任——从生成代码到优化逻辑,一气呵成,甚至让“0 基础”的开发者也能轻松上手。

质疑与挑战

在众多亮点之外,DeepSeek V3 也因“少了一个问号竟称自己是 ChatGPT”的 bug 引发热议。

进一步测试发现,即便生成笑话,结果也与 ChatGPT 高度相似。

这一现象加上足够低成本产生不少质疑:是否使用了 ChatGPT 的输出数据进行训练?

另外,Altman 的一条推文又让人浮想联翩,仿佛在暗讽什么……

不过,从技术报告和测试数据来看,DeepSeek V3 的训练主要依托于 Pile 数据,尤其是其与 Llama 3.1 在 Pile 测试中的相近表现,表明这些质疑很可能并不成立。

这一 bug 反而揭示另一个更深层次的问题——AI 行业正面临数据污染的普遍挑战。

随着越来越多的开发者选择使用现有 AI 输出数据进行训练,“数据蒸馏”虽然可以显著降低成本,却也不可避免地将其他模型的输出混入训练集中。

这种现象不仅威胁模型的独立性,更为行业敲响警钟:如何保证高质量、独立的训练数据?

然而,除了数据质量问题,DeepSeek V3 也让我们反思另一个更大的挑战: 国产 AI 的问题从来不是钱,而是高端芯片被禁运的现实压力。

从“性价比之王”到开源标杆

面对芯片资源的限制,DeepSeek V3 的发布刷新了行业认知,不仅在技术层面实现突破,更以低成本、高效率成为开源界的标杆:

突破预算限制: 相比闭源大厂动辄十亿级天文预算,DeepSeek V3 的极高性价比,为整个行业树立了新标杆。
坚持开源精神: 发布 53 页技术论文,为全球研究者提供详细参考,推动行业协作。

更令人佩服的是,DeepSeek 团队始终坚持“水到渠成”的发布节奏, 并没有因市场需求而盲目抢跑,而是等模型达到目标时才自然发布。

这种以技术为导向的务实态度,与业内普遍追求商业化“快钱”的模式形成了鲜明对比。

不过,DeepSeek的突破不仅仅体现在技术层面,其独特的商业与文化理念同样令人称道。

文化与价值观:商业与理想的平衡

与国内大厂烧钱补贴、抢占市场的做法不同,DeepSeek选择了一条独立且稳健的道路:

1. 不烧钱、保持盈利

DeepSeek 依靠量化机构幻方的闲置 GPU 时间进行 AI 训练,完全不依赖烧钱补贴和资本推动。

低调务实,从不花钱做营销, DeepSeek靠的不是广告和补贴,而是实打实的技术创新。

2. 专注技术,赋能行业

DeepSeek 并未推出直接面向终端用户的应用,而是选择专注于 API 服务。

DeepSeek 的目标不是做下一个 ChatGPT,而是成为可靠的技术底座,为开发者和企业提供灵活的 API 支持,助力更多场景和应用的诞生。

3. 开源文化与协作精神

DeepSeek 一直强调开源文化,从 V2 到 V3,论文与模型完全开放。团队用协作和分享精神为行业树立榜样。

一个细节特别让人感动:V3的论文中,连合规团队这样的“幕后英雄”都得到感谢。

这种对团队每一位成员的认可,体现出DeepSeek内部的凝聚力和文化氛围。

4. 从“商业化”到“重创新”

DeepSeek的创始人梁文锋提到,中国科技企业习惯追求快速商业化,但这种路径难以支撑长期创新。

DeepSeek 选择优先投入技术研究,以开放技术的形式让行业在其基础上发展出更多应用。

这种“重创新”的信念,是DeepSeek真正的护城河。

正如梁文锋所说:

“我们不缺资本,缺的是信心和如何高效组织人才的能力。”

不靠烧钱,也能跑出自己的速度。

硅谷的认可与“国产之光”

DeepSeek的技术实力早就得到硅谷的关注。

V2的论文被OpenAI、Anthropic等行业巨头公开称赞为“今年最好的一篇”。

V3的发布,则进一步确立作为“全球技术竞争者”的地位。

SemiAnalysis首席分析师甚至评价:

“DeepSeek正在用更低的成本和更高的效率,让全球AI行业重新洗牌。

这一次,中国企业不再是“跟随者”,而是真正的“参与者”。

理想点亮未来

DeepSeek V3的横空出世,不仅仅是一款强大的模型,更是对行业惯性思维的一次挑战:

技术上,以低成本、高性能的模式,让全球看到中国AI的潜力。
文化上,通过开源和协作精神,展现理想主义如何转化为团队的凝聚力和生产力。

然而,DeepSeek并不满足于现阶段的成就,还计划在未来3-6个月内发布新版本,性能有望超越GPT-4o。







请到「今天看啥」查看全文