专栏名称: AI小岛

AI小岛，高效不烦恼！这里是AI的宝藏岛，通过AI魔法让学习和工作事半功倍，开启新生活的无限可能。

目录

相关文章推荐

新京报评论 · 诱导患者网贷4万元，恐怕不是医院“正常看病流 ... · 昨天

新京报评论 · 大量被逃单，货运网约司机要账不该只靠“说好话 ... · 2 天前

后沙月光 · 立陶宛示好遭冷遇，抱怨中国“不识抬举”！ · 3 天前

纪法指引 · 【镜鉴】政法委书记向阳，主动投案！ · 3 天前

CHINADAILY · Top News丨200 telecom ... · 3 天前

51好读 › 专栏 › AI小岛

DeepSeek V3横空出世，震惊了整个AGI行业！

AI小岛 · 公众号 · · 2024-12-30 11:03

正文

国产AI再一次让世界刮目相看！

在硅谷，DeepSeek 被称为“神秘力量”；在国内，是“你可能没听说过，但确实牛”的存在。

如今，这股神秘力量再次出手，凭着 “便宜、强悍、开源” 的三板斧，震惊整个 AGI （通用人工智能）行业。

背景：一股清流的出现

AGI一直是科技圈的高地，大厂们烧钱如流水，动辄上亿美元。

但DeepSeek，不走寻常路，仅用557.6万美元（咱别问零头咋算的）搞出了一个“能打的”大模型DeepSeek V3。

不仅打破了“烧钱内卷”的惯性，更展现了中国 AI 的自信与创新。

正如一位网友所说：“硅谷圣诞节休假，中国 AI 加班发论文，这种自信，绝了！”

为什么 DeepSeek V3 被称为“开源界的天花板”？

来看几个硬核数据：

6710 亿参数，37B MoE 激活参数： 只激活必要参数，既保持性能又大幅降低计算成本。
每秒生成 60 tokens： 速度比 V2.5 快了3倍，同时依然保持极高的生成精度。
128k 超长上下文： 直接对标顶级闭源模型，支持大规模输入处理。
训练成本仅 557.6 万美元： 训练 14.8 万亿 token 的成本只有 5.5M 美元！
输入成本 $0.27/Mtok，输出 $1.1/Mtok： 简单算笔账，处理一百万字的成本还不到 2 元人民币，而生成同等内容费用也只需约 8 元，性价比爆表。

根据最新的测试结果，DeepSeek V3 在多个关键指标上几乎与 Claude 3.5 Sonnet 和 GPT-4o 并肩而行。

除此之外，型全面支持互联网访问，可执行实时任务，并且提供免费试用，让更多开发者和用户轻松上手。

比如，想要开发一款微信小程序。

DeepSeek V3 可以完美胜任——从生成代码到优化逻辑，一气呵成，甚至让“0 基础”的开发者也能轻松上手。

质疑与挑战

在众多亮点之外，DeepSeek V3 也因“少了一个问号竟称自己是 ChatGPT”的 bug 引发热议。

进一步测试发现，即便生成笑话，结果也与 ChatGPT 高度相似。

这一现象加上足够低成本产生不少质疑：是否使用了 ChatGPT 的输出数据进行训练？

另外，Altman 的一条推文又让人浮想联翩，仿佛在暗讽什么……

不过，从技术报告和测试数据来看，DeepSeek V3 的训练主要依托于 Pile 数据，尤其是其与 Llama 3.1 在 Pile 测试中的相近表现，表明这些质疑很可能并不成立。

这一 bug 反而揭示另一个更深层次的问题——AI 行业正面临数据污染的普遍挑战。

随着越来越多的开发者选择使用现有 AI 输出数据进行训练，“数据蒸馏”虽然可以显著降低成本，却也不可避免地将其他模型的输出混入训练集中。

这种现象不仅威胁模型的独立性，更为行业敲响警钟：如何保证高质量、独立的训练数据？

然而，除了数据质量问题，DeepSeek V3 也让我们反思另一个更大的挑战：国产 AI 的问题从来不是钱，而是高端芯片被禁运的现实压力。

从“性价比之王”到开源标杆

面对芯片资源的限制，DeepSeek V3 的发布刷新了行业认知，不仅在技术层面实现突破，更以低成本、高效率成为开源界的标杆：

突破预算限制： 相比闭源大厂动辄十亿级天文预算，DeepSeek V3 的极高性价比，为整个行业树立了新标杆。
坚持开源精神： 发布 53 页技术论文，为全球研究者提供详细参考，推动行业协作。

更令人佩服的是，DeepSeek 团队始终坚持“水到渠成”的发布节奏，并没有因市场需求而盲目抢跑，而是等模型达到目标时才自然发布。

这种以技术为导向的务实态度，与业内普遍追求商业化“快钱”的模式形成了鲜明对比。

不过，DeepSeek的突破不仅仅体现在技术层面，其独特的商业与文化理念同样令人称道。

文化与价值观：商业与理想的平衡

与国内大厂烧钱补贴、抢占市场的做法不同，DeepSeek选择了一条独立且稳健的道路：

1. 不烧钱、保持盈利

DeepSeek 依靠量化机构幻方的闲置 GPU 时间进行 AI 训练，完全不依赖烧钱补贴和资本推动。

低调务实，从不花钱做营销， DeepSeek靠的不是广告和补贴，而是实打实的技术创新。

2. 专注技术，赋能行业

DeepSeek 并未推出直接面向终端用户的应用，而是选择专注于 API 服务。

DeepSeek 的目标不是做下一个 ChatGPT，而是成为可靠的技术底座，为开发者和企业提供灵活的 API 支持，助力更多场景和应用的诞生。

3. 开源文化与协作精神

DeepSeek 一直强调开源文化，从 V2 到 V3，论文与模型完全开放。团队用协作和分享精神为行业树立榜样。

一个细节特别让人感动：V3的论文中，连合规团队这样的“幕后英雄”都得到感谢。

这种对团队每一位成员的认可，体现出DeepSeek内部的凝聚力和文化氛围。

4. 从“商业化”到“重创新”

DeepSeek的创始人梁文锋提到，中国科技企业习惯追求快速商业化，但这种路径难以支撑长期创新。

DeepSeek 选择优先投入技术研究，以开放技术的形式让行业在其基础上发展出更多应用。

这种“重创新”的信念，是DeepSeek真正的护城河。

正如梁文锋所说：

“我们不缺资本，缺的是信心和如何高效组织人才的能力。”

不靠烧钱，也能跑出自己的速度。

硅谷的认可与“国产之光”

DeepSeek的技术实力早就得到硅谷的关注。

V2的论文被OpenAI、Anthropic等行业巨头公开称赞为“今年最好的一篇”。

V3的发布，则进一步确立作为“全球技术竞争者”的地位。

SemiAnalysis首席分析师甚至评价：

“DeepSeek正在用更低的成本和更高的效率，让全球AI行业重新洗牌。 ”

这一次，中国企业不再是“跟随者”，而是真正的“参与者”。

理想点亮未来

DeepSeek V3的横空出世，不仅仅是一款强大的模型，更是对行业惯性思维的一次挑战：

技术上，以低成本、高性能的模式，让全球看到中国AI的潜力。
文化上，通过开源和协作精神，展现理想主义如何转化为团队的凝聚力和生产力。

然而，DeepSeek并不满足于现阶段的成就，还计划在未来3-6个月内发布新版本，性能有望超越GPT-4o。

请到「今天看啥」查看全文

推荐文章

新京报评论 · 诱导患者网贷4万元，恐怕不是医院“正常看病流程” | 新京报快评

昨天

新京报评论 · 大量被逃单，货运网约司机要账不该只靠“说好话”| 新京报快评

2 天前

后沙月光 · 立陶宛示好遭冷遇，抱怨中国“不识抬举”！

3 天前

纪法指引 · 【镜鉴】政法委书记向阳，主动投案！

3 天前

CHINADAILY · Top News丨200 telecom fraud suspects repatriated

3 天前

金融行业网 · 1%家庭占有三分之一财富，中国贫富差距有多大？

8 年前

军事前沿 · 在美国眼中这位中国女人比核弹还要恐怖

8 年前

新财富 · 美联航的“非正常”超售：到底谁该下飞机？

7 年前

奥斯CAR · 出游必备 │ 还在车内吸烟？给你推荐一套完美的下午茶

7 年前

央视新闻 · 人物 | 如何面对暗杀威胁？普京说了一句意味深长的俄罗斯谚语

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!