专栏名称: dotNET跨平台

专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路，不局限于微软的技术栈，横跨Windows，Linux 主流平台

OpenAI不敢公开的技术：DeepSeek低成本训练内幕

dotNET跨平台 · 公众号 · · 2025-01-30 08:28

正文

大家好，我是编程乐趣。

DeepSeek杀疯了！DeepSeek的综合能力与ChatGPT已经不分伯仲了。

这几天我也看了很多资料，来了解DeepSeek如何实现低成本的。

在介绍DeepSeek低成本训练内幕之前，我们先来聊聊改变了哪些行业格局。

DeepSeek的崛起打破了AI大模型烧钱、堆算力的固有印象，大大降低了AI门槛，使得更多的企业和开发者能够用上先进的AI大模型，同时也能训练先进的AI大模型，也打破了美国AI垄断的局面。

总的来说，只要你敢于创新、敢于尝试、在有限的资金和算力下，也是有可能实现先进的AI大模型。

DeepSeek做了如下创新，使得成本大大降低。

1、创新性地提出了 MLA(多头潜在注意力机制)架构和MOE混合专家模式架构，将显存占用大幅降低至过去常用 MHA 架构的 5%-13% 。

2、在模型架构方面也做了很多优化，它通过定制芯片间通信方案，使得数据在运算过程中传输更加高效，减少因通信延迟或数据传输错误导致的额外开销。

3、DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

以上是DeepSeek的具体做法，但更重要的是DeepSeek创始人的理念。

DeepSeek创始人认为要赶超美国，不能单纯的模仿，更是要有魄力去创新，DeepSeek就是走的就是一条他人从未走过的路，这是非常冒险的事情，但可喜的是DeepSeek成功了，这是其他大厂没去尝试、可能也不敢尝试的路。

另外DeepSeek的目标是做AGI，也就是通用人工智能，不仅仅搞一个大模型而已，现有的ChatGPT模式是非常消耗资源的，要实现AGI的目标，现有模式肯定是走不通的，必须寻找其他路径。

理念和目标不同，自然会驱动思维和技术的创新。

请到「今天看啥」查看全文

推荐文章

中国基金报 · 海通证券，告别A股！
17 小时前

银行螺丝钉 · 每日钉一下（A股的股票资产，波动风险有多大？）
19 小时前

中国基金报 · 王宝强回应：已经踩好点了，但不能说
4 天前

中国基金报 · 突发！刚刚宣布：华为+DeepSeek来了！
4 天前

中国基金报 · 集体爆了！紧急宣布：取消！限流！售罄！网友：“根本挤不进去”
5 天前

老虎财富 · 【股市大咖】徐小明周四操作策略&席帮主周三收评
8 年前

新闻广角 · 说好的“冷冬”爽约？春节假期可能要泡汤！3次冷空气，降水，还有…
8 年前

今日日本 · 一学就会，超简单低丸子新娘编发！
7 年前

植物星球 · 全世界的花展都在春天举行，为什么偏偏这个大花展在秋天
7 年前

欢乐PPT · PPT最近更新的这些功能，个个好用到爆
7 年前