专栏名称: dotNET跨平台
专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路,不局限于微软的技术栈,横跨Windows,Linux 主流平台
目录
相关文章推荐
中国基金报  ·  海通证券,告别A股! ·  17 小时前  
银行螺丝钉  ·  每日钉一下(A股的股票资产,波动风险有多大?) ·  19 小时前  
中国基金报  ·  王宝强回应:已经踩好点了,但不能说 ·  4 天前  
中国基金报  ·  突发!刚刚宣布:华为+DeepSeek来了! ·  4 天前  
51好读  ›  专栏  ›  dotNET跨平台

OpenAI不敢公开的技术:DeepSeek低成本训练内幕

dotNET跨平台  · 公众号  ·  · 2025-01-30 08:28

正文

大家好,我是编程乐趣。
DeepSeek杀疯了!DeepSeek的综合能力与ChatGPT已经不分伯仲了。
这几天我也看了很多资料,来了解DeepSeek如何实现低成本的。
在介绍DeepSeek低成本训练内幕之前,我们先来聊聊改变了哪些行业格局。
DeepSeek的崛起打破了AI大模型烧钱、堆算力的固有印象,大大降低了AI门槛,使得更多的企业和开发者能够用上先进的AI大模型,同时也能训练先进的AI大模型,也打破了美国AI垄断的局面。
总的来说,只要你敢于创新、敢于尝试、在有限的资金和算力下,也是有可能实现先进的AI大模型。
DeepSeek做了如下创新,使得成本大大降低。
1、创新性地提出了 MLA(多头潜在注意力机制)架构和MOE混合专家模式架构,将显存占用大幅降低至过去常用 MHA 架构的 5%-13% 。
2、在模型架构方面也做了很多优化,它通过定制芯片间通信方案,使得数据在运算过程中传输更加高效,减少因通信延迟或数据传输错误导致的额外开销。
3、DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
以上是DeepSeek的具体做法,但更重要的是DeepSeek创始人的理念。
DeepSeek创始人认为要赶超美国,不能单纯的模仿,更是要有魄力去创新,DeepSeek就是走的就是一条他人从未走过的路,这是非常冒险的事情,但可喜的是DeepSeek成功了,这是其他大厂没去尝试、可能也不敢尝试的路
另外DeepSeek的目标是做AGI,也就是通用人工智能,不仅仅搞一个大模型而已,现有的ChatGPT模式是非常消耗资源的,要实现AGI的目标,现有模式肯定是走不通的,必须寻找其他路径。
理念和目标不同,自然会驱动思维和技术的创新。





请到「今天看啥」查看全文