Andrej Karpathy,OpenAI的高级研究科学家,分享了来自中国的开源大模型DeepSeek-v3。该模型在GPU算力使用上实现了重大突破,仅使用280万小时的GPU算力就达到了比Llama-3 405B更强的性能,整体成本节省了约11倍。DeepSeek在多个主流基准测试中性能超越了其他著名模型,成为目前最强的开源大模型之一。国外网友评论表示,对中国的芯片限制并未阻碍其技术进步,反而推动了创新。DeepSeek-v3模型的改进源于其独特的架构,包括多头潜在注意力和混合专家机制,这些创新大大降低了内存占用和提高训练效率。除了开源模型外,DeepSeek还提供了免费的在线服务。
DeepSeek-v3仅使用有限的GPU算力就实现了前沿的性能,成本节省了约11倍,并在多个基准测试中超越了其他著名模型。
DeepSeek-v3包括多头潜在注意力和混合专家机制,这些创新降低了内存占用,提高了训练效率,是模型实现高效推理和低成本训练的关键。
DeepSeek除了开源最新模型外,还提供了免费的在线服务。用户可以尝试其API服务,体验深度思考模式,并了解整个推理过程。此外,还可以访问其开源地址以获取更多信息。
OpenAI创始团队成员、高级研究科学家Andrej
Karpathy很罕见地,分享了一个来自中国的开源大模型——DeepSeek-v3。
Karpathy表示,DeepSeek仅用了280万小时的GPU算力,就训练出了比Llama-3
405B(使用3080万小时GPU)更强的前沿模型,整体成本节省了11倍左右,将算力发挥到了极致。
这为小模型和受算力限制的组织打开了全新世界——即便在算力有限的情况下,使用高质量数据、更好的算法同样能训练出高性能大模型。
此外, DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中,性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名开闭源模型,成为目前最强开源大模型之一。
国外网友表示,看来限制对中国的芯片供应并没有扼杀他们的进步,反而促进了技术创新。有趣的是,资源限制不仅仅是障碍,它们还能强有力地推动创造力。
看了这个网友评论还是挺心酸的,国内被限制AI芯片,无法获得更高的算力,我们靠着智慧、创新精神依然冲破封锁——天行健 君子以自强不息!
美国真的确定要把中国“排除在人工智能竞赛之外”吗?在我看来,我们可能会在后面追赶……
中国人得到“柠檬”后,会榨干它的每一滴汁,然后做出美味的柠檬水。希望美国那些资源受限的实验室也能取得同样的成就。
中国即将成为超级人工智能大国。
这个模型很出色,但实现这一成就的团队更优秀,人类的创造力真是无穷无尽。
DeepSeek为弥补较小模型限制,进行的改进是否也可以应用于更大的模型?我们能否期待在使用 10 万个 GPU 的集群时也获得类似11倍的能力提升?
很想尝试DeepSeek的API,但是从今早开始一直失败的。
非常喜欢开源模型,他们迫使西方世界不得不降低价格。
Deepseek的团队是一群超有才华的前量化分析师。量化分析师以榨取每一点性能提升而闻名。他们又一次成功了,只是这次是在不同的领域。高智商的人真是世界的福音。
他们的训练效率非常疯狂。
使用的训练数据与 Llama 3 405B 大致相同,约为15万亿。但在相同的训练数据下,算力却减少了10倍。
哇塞,终于有人破解了训练效率难题。当其他人都在用数十亿美元计算他们的AI预算时,DeepSeek仅用他们的零头就能开发出前沿大模型。看来,仅仅投入更多的GPU并不总是解决问题的办法。
这位老哥直接上图片,DeepSeek直接打跑OpenAI、Meta~
Deep Seek
v3模型简单介绍
Deep Seek
V3的架构延续了第二代的高效推理和低成本训练策略,主要包括多头潜在注意力(MLA)和混合专家(MoE)两大块。
MLA是V3的核心创新之一,主要用于减少推理过程中的内存占用。MLA将键和值压缩为一个潜在向量,并在推理过程中仅缓存该向量,而不是完整的键和值矩阵。
MLA的压缩过程通过下投影矩阵和上投影矩阵实现。下投影矩阵将输入向量压缩为潜在向量,上投影矩阵将潜在向量还原为键和值。通过这种方式,MLA在推理过程中仅需缓存潜在向量和分离的键,从而显著减少了内存占用。
MLA还对查询进行了低秩压缩,进一步减少了训练过程中的激活内存。所以,MLA是V3极大降低算力的主要原因之一。
传统的MoE架构,面对大规模的数据处理任务时,容易出现专家负载不均衡的情况。这种不均衡会导致严重的后果,其中最为突出的就是路由崩溃问题。当某些专家承担了过多的负载,而其他专家则相对空闲时,路由机制可能会因为无法有效分配任务而陷入混乱,进而导致模型无法正常工作。
由于专家负载的不平衡,计算资源无法得到合理分配,使得整体计算过程变得缓慢且低效。在处理复杂的语言任务时,需要大量的算力来支持模型的推理和决策过程。
而V3对MoE进行了改良,引入了一套先进的动态调整机制,专门用于优化专家负载。在训练过程中,使得MoE会实时监测每个专家的负载情况,通过一系列复杂而精确的算法,根据实际负载动态地调整任务分配。这种动态调整并非简单的平均分配,而是根据专家的实时处理能力和当前任务的特点进行智能分配。
例如,当某个专家的负载过高时,模型会自动将一部分任务转移到负载较轻的专家上,确保每个专家都能在合理的负载范围内工作。
此外,V3的MoE 还使用了特殊的方法,会为每个专家设置一个动态的负载阈值,当负载超过该阈值时,触发负载调整机制。在调整过程中,模型会综合考虑多个因素,例如,专家的历史处理效率、当前任务的紧急程度以及整个系统的负载均衡情况等,所以,V3的 MoE 既解读了路由崩溃的难题,还将算力发挥到了极致。
其实写到这里心里有一个疑问,Deep Seek要是有10万张H100,能开发出像o3那样的超强大模型吗?
Deep Seek除了开源最新模型之外,他们还提供了免费的在线服务,想尝试的小伙伴可以去体验一下。值得一提的是,还可以使用像o1模型那样的深度思考模式,并且会把整个推理过程全部写出来。
开源地址:https://github.com/deepseek-ai/DeepSeek-V3
在线体验:https://chat.deepseek.com/
笑脸:https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b
本文素材来源Deep Seek,如有侵权请联系删除
END