专栏名称: 六合商业研选
六合咨询立足新经济,挖掘明日之星,发现价值,传播价值;国际化视野、多角度观察、深度思考、体系化研究,持续提升研究广度与深度,全面覆盖一级、新三板、二级(A股+美股+港股);深度剖析优质企业商业模式与投资价值,前瞻性洞察行业本质与发展趋势。
目录
相关文章推荐
51好读  ›  专栏  ›  六合商业研选

【智能前线】第22期:DeepSeek特辑,开源低成本模型开启AI新范式,引领全球AI发展新浪潮

六合商业研选  · 公众号  · 科技媒体 科技自媒体  · 2025-02-12 06:30

正文


中国大模型创业公司 DeepSeek ,近期推出 DeepSeek-R1 DeepSeek-V3 等大模型, Janus-Pro JanusFlow 等多模态框架,凭借算法创新、极致成本控制、全面开源策略等,在大幅降低算力与成本基础上,性能追赶甚至超越 OpenAI o1 等顶尖闭源大模型,在全球 AI 领域带来巨大影响。

DeepSeek在硬件受限下,通过算法优化,实现模型性能突破,挑战硅谷依赖算力堆砌的AI发展路径,促使微软、英伟达等美国科技巨头,加速适配DeepSeek模型,推动全球AI行业向高效、开放、普惠方向发展。

DeepSeek推动中国AI生态自主化,通过产业链联动,带动国产芯片、云计算等产业协同创新,助力中国在全球AI竞赛中,从技术跟随者,向规则重塑者跃升,为全球AI发展注入多元动力。

本期智能前线,选择DeepSeek系列分析文章,包括模型介绍、性能表现、技术原理等,DeepSeek、腾讯科技、极客公园、机器之心发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文15,980字

预计阅读32分钟

DeepSeek 发布新模型,多模态大一统的革命来了

时间:2025年1月28日

来源:腾讯科技

字数:3,664

Deepseek刷屏全球AI界,让华尔街进行紧张评估时,又一次给全世界带来惊喜。

北京时间2025年1月28日凌晨,DeepSeek团队发布2款多模态框架,Janus-Pro、JanusFlow。这一次,我们重点聊聊Janus-Pro。

Janus-Pro是统一多模态理解与生成创新框架,是Janus升级版本,通过解耦视觉编码的方式,极大提升模型在不同任务中适配性与性能。

它在图像生成基准测试中表现卓越,超越OpenAI文生图模型DALL-E 3。与之前Janus系列一致,同样选择开源。

其一共包含两个参数模型,分别是15亿参数的JanusPro 1.5B与70亿参数的JanusPro 7B。


Janus-Pro 发布后,硅谷反应

RundownAI负责人在X上发布的新模型推文的讨论,足有230万阅读,再次引爆AI圈。

各路大神纷纷转载,知名行研机构科比西信函The Kobeissi Letter发布的内容,转载阅读超百万,AI大V Chubby第一时间罗列该模型技术细节。


这些讨论中,最核心的关注点,是对模型测试表现与能力的惊叹:Janus-Pro 7B直接在理解与生成两方面,都超越LLaVA、Dalle 3、SD XL这样主流选手。


阅读DeepSeek发布的相关技术报告时,我们发现关键点:它的思路,与杨立昆、谢赛宁领衔的MetaMorph项目有异曲同工之妙。

只是,DeepSeek在这条路上尝试得更彻底。

两个在开源模型领域执牛耳的模型公司,打算携手改变多模态大一统模型的范式。

这一次,真的与杨立昆所说,是开源模型的胜利。

AI 双眼革命:通过分工达到统一的尝试

多模态大一统模型的理念,最早由谷歌提出,Gemini是这一理念代表作。核心设计在于运用Transformer架构,将文本、图像、音频等多模态数据进行统一处理,实现对不同模态信息理解与生成。

这一创新架构,突破传统模型在处理单一模态数据时局限性,开启多模态融合发展的新方向。

这样,同一个模型既可读懂图片,又可生成图片。

这与当时Stable Diffusion、Dalle这类主流文生图模型完全不同,这些模型都需要另一套模型理解文本,它们只管生成。这需要维护多个完整模型,占用更多存储空间与计算资源,模型间无法共享学习到的知识。

OpenAI开发的多模态大模型GPT-4V,属于多模态大一统模型的范畴等,只能理解图像、转译为文字,无法生成。

大一统多模态模型这么好,能既理解图像,又生成图像,为什么到今天OpenAI还在用GPT4V+Dalle这样流水线模型处理理解与生成?

大一统多模态模型,既难训练,效果又不好。

比如Deepseek最初采用统一Transformer架构,处理文生图任务。理论上,这种方法很优雅,同一个模型,采用一个多模态编码器,既理解文本输入,又负责生成图像。

实践中,他们发现这种设计存在严重性能瓶颈。

比如来自智谱的CogVLM,用了单一的ViT解码器,试图将输入图像经过patch化处理后,打包成一个统一的视觉任务编码器,让它处理视觉理解与视觉生成,之后通过特征融合来协调不同任务。


这种单解码器的复杂度,在高分辨率图像生成时,统一模型的计算复杂度呈指数级增长,需要海量多模态数据,训练过程难以收敛。

更糟的是,模型在优化文本理解时,往往会损害图像生成能力,反之亦然。这种能力干扰capacity interference成为了统一架构的致命伤。

简单说,是让一个解码器又以美术评论家的身份写评论,又要它化身画家创作新作品,结果是,两者它都做得很一般。

Meta研究者,在MetaMorph项目中,不约而同进行一次转化:他们都放弃编码器大一统的设计理念,转而采用专门化的方案。

没有单一编码器优雅,依然可以在同一个Transformer架构中完成,还是大一统里的小分工。

简单讲,他们给模型配置两个不同的编码器,类似两只眼睛一样。

DeepSeek的Janus Pro中,第一只眼睛SigLIP编码器,专门负责理解图像,它能提取图像的高层语义特征,关注图像的整体含义与场景关系。它类似经验丰富的艺术评论家,能够快速抓住画作的要点。

第二只眼睛VQ tokenizer编码器,专门用于创作,将图像转换为离散的token序列,像画家一样关注细节的处理。

这两个眼睛各司其职,它们共享同一个大脑Transformer,两个眼睛独立工作,在这个大脑中,DeepSeek给Transformer加上图像理解的注意力头,让它们知识能够融合。


与DeepSeek从头开始训练不同,Meta是直接在已有语言模型上,加上视觉注意力头与视觉编码,经过约20万张图文对的微调训练,成功唤醒大语言模型自有图像理解能力。

靠着双头编码器,有足够视觉理解,输出的是文本与视觉两种token,再加上扩散模型就可以生成图像。


DeepSeek更进一步,在图像方面用生成与理解两个解码器。让这个多头框架,实现图像生成与理解的大一统。

不再执着统一的编码模式,听起来似乎简单,这个想法颠覆过去的传统。

过去大一统模型,是受人脑启发,认为通用智能应该有统一的信息处理机制。他们期望通过统一架构,发现模态间深层联系,希望实现真正的跨模态理解,而不是表面的特征映射。他们低估Transformer本身能力,就算有不同信息处理器,Transformer依然可以在内容达成容和理解。

DeepSeek对此的命名很有趣:Janus-Pro中Janus是古罗马双面神,拥有两个头,寓意满满。


颠覆传统的多段训练:DeepSeek能效奇迹发生之处

对DeepSeek来讲,架构的更新,从来不是唯一的创新。他们能实现相对较低的成本训练模型,很大程度上是对训练的严格掌控。

在Janus-Pro训练上,DeepSeek采用三段式的方法,每一段都有大胆尝试。

第一阶段:锁参数也能提升性能

传统认知中,多模态AI训练的第一阶段,只被视为预热。这个阶段,模型通过预训练视觉编码器,来学习基础的视觉特征提取能力,仅占用总训练时间的15%左右。

DeepSeek研究团队最新发现,颠覆这一认知。

他们发现反直觉的现象:即使将大语言模型LLM参数完全锁定,仅通过训练适配器,模型就能掌握复杂的像素依赖关系。这种方法,不仅大幅降低训练成本与复杂度,还带来显著性能提升。

基于这一发现,研究团队将第一阶段训练时间,延长到总时长25~30%。结果表明,模型的基础视觉理解能力,得到质的飞跃。

第二阶段:弃用ImageNet,拥抱真实

多模态AI训练中,第二阶段模态对齐阶段,一直被视为核心环节。

传统方法,在这个阶段会训练视觉与语言模型,致力实现两种模态间的对齐。

这个过程,通常会消耗超过50%训练时间,占用大量计算资源。

长期以来,ImageNet数据集,在视觉模型训练中,扮演安全毯的角色,几乎所有视觉模型都要在其上进行训练。

传统训练流程中,高达67%的训练步数,都用在ImageNet上。

DeepSeek团队做出颠覆性的决定:完全放弃在第二阶段使用ImageNet。

这个决定基于一个关键观察:ImageNet的数据分布,与实际应用场景,存在显著差异,导致大量训练无效,造成严重的资源浪费。

取而代之的,是直接使用真实的文生图数据进行训练。

这个改变,带来显著成效:训练时间减少40%、生成质量提升35%、模型对真实场景的适应性大幅提升。

这类似是让孩子直接在真实环境中学习,而不是局限于模拟环境。这种方法不仅更高效,也更符合实际应用需求。

第三阶段:东方的神秘配比,达到最高效果

多模态模型训练中,第三阶段的任务特定微调,一直被视为点睛之笔。这个阶段,通过使用任务相关的数据集来微调模型参数,对模型最终表现起着关键作用。

近期,DeepSeek团队在这一阶段,取得突破性进展。

传统方法中,多模态数据、纯文本数据、文生图数据的配比,通常是7:3:10。

通过大量实验,DeepSeek发现更优的配比方案:将这三类数据,调整为5:1:4比例。

文生图数据部分,团队创新性引入合成美学数据,与真实数据形成1:1配比。增加文生图合成数据的占比,是用这种方法后,模型不仅收敛更快,生成结果更加稳定。最重要的是输出图像的美学质量,得到显著提升。

这三个阶段中,DeepSeek都用开创性的训练方法极限提效。

Janus-Pro-7B模型,仅仅用了32个节点、256张A100、14天时间,完成训练。

大一统的真正实力:全能还最强

极低的训练成本,7B的小身材,换来的是能力的绝杀,是理解、生成双杀。

基准测试看,Janus-Pro-7B表现,令人印象深刻。在多模态理解基准MMBench上,它获得79.2分的成绩,超越此前最佳水平,包括Janus 69.4分、TokenFlow 68.9分、MetaMorph 75.2分。


图像生成评测上,Janus-Pro-7B在GenEval基准测试中,达到0.80分,大幅领先DALL-E 30.67分、Stable Diffusion 3 Medium 0.74分。


实际使用上看,DeepSeek的Janus-Pro多模态理解与图像生成能力,可圈可点。


多模态理解方面,论文展示三个范例。

首先是地标识别能力。模型能准确识别杭州西湖三潭印月景区,不仅能描述眼前景象,还能理解深层的文化内涵与历史意义。

其次是文本理解能力。面对一块写有Serving Soul since Twenty Twelve的黑板,模型不仅准确识别主要文字,还注意到周边细节信息。

第三是上下文理解能力。解读Tom and Jerry主题蛋糕时,模型展现出对动画角色设定、造型特点的深入理解,能准确描述蛋糕上设计元素。

图像生成方面,模型展示8个不同场景的生成效果,涵盖现实与想象两个维度。这些生成案例,输出分辨率仅为384×384,每一幅画面,都展现出细致的细节与准确的语义理解。

大一统模型的范式转变

Deep Seek 的Janus-Pro-7B,通过这些测试数据,首次证明理解与生成这两个分离的任务,可以在一个统一框架下达到各自最优状态。

有趣的是,传统统一模型声称受人脑启发,却忽视人脑最基本的解剖学特性,功能分区与整合的辩证关系。

漫长的进化历程中,人脑形成高度专业化的左右半球分工。左脑主导语言处理、逻辑分析、序列思维,右脑专注空间感知、艺术创造、整体认知。这种分工,并非简单功能隔离,是通过胼胝体这一关键结构,实现信息深度整合,最终形成统一、完整的认知体验。

在此背景下,Janus Pro架构设计,仿佛是在向人脑学习。图像理解编码器,专注语义理解与特征提取,类似左脑的分析功能;图像生成编码器,负责创造性图像生成,映射右脑的艺术创造能力;Transformer扮演类似胼胝体角色,将两路信息进行深度统合。

更加相信胼胝体,相信Transformer的统合力,也许才是大一统模型进一步发展的关键思路。

DeepSeek-R1 发布,性能对标OpenAI o1正式版
时间:2025年1月20日

来源: DeepSeek

字数:628

我们正式发布DeepSeek-R1,同步开源模型权重。

DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型。

DeepSeek-R1上线API,对用户开放思维链输出,通过设置`model='deepseek-reasoner'`即可调用。

DeepSeek官网与APP即日起同步更新上线。

性能对齐OpenAI o1正式版

DeepSeek-R1在后训练阶段,大规模使用强化学习技术,在仅有极少标注数据情况下,极大提升模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。


我们将DeepSeek-R1训练技术全部公开,促进技术社区充分交流与创新协作。

蒸馏小模型超越OpenAI o1-mini

我们开源DeepSeek-R1-Zero与DeepSeek-R1两个660B模型的同时,通过DeepSeek-R1输出,蒸馏6个小模型开源给社区,32B与70B模型在多项能力上,实现对标OpenAI o1-mini效果。



开放的许可证与用户协议

为推动与鼓励开源社区、行业生态发展,发布、开源R1同时,我们同步在协议授权层面进行调整。

模型开源License统一使用MIT。 我们曾针对大模型开源特点,参考当前行业通行实践,特别引入DeepSeek License为开源社区提供授权,实践表明非标准的开源License可能增加开发者理解成本。

此次我们开源仓库,包括模型权重统一采用标准化、宽松的MIT License,完全开源,不限制商用,无需申请。

产品协议明确可模型蒸馏。 为进一步促进技术开源与共享,我们决定支持用户进行模型蒸馏。我们已更新线上产品用户协议,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

APP 与网页端

登录DeepSeek官网或官 方APP,打开深度思考模 式,即可调用最新版DeepSeek-R1完成各类推理任务。


API 与定价

DeepSeek-R1 API服务定价为,每百万输入缓存命中Tokens 1元/缓存未命中4元,每百万输出Tokens 16元。



DeepSeek-V3 正式发布
时间:2024年12月26日

来源: DeepSeek

字数:729

全新系列模型DeepSeek-V3首个版本上线,同步开源。

登录官网chat.deepseek.com,即可与最新版V3模型对话。

API服务已同步更新,接口配置无需改动。

当前版本DeepSeek-V3,暂不支持多模态输入输出。

性能对齐海外领军闭源模型

DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T Token进行预训练。

多项评测成绩,超越Qwen2.5-72B、Llama-3.1-405B等其他开源模型,在性能上与世界顶尖闭源模型GPT-4o、Claude-3.5-Sonnet不分伯仲。


百科知识: DeepSeek-V3在知识类任务,MMLU、MMLU-Pro、GPQA、SimpleQA上水平,相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本: 长文本测评方面,在DROP、FRAMES、LongBench v2上,DeepSeek-V3平均表现超越其他模型。

代码: DeepSeek-V3在算法类代码场景Codeforces,远远领先市面上已有全部非o1类模型,在工程类代码场景SWE-Bench Verified,逼近Claude-3.5-Sonnet-1022。

数学: 在美国数学竞赛MATH,AIME 2024,与全国高中数学联赛CNMO 2024上,DeepSeek-V3大幅超过所有开源、闭源模型。

中文能力: DeepSeek-V3、Qwen2.5-72B在教育类测评C-Eval与代词消歧等评测集上表现相近,在事实知识C-SimpleQA上更为领先。


生成速度提升至3倍

通过算法与工程上创新,DeepSeek-V3生成吐字速度,从20TPS,大幅提高至60TPS,相比V2.5模型,实现3倍提升,为用户带来更加迅速流畅的使用体验。


API 服务价格调整

随着性能更强、速度更快的DeepSeek-V3更新上线,模型API服务定价,调整为每百万输入缓存命中Tokens 0.5元/缓存未命中2元,每百万输出Tokens 8元,期能够持续提供更好模型服务。


决定为全新模型设置长达45天优惠价格体验期:即日起~2025年2月8日,DeepSeek-V3 API服务价格,会是大家熟悉的每百万输入缓存命中Tokens 0.1元/缓存未命中1元,每百万输出Tokens 2元,已经注册的老用户与在此期间内注册的新用户,均可享受以上优惠价格。


开源权重与本地部署

DeepSeek-V3采用FP8训练,开源原生FP8权重。受益开源社区支持,SGLang、LMDeploy第一时间支持V3模型的原生FP8推理,TensorRT-LLM、MindIE实现BF16推理。

为方便社区适配与拓展应用场景,我们提供从FP8到BF16的转换脚本。

DeepSeek 开源最强推理模型R1
时间:2025年1月21日

来源: 极客公园

字数:1,995

对标OpenAI o1正式版的国产大模型来了。

1月20日晚,DeepSeek深度求索公司发布推理模型DeepSeek-R1正式版,同步开源模型权重,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

网友点评:这才是真正的OpenAI,能力相当于1个月200美元的ChatGPT o1版本,完全免费。

DeepSeek一同开源的还有技术报告,训练R1时踩过的坑、做过的事通通讲出来,只为铺平AGI的路。

英伟达高级研究科学家JimFan带来新鲜解读。

我们生活在这样一个时代:由非美国公司保持OpenAI最初使命,做真正开放的前沿研究,为所有人赋能。

这似乎讲不通,戏剧性的往往最有可能发生。

DeepSeek-R1 不仅开源大量模型,还公开所有训练秘密。他们可能是第一个显示RL强化学习飞轮发挥主要作用、持续增长的OSS项目。

影响可以通过内部实现ASI或草莓计划等神话名称来实现,也可以通过简单转储原始算法与matplotlib学习曲线来产生影响。

中国公司DeepSeek,正在实现赶超OpenAI的使命。


DeepSeek-R1 :实力派选择展现实力

DeepSeek-R1 发布,目的是展现实力。这首先体现在它不整期货,而是发布即上线。

现在,用户可以在DeepSeek官网与APP,体验最新推理模型DeepSeek-R1,随便体验随便用,免费。


登录DeepSeek官网或官方APP,打开深度思考模式,即可调用最新版DeepSeek-R1完成各类推理任务。

低价背后,仍是展现实力,价格实力展现技术实力,从AIInfra层面降本的技术能力。

DeepSeek-R1同步上线API,对用户开放思维链输出,通过设置model=deepseek-reasoner即可调用。

值得注意的是DeepSeek-R1 API服务定价,为每百万输入Tokens 1元缓存命中/4元缓存未命中,每百万输出Tokens 16元,输出API价格只有OpenAI o1的3%。


第三波展现实力,体现在开源开放。

DeepSeek-R1开源模型权重,几乎是选择最开放的许可证与用户协议,开源License统一使用MIT,产品协议明确可模型蒸馏,主打让市场多多来基于它做二次开发、集成。

DeepSeek甚至主动给用户示范引导将R1作为教师模型,来蒸馏出更小、仍有实力的模型,通过DeepSeek-R1输出,蒸馏6个小模型开源给社区,32B与70B模型在多项能力实现对标OpenAI o1-mini的效果。

模型开源选择不同License,背后大有学问,直接体现不同模型厂商的开放程度,更体现开源背后目的与策略。

比如Llama、Qwen、GPT-2等模型,不止开放权重,还开放模型训练的源代码,可能是为追求衍生模型的繁荣。

DeepSeek-R1选择只开放权重,换成标准化、宽松的MIT License,更多是为了让更多开发者能用起来,感受DeepSeek-R1能力。

我们再来通过几大主流测试基准,感受DeepSeek-R1实力。

性能对齐OpenAI o1正式版DeepSeek-R1,在后训练阶段,大规模使用强化学习技术,在仅有极少标注数据情况下,极大提升模型推理能力。

在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。


对DeepSeek-R1带来的直观感受,硅基流动联合创始人杨攀表示,不止模型能力与性能出色,最近两个模型R1与V3在训练技术与模型底层架构上,都做了领先全球的创新,论文开放程度震惊业界。

在一并公开的模型技术报告中,DeepSeek将DeepSeek-R1训练技术全部公开,旨在促进技术社区充分交流与创新协作。


根据技术报告,硅基流动创始人&CEO袁进辉称,DeepSeek-R1是无人区探索与发现。

对开源模型加技术报告,开源社联合创始人林旅强表示,开源是最好展现实力的方式,有的开源模型只开源、不讲怎么做,合乎大家期待的开源模型,是要搭配技术报告,等于是发Paper。

开源模型不够的,模型是黑盒子,技术报告会说明一些东西。

DeepSeek是很透明把技术报告拿来公开,即使一定程度还是会保留一些核心机密,但是已经是开得比较有态度。

今天全球范围学术派还是会认为,把一个东西做出来,再以开源方式,是有学术追求的。

如果DeepSeek目标是真正达到AGI,不断需要把踩过的坑、做过的事开放出来,让大家少走一点弯路,开放才能让整个行业更快达到AGI。

DeepSeek,还有什么惊喜是我们不知道的

DeepSeek-R1发布,引发了这才是东方OpenAI等一片称赞。

DeepSeek强得非常扎实、全面。

2024年11月20日发布DeepSeek-R1-Lite预览版时,美国著名半导体与AI咨询机构Semianalysis创始人Dylan Patel第一时间下场提醒大家:他们有5万张H100GPU,请不要以为他们只有1万张A100。


众所周知,这大概率不是事实,能反映DeepSeek-R1-Lite强悍到让行业紧张。

1个月后,DeepSeek上线、同步开源媲美GPT-4o与Claude 3.5 Sonnet的模型DeepSeek-V3,附上详实的技术报告。

几乎惊动整个硅谷AI圈。 OpenAI创始团队、前Tesla AI总监Andrej Karpathy,Scale.ai创始人Alexandr Wang、MetaAI科学家田渊栋、Lepton AI创始人贾扬清,人均一句难以置信。Sam Altman都忍不住出来表示,复刻已经被验证过奏效的东西是容易的。


随着模型性能逐渐走向全球第一梯队,DeepSeek迎来新的发展契机。

过去1年半,DeepSeek专注模型与研究,从2025年开始,DeepSeek着手做应用。

2025年1月15日,DeepSeek推出移动端AI助手DeepSeek APP。

目前看,DeepSeek APP跟网页版功能一致,主要有两个功能:联网搜索与深度思考,主打简洁,聊天记录会同步显示在手机端与网页端,尚未针对移动端进行特定功能打磨,没有市面上AI助手类APP丰富、fancy的功能,更像是能让你在手机上体验DeepSeek最新模型的入口。


DeepSeek开始做应用背后,可能的战略转向:前期DeepSeek靠自己算力优势积累出模型技术的领先度,后期要补数据,发APP是补数据的手段之一。

接入用户数据与场景,可以帮助DeepSeek更好进行模型能力迭代与升级。

有了DeepSeek-R1与其他模态、类型越来越好的模型,可以期待未来DeepSeek在代码模型/应用里,有更激进表现,惊喜才刚开始。

DeepSeek 接班OpenAI,最新开源的R1推理模型
时间:2025年1月21日

来源: 机器之心

字数:2,798

OpenAI最初愿景,最终被国内创业公司实现了?

大模型领域再次热闹起来,月之暗面发布在数学、代码、多模态推理能力层面全面对标OpenAI o1的多模态思考模型K1.5。

DeepSeek正式推出DeepSeek-R1,在数学、代码与自然语言推理等任务上,比肩OpenAI o1正式版。

2024年12月开源的大模型DeepSeek-V3刚掀起一阵热潮,实现诸多不可能。这次开源的R1大模型,在一开始就让一众AI研究者感到震惊,人们纷纷在猜测这是如何做到的。


AutoAWQ作者Casper Hansen表示,DeepSeek-R1使用多阶段循环的训练方式:基础-强化学习RL-微调-强化学习RL-微调-强化学习RL。

UC Berkeley教授Alex Dimakis认为,DeepSeek现在已经处于领先位置,美国公司可能需要迎头赶上。


目前,DeepSeek在网页端、APP端、API端,全面上线R1。

DeepSeek发布两个参数为660B的DeepSeek-R1-Zero与DeepSeek-R1,选择开源模型权重,允许用户使用R1训练其他模型。

技术层面,R1在后训练阶段,大规模使用强化学习RL技术,在仅用非常少标注数据的情况下,极大提升模型推理能力。

下图R1与o1-1217、o1-mini、DeepSeek-V3在多个数据集上性能比较,R1与o1-1217不相上下、互有胜负。


DeepSeek-R1蒸馏出6个小模型,参数从小到大,分别为1.5B、7B、8B、14B、32B、70B。6个模型同样完全开源,旨在回馈开源社区,推动OpenAI边界。

性能方面,蒸馏后的R132B与70B版本,远超GPT-4o、Claude 3.5 Sonnet、QwQ-32B,逼近o1-mini。

很多开发者关心的DeepSeek-R1 API价格,一如既往具有性价比。

DeepSeek-R1 API服务定价,每百万输入Tokens 1元缓存命中/4元缓存未命中,每百万输出Tokens 16元。

与o1的API定价比起来,每百万输入Tokens 15美元、每百万输出Tokens 60美元,DeepSeek具有极高性价比。

DeepSeek秉持开源到底的决心,将R1模型的训练技术全部开放,放出背后的研究论文。

R1 技术报告

以往的研究,主要依赖大量监督数据来提升模型性能。

DeepSeek开发团队,开辟全新的思路:即使不用监督微调SFT作为冷启动,通过大规模强化学习,也能显著提升模型推理能力。如果加上少量冷启动数据,效果更好。

为做到这一点,他们开发DeepSeek-R1-Zero。

具体来说,DeepSeek-R1-Zero主要有以下三点独特设计:

首先采用群组相对策略优化GRPO,降低训练成本。

GRPO不需要使用与策略模型同样大小的评估模型,直接从群组分数中估算基线。

对每个输入问题q,GRPO算法会从旧策略中采样一组输出{o1,o2,...,oG},形成评估群组,通过最大化目标函数来优化策略模型。


优势值A_i,通过标准化每个输出的奖励来计算。


其次是奖励设计。

如何设计奖励,决定RL优化方向。

DeepSeek给出的解法,是采用准确度与格式两种互补的奖励机制。

准确度奖励: 用于评估回答的正确性。数学题中,模型需要用特定格式给出答案以便验证;编程题中,通过编译器运行,测试用例获取反馈。

第二种是格式奖励: 模型需要将思考过程放在' '与' '两个特定的标签之间,提升输出的规范性。

团队没有使用常用的神经网络奖励模型,是在大规模强化学习过程中,模型可能会出现作弊问题;避免重新训练奖励模型需要额外资源,简化训练流程。

第三点是训练模版

GRPO与奖励设计基础上,开发团队设计简单模板来引导基础模型。这个模板要求DeepSeek-R1-Zero先给出推理过程,再提供最终答案。

这种设计,仅规范基本结构,不对内容施加任何限制或偏见,比如不强制要求使用反思性推理或特定解题方法。这种最小干预的设计,能够清晰观察模型在RL进步过程。

DeepSeek-R1-Zero提升,非常显著。

做2024年AIME数学奥赛试卷,DeepSeek-R1-Zero平均pass@1分数,从最初15.6%显著提升到71.0%,达到与OpenAI o1-0912相当的水平。

多数投票机制中,DeepSeek-R1-Zero在AIME中成功率,进一步提升到86.7%,甚至超过OpenAI o1-0912表现。

DeepSeek-R1-Zero与OpenAI o1-0912在多个推理相关基准测试上得分对比

训练过程中,DeepSeek-R1-Zero展现出显著自我进化能力。它学会生成数百~数千个推理Token,能够更深入探索与完善思维过程。

随着训练深入,模型发展出一些高级行为,比如反思能力与探索不同解题方法的能力。这些不是预先设定,而是模型在强化学习环境中自然产生。

开发团队观察到有趣的Aha Moment。

训练中期阶段,DeepSeek-R1-Zero学会通过重新评估初始方法,来更合理分配思考时间。

这可能是强化学习的魅力:只要提供正确奖励机制,模型能自主发展出高级的解题策略。

不过DeepSeek-R1-Zero存在一些局限性,如回答的可读性差、语言混杂等问题。

利用冷启动,进行强化学习

与DeepSeek-R1-Zero不同,为防止基础模型在RL训练早期出现不稳定的冷启动阶段,开发团队针对R1构建、收集少量长CoT数据,以作为初始RLactor对模型进行微调。

为收集此类数据,开发团队探索几种方法:以长CoT的少样本提示为例、直接提示模型通过反思与验证生成详细答案、以可读格式收集DeepSeek-R1-Zero输出、通过人工注释者的后处理来细化结果。

DeepSeek收集数千个冷启动数据,微调DeepSeek-V3-Base作为RL起点。

与DeepSeek-R1-Zero相比,冷启动数据的优势包括:

可读性: DeepSeek-R1-Zero一个主要限制,是内容通常不适合阅读。

响应可能混合多种语言或缺乏markdown格式,来为用户突出显示答案。

相比之下,在为R1创建冷启动数据时,开发团队设计了可读模式,在每个响应末尾,包含一个摘要,过滤掉不友好的响应。

潜力: 通过精心设计具有人类先验知识的冷启动数据模式,开发团队观察到相较DeepSeek-R1-Zero更好的性能。开发团队相信迭代训练,是推理模型的更好方法。

推理导向的强化学习

在利用冷启动数据对DeepSeek-V3-Base进行微调后,开发团队采用与DeepSeek-R1-Zero相同的大规模强化学习训练流程。

此阶段侧重增强模型的推理能力,特别是在编码、数学、科学、逻辑推理等推理密集型任务中。

为缓解语言混合的问题,开发团队在RL训练中,引入语言一致性奖励,计算方式为CoT中目标语言单词的比例。消融实验表明,这种对齐会导致模型性能略有下降,这种奖励符合人类偏好,更具可读性。

最后,开发团队将推理任务的准确率,与语言一致性的奖励直接相加,形成最终奖励。

然后对微调后的模型,进行强化学习RL训练,直到它在推理任务上实现收敛。

拒绝采样与监督微调

当面向推理导向的强化学习收敛时,开发团队利用生成的检查点,为后续轮次收集SFT监督微调数据。此阶段结合来自其他领域的数据,以增强模型在写作、角色扮演、其他通用任务中的能力。

开发团队通过从上述强化学习训练的检查点,执行拒绝采样,来整理推理提示,生成推理轨迹。

此阶段通过合并其他数据扩展数据集,一些数据使用生成奖励模型,将基本事实与模型预测输入DeepSeek-V3进行判断。

开发团队过滤掉混合语言、长段落与代码块的思路链。

对每个提示,他们会抽取多个答案,仅保留正确答案。最终,开发团队收集约60万个推理相关的训练样本。

用于所有场景的强化学习

为进一步使模型与人类偏好保持一致,这里还要实施第二阶段强化学习,旨在提高模型有用性与无害性,完善推理能力。

研究人员使用奖励信号与各种提示分布的组合,来训练模型。

对推理数据,遵循DeepSeek-R1-Zero中概述的方法,该方法利用基于规则的奖励来指导数学、代码、逻辑推理领域的学习过程;对一般数据,采用奖励模型,捕捉复杂、微妙的场景中的人类偏好。

奖励信号与多样化数据分布的整合,使我们能够训练出在推理方面表现出色的模型,优先考虑有用性与无害性。

蒸馏:让小模型具备推理能力

为使更高效的小模型具备DeekSeek-R1推理能力,开发团队直接使用DeepSeek-R1整理的80万样本,对Qwen与Llama等开源模型进行微调。

研究结果表明,简单的蒸馏方法,显著增强小模型推理能力。

受益以上多项技术创新,开发团队大量基准测试表明,DeepSeek-R1实现比肩业内SOTA推理大模型的硬实力。

省钱是技术活:解密DeepSeek极致压榨术
时间:2024年12月31日

来源: 腾讯科技

字数:6,166

DeepSeek-V3横空出世,用一组惊人数据,完美诠释没有GPU Poor,只有卷得不够多。

当o1、Claude、Gemini、Llama 3等模型,为数亿美元训练成本苦恼时;DeepSeek-V3用557.6万美元预算,2,048 H800 GPU集群,花费3.7天/万亿Tokens训练时间,达到足以与它们比肩的性能。

这个数字意味着什么? 每万亿Tokens,仅需180K个H800 GPU小时,总计278万GPU小时训练成本。

Llama 3.1训练,使用16,384块Nvidia H100 GPU,总计2,100多万GPU小时,翻了10倍。

通过671B总参数量,在每个Token激活37B参数的精准控制下,DeepSeek-V3用14.8万亿高质量多样化Token,构建出能够超越所有开源模型,直逼GPT-4、Claude-3.5的AI巨人。


X/推特上赞叹一片。OpenAI早期成员Andrej Karpathy表示,DeepSeek-V3的出现,意味着不需要大型GPU集群来训练前沿大语言模型,表明大模型在数据与算法方面有很大提升空间。


Scale AI创始人Alexander Wang表示,DeepSeek-V3带来的辛酸教训是,当美国休息时,中国在工作,更低成本、更快速度迎头赶上,变得更强。


更多人认为,这是来自东方的魔法,这个魔法叫工程科学。看完DeepSeek 53页技术报告,发现它惊人的低训练价格、与强悍的能力全部有迹可循。


预训练阶段,对性能影响有限的地方,他们选择极致压缩;后训练阶段,对模型擅长的领域,倾注全力提升。在之前大家赞许争论之声未止,魔法的面纱没人掀开。

腾讯科技抽取出最核心的那部分,用更平实的语句解释DeepSeek-V3省钱高效背后的技术路径。

训练省钱法门:能压都压,全不空转

传统之中,大模型训练降低成本,主要靠:压缩、并行、提升硬件使用效率。

DeepSeek-V3所用方法是猛挥这三板斧。

压缩:从结构到量化

压缩容易理解,把大的东西压缩成小的。







请到「今天看啥」查看全文