DeepSeek-V3的能力确实相当惊艳,相较于其他顶尖开源模型如LLama 3.1 405B,Qwen2.5 72B,在数据上都更胜一筹。甚至在和Claude 3.5 Sonnet和GPT-4o这两个最顶尖模型的比较上都有多项数据更强。尤其在数学推理、代码生成和长文本处理等方面达到了业界领先水平。在GSM8K数学推理测试中取得92.1%的高分,在HumanEval代码评估中以88.3%的成绩超越GPT-4,同时还具备32K的长文本处理能力。但从Benchmark本身和DeepSeek的技术报告中,我们也可以看出DeepSeek-V3在一些层面上是有偏科的。它的创意生成相对薄弱,开放性任务表现一般,结构化思维的能力远高于发散思维。甚至在专业领域比通用领域表现的更好。首先是基础。DeepSeek-V3 的总参数量有671B,每个token激活37B参数。整体参数总量比Llama 3.1 405B还高,也远超Qwen 2.5的72B。在Scaling Law尚未碰壁的情况下,参数大小上的优势依然是实实在在的。而且在上面的训练过程中,我们看到DeepSeek-V3虽然全力压缩数据,但在工程中尽可能的降低了对模型质量的影响。这就是DeepSeek的底子。但能让它更上一层楼的还有其他几个关键因素。首先是数据,高效的数据选择就意味着快速的性能提升。DeepSeek-V3在数据处理方面展现可以说是精益求精,卷到极致。其数据处理策略涵盖了从原始数据采集到最终训练集构建的完整流程。根据DeepSeek 的技术报告,在训练V3的过程中,DeepSeek用了14.8万亿tokens的预训练。而作为对比Llama 3.1用了15万亿tokens,而Qwen 2.5的训练则使用了18万亿token。首先在数据源的选择上,DeepSeek-V3采用了更多元化的数据获取策略。基础训练数据来源于经过严格筛选的CommonCrawl语料库,这确保了数据的广泛性和代表性。除此之外,研发团队还特别重视专业领域数据的引入,包括大规模的代码数据集、数学推理数据、科学文献等。在数据清洗环节,DeepSeek采用了专有的数据过滤算法,实施了多层次的质量控制。这个过程首先对原始数据进行重复内容的识别和删除,确保数据的唯一性。随后,通过智能算法筛除低质量内容,包括格式错误的数据、不完整的文本片段以及不符合规范的内容。这种严格的数据清洗流程不仅提高了训练数据的质量,也为模型的最终表现奠定了良好基础。数据处理的技术实现上,DeepSeek-V3采用了一系列先进的处理方法。首先是统一的tokenizer设计,确保了数据处理的一致性。其次是动态序列长度调整机制,这使得模型能够更好地处理不同长度的输入。通过数据混合采样策略和课程学习方法,他们也优化了训练过程中的数据使用效率。DeepSeek引入的多token预测(MTP)技术堪称一个Game Changer。这项技术实际上是Meta在今年4月30号提出的,DeepSeek对新技术的应用甚至快过Meta自己。传统语言模型一次只预测一个token的范式。它就像是让模型从"一字一句"地朗读,进化为"整句整段"地理解和生成。在训练过程中,模型不再局限于预测序列中的下一个token,而是学会同时预测多个连续位置的token。这种并行预测机制不仅提高了训练效率,还让模型能够更好地捕捉token之间的依赖关系。在保持输出质量的同时,模型整体性能提升2-3%。在推理阶段,MTP的优势更加明显。传统模型生成文本时就像是在"一笔一划"地写字,而MTP则像是"提前打草稿",可以同时生成多个token。通过创新的推测解码机制,模型能够基于当前上下文同时预测多个可能的token序列。即使某些预测不准确需要回退,整体效率仍然显著提升。这种并行生成机制使推理速度提升了1.8倍,还显著降低了计算开销。除了在数据选择上更多引入了专业数据之外,还要提到后训练过程中,DeepSeek对R1的蒸馏使用。这一方面提升了模型的能力,也让它有点偏科。DeepSeek R1 系列模型是DeepSeek在复现GPT-o1上的最新尝试。它在今年11月21日才发布Preview版本,就已经用在对DeepSeek-V3的蒸馏上了。这一模型本身使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。在编程和数学能力方面甚至在几项指标上超越了GPT-o1-preview。通过从DeepSeek-R1系列模型中蒸馏推理能力,即从R1模型中提取关键的推理模式和解题策略作为数据微调DeepSeek主干模型,并采用循序渐进课程学习等先进方法,DeepSeek-V3模形式化思维能力得到了大幅强化。此外,在蒸馏过程中,V3还学会了对结构化数据处理和长序列计算进行了优化。从数据上看,仅仅通过R1蒸馏,就可以给DeepSeek V2.5带来数学和编程上近20%的大幅提升。但就像GPT-o1显示出的情况一样,这部分强化学习加成很难能够泛化到数学和编程之外,因此DeepSeek-V3的偏科在所难免。因此,DeepSeek-V3很强,但仍然还有很大优化的空间。在外网关于DeepSeek-V3的一片赞许声中,其实也有相当的怀疑之声。Sam Altman就疑似嘲讽DeepSeek-V3缺乏真正创新的方法,而仅仅是复制有效的东西。