专栏名称: 结构先声
PKPM结构官方号,分享技术干货和结构产品最新资讯。现在关注即可获得【软件参数解析工具书】、【减隔震资料包】一份!研发和技术人员答疑,全网最准确的PKPM软件问题解答。
目录
相关文章推荐
51好读  ›  专栏  ›  结构先声

DeepSeek学习笔记(1)——做到了什么

结构先声  · 公众号  ·  · 2025-02-24 17:34

正文

请到「今天看啥」查看全文


60xs72cf.png




前面6期文章我们详细学习讨论了国内外规范中规定的反应谱,清楚了反应谱的诞生过程与动力学原理,对动力放大系数、地震影响系数最大值、阻尼比取值等反应谱关键参数的由来与现存问题已有所了解。

未来几期文章对DeepSeek进行学习讨论。




DeepSeek公司



杭州深度求索人工智能基础技术研究有限公司(DeepSeek)成立于2023年,为通用人工智能(AGI)研发商,专注于大语言模型(LLM)开发。DeepSeek股东为宁波程恩公司与梁文峰,宁波程恩公司也由梁文峰绝对控股(>50%)。梁文峰于2015、2016年分别成立了浙江九章公司与宁波程采公司并绝对控股;浙江九章公司控股宁波幻方公司;宁波程采公司与宁波幻方公司于2018年共同成立了宁波幻方量化投资管理合伙企业(幻方量化)。幻方量化是一家依靠数学与人工智能进行量化投资的对冲基金公司,是国内首家突破千亿规模的的量化私募基金,年复合收益率曾超过100%,近几年有较大回落并计划退出对冲领域。

1.png



DeepSeek产品



通过网页端或APP可实现与DeepSeek-V3免费对话,并可实时切换到深度思考模式DeepSeek-R1,解决推理问题。DeepSeek大模型支持文本、代码、数学推理等任务,还支持图像、音频、视频等多模态输入和输出。DeepSeek提供了二次开发API接口,与OpenAI兼容,可以使用OpenAI SDK访问DeepSeek API,或使用与OpenAI API兼容的软件。

遵循MIT License,DeepSeek开源了DeepSeek-R1-Zero、DeepSeek-R1两个模型,实现了完全开源、不限制商用、无需申请,允许用户通过蒸馏技术训练其他模型。DeepSeek-R1在数学、代码、自然语言推理等任务上性能比肩OpenAI o1 正式版,如下图所示:

2.png



DeepSeek大模型的高性价比



DeepSeek-R1相对其他自然语言大模型,具有明显的低价优势,表现在如下几个方面:

1、据广泛认可的数据,DeepSeek-R1成本为600万美元左右,该数据的准确表述应为其前期DeepSeek-V3版本的预训练成本(根据DeepSeek发布的学术文章中的数据),约为同类模型(如Meta Llama3.1)训练成本的1/10;

2、DeepSeek从幻方量化拆分出来后,购买GPU显卡费用约7亿美元,根据SemiAnalysis的研究报告分析,DeepSeek拥有6万张性能不等的计算显卡,远低于其他大模型公司的数量,另外搭建服务器费用约9亿美元,计入运营成本后总费用约26亿美元;

3、DeepSeek-R1是一个相对较小的大模型,共有671B(6710亿参数,约为GPT-4的1/3),一次推理调用参数约37B(370亿参数);

4、DeepSeek-R1通过强化学习技术(RL),在仅有极少标注数据(SFT)的情况下极大提升了模型推理能力,这是其成本较低的最主要原因。



DeepSeek学术论文



DeepSeek AI团队在康奈尔大学arXiv上发表了3篇重要论文,据此可以了解和学习DeepSeek的主要学术思想。

1、《DeepSeek LLM:以长期主义扩展开源语言模型》 [1]

3.png

该文于2024年1月发布,摘要如下:

开源大语言模型(LLMs)的快速发展确实令人瞩目。然而,先前文献中描述的扩展规律得出了不同的结论,这为扩展LLMs蒙上了一层阴影。我们深入研究了扩展规律,并提出了独特的发现,这些发现促进了在两种广泛使用的开源配置(7B和67B)中扩展大规模模型。在扩展规律的指导下,我们推出了DeepSeek LLM项目,这是一个致力于从长远角度推进开源语言模型的项目。为了支持预训练阶段,我们开发了一个目前包含2万亿token且不断扩展的数据集。我们进一步对DeepSeek LLM基础模型进行了监督微调(SFT)和直接偏好优化(DPO),从而创建了DeepSeek Chat模型。我们的评估结果表明,DeepSeek LLM 67B在一系列基准测试中超越了LLaMA-2 70B,尤其是在代码、数学和推理领域。此外,开放式评估显示,我们的DeepSeek LLM 67B Chat在性能上优于GPT-3.5。


2、《DeepSeek-V3:技术报告》 [2]

4.png

该文于2024年12月发布,摘要如下:

我们推出了DeepSeek-V3,这是一个强大的混合专家(Mixture-of-Experts, MoE)大语言模型,总参数量为6710亿,每个token激活的参数量为370亿。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力机制(Multi-head Latent Attention,MLA)和DeepSeeMoE架构,这些架构在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3首次采用了无辅助损失的负载均衡策略,并设定了多token预测训练目标以提升性能。我们在14.8万亿个多样化且高质量的token上对DeepSeek-V3进行了预训练,随后通过监督微调和强化学习阶段充分释放其潜力。综合评估表明,DeepSeek-V3超越了其他开源模型,并达到了与领先闭源模型相当的性能。尽管其性能卓越,DeepSeek-V3的完整训练仅需278.8万H800 GPU小时。此外,其训练过程非常稳定,在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或进行任何回滚操作。

模型检查点可在以下链接获取: https://github.com/deepseek-ai/DeepSeek-V3。


3、《DeepSeek-R1:通过强化学习提升大型语言模型的推理能力》 [3]

5.png

该文于2025年1月发布,摘要如下:

我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,无需监督微调(SFT)作为前置步骤,展现了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。然而,它也面临一些挑战,例如可读性差和语言混合问题。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,它在强化学习之前引入了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上实现了与OpenAI-o1-1217相当的性能。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1;对标Qwen和Llama,从DeepSeek-R1蒸馏出了6个稠密模型(1.5B、7B、8B、14B、32B、70B)。



总结



本期文章对DeepSeek公司、产品、大模型高性价比及其学术论文进行了学习,可以看出:

1、DeepSeek的产生是长期积累的结果,其诞生过程包含着深刻的历史发展、社会环境和个人努力因素;

2、DeepSeek的成长基于巨人的肩膀,又继续增高了巨人肩膀的高度;

3、DeepSeek带来的不仅仅是高性价比AGI功能,对其进行多方面了解也能让我们受益。


参考文献:

[1] https://arxiv.org/pdf/2401.02954

[2] https://arxiv.org/pdf/2412.19437

[3] https://arxiv.org/pdf/2501.12948




BREAK AWAY
往期推荐
0 1

杨博士专刊 | 又土又木的AI(4)——AI与 科学

0 2
杨博士专刊 | 又土又木的AI(5)——AI技术革命
0 3

杨博士专刊 | 又土又木的AI(6)——AI与爬虫语言







请到「今天看啥」查看全文