专栏名称: 结构先声

PKPM结构官方号，分享技术干货和结构产品最新资讯。现在关注即可获得【软件参数解析工具书】、【减隔震资料包】一份！研发和技术人员答疑，全网最准确的PKPM软件问题解答。

DeepSeek学习笔记（1）——做到了什么

结构先声 · 公众号 · · 2025-02-24 17:34

正文

请到「今天看啥」查看全文

前面6期文章我们详细学习讨论了国内外规范中规定的反应谱，清楚了反应谱的诞生过程与动力学原理，对动力放大系数、地震影响系数最大值、阻尼比取值等反应谱关键参数的由来与现存问题已有所了解。

未来几期文章对DeepSeek进行学习讨论。

一

DeepSeek公司

杭州深度求索人工智能基础技术研究有限公司（DeepSeek）成立于2023年，为通用人工智能（AGI）研发商，专注于大语言模型（LLM）开发。DeepSeek股东为宁波程恩公司与梁文峰，宁波程恩公司也由梁文峰绝对控股（>50%）。梁文峰于2015、2016年分别成立了浙江九章公司与宁波程采公司并绝对控股；浙江九章公司控股宁波幻方公司；宁波程采公司与宁波幻方公司于2018年共同成立了宁波幻方量化投资管理合伙企业（幻方量化）。幻方量化是一家依靠数学与人工智能进行量化投资的对冲基金公司，是国内首家突破千亿规模的的量化私募基金，年复合收益率曾超过100%，近几年有较大回落并计划退出对冲领域。

二

DeepSeek产品

通过网页端或APP可实现与DeepSeek-V3免费对话，并可实时切换到深度思考模式DeepSeek-R1，解决推理问题。DeepSeek大模型支持文本、代码、数学推理等任务，还支持图像、音频、视频等多模态输入和输出。DeepSeek提供了二次开发API接口，与OpenAI兼容，可以使用OpenAI SDK访问DeepSeek API，或使用与OpenAI API兼容的软件。

遵循MIT License，DeepSeek开源了DeepSeek-R1-Zero、DeepSeek-R1两个模型，实现了完全开源、不限制商用、无需申请，允许用户通过蒸馏技术训练其他模型。DeepSeek-R1在数学、代码、自然语言推理等任务上性能比肩OpenAI o1 正式版，如下图所示：

三

DeepSeek大模型的高性价比

DeepSeek-R1相对其他自然语言大模型，具有明显的低价优势，表现在如下几个方面：

1、据广泛认可的数据，DeepSeek-R1成本为600万美元左右，该数据的准确表述应为其前期DeepSeek-V3版本的预训练成本（根据DeepSeek发布的学术文章中的数据），约为同类模型（如Meta Llama3.1）训练成本的1/10；

2、DeepSeek从幻方量化拆分出来后，购买GPU显卡费用约7亿美元，根据SemiAnalysis的研究报告分析，DeepSeek拥有6万张性能不等的计算显卡，远低于其他大模型公司的数量，另外搭建服务器费用约9亿美元，计入运营成本后总费用约26亿美元；

3、DeepSeek-R1是一个相对较小的大模型，共有671B（6710亿参数，约为GPT-4的1/3），一次推理调用参数约37B（370亿参数）；

4、DeepSeek-R1通过强化学习技术（RL），在仅有极少标注数据（SFT）的情况下极大提升了模型推理能力，这是其成本较低的最主要原因。

四

DeepSeek学术论文

DeepSeek AI团队在康奈尔大学arXiv上发表了3篇重要论文，据此可以了解和学习DeepSeek的主要学术思想。

1、《DeepSeek LLM：以长期主义扩展开源语言模型》 ^[1]

该文于2024年1月发布，摘要如下：

开源大语言模型（LLMs）的快速发展确实令人瞩目。然而，先前文献中描述的扩展规律得出了不同的结论，这为扩展LLMs蒙上了一层阴影。我们深入研究了扩展规律，并提出了独特的发现，这些发现促进了在两种广泛使用的开源配置（7B和67B）中扩展大规模模型。在扩展规律的指导下，我们推出了DeepSeek LLM项目，这是一个致力于从长远角度推进开源语言模型的项目。为了支持预训练阶段，我们开发了一个目前包含2万亿token且不断扩展的数据集。我们进一步对DeepSeek LLM基础模型进行了监督微调（SFT）和直接偏好优化（DPO），从而创建了DeepSeek Chat模型。我们的评估结果表明，DeepSeek LLM 67B在一系列基准测试中超越了LLaMA-2 70B，尤其是在代码、数学和推理领域。此外，开放式评估显示，我们的DeepSeek LLM 67B Chat在性能上优于GPT-3.5。

2、《DeepSeek-V3：技术报告》 ^[2]

该文于2024年12月发布，摘要如下：

我们推出了DeepSeek-V3，这是一个强大的混合专家（Mixture-of-Experts, MoE）大语言模型，总参数量为6710亿，每个token激活的参数量为370亿。为了实现高效的推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力机制（Multi-head Latent Attention，MLA）和DeepSeeMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次采用了无辅助损失的负载均衡策略，并设定了多token预测训练目标以提升性能。我们在14.8万亿个多样化且高质量的token上对DeepSeek-V3进行了预训练，随后通过监督微调和强化学习阶段充分释放其潜力。综合评估表明，DeepSeek-V3超越了其他开源模型，并达到了与领先闭源模型相当的性能。尽管其性能卓越，DeepSeek-V3的完整训练仅需278.8万H800 GPU小时。此外，其训练过程非常稳定，在整个训练过程中，我们没有遇到任何不可恢复的损失峰值或进行任何回滚操作。

模型检查点可在以下链接获取： https://github.com/deepseek-ai/DeepSeek-V3。

3、《DeepSeek-R1：通过强化学习提升大型语言模型的推理能力》 ^[3]

该文于2025年1月发布，摘要如下：

我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练而成的模型，无需监督微调（SFT）作为前置步骤，展现了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。然而，它也面临一些挑战，例如可读性差和语言混合问题。为了解决这些问题并进一步提升推理性能，我们推出了DeepSeek-R1，它在强化学习之前引入了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上实现了与OpenAI-o1-1217相当的性能。为了支持研究社区，我们开源了DeepSeek-R1-Zero、DeepSeek-R1；对标Qwen和Llama，从DeepSeek-R1蒸馏出了6个稠密模型（1.5B、7B、8B、14B、32B、70B）。

五

总结

本期文章对DeepSeek公司、产品、大模型高性价比及其学术论文进行了学习，可以看出：

1、DeepSeek的产生是长期积累的结果，其诞生过程包含着深刻的历史发展、社会环境和个人努力因素；

2、DeepSeek的成长基于巨人的肩膀，又继续增高了巨人肩膀的高度；

3、DeepSeek带来的不仅仅是高性价比AGI功能，对其进行多方面了解也能让我们受益。

参考文献：

[1] https://arxiv.org/pdf/2401.02954

[2] https://arxiv.org/pdf/2412.19437

[3] https://arxiv.org/pdf/2501.12948

BREAK AWAY

往期推荐

0 1

杨博士专刊 | 又土又木的AI（4）——AI与科学

0 2

杨博士专刊 | 又土又木的AI（5）——AI技术革命

0 3

杨博士专刊 | 又土又木的AI（6）——AI与爬虫语言