序言
这又是一篇共创文章,秘塔负责整合资料,Deepseek R1 负责综述资料,V3 负责撰文,而我就负责发几个指令,复制粘贴,以及写这段序言。所以,本文不是为了让你真的去看 Deepseek 的成长史,而是为了让你了解当下几个强大 AI 功能结合,以及可以到什么地步了。
这几天,Deepseek 依然在遭受攻击,所以官方的“联网搜索”功能始终不能用。这时候,秘塔接入 Deepseek R1 无疑是久旱逢甘露。秘塔应该算国内最好的 AI 加强搜索平台了,之前就一直给亲友推荐。不过那时候的秘塔,擅长搜索,尤其是结合学术文献、播客各类的专业搜索,再配合 AI 总结,但那时候用的 AI 模型比较弱。但如今,只要开启下面的长思考·R1,就可以由强大的R1来负责综述总结,这样的结果自然是如虎添翼。
我做了一个尝试,让秘塔“请按照时间线,综述 Deepseek 成立以来的所有大模型产品,包括产品特性、优势”。综述的结果,可以看下面这个链接,秘塔这点很棒,不仅会给出所有搜索的链接,还能与人分享,这点比 R1 本身的联网搜索强多了。
https://metaso.cn/s/vXiOIQH
而且,生成的全文,可以导出为 Word 或者 PDF。
秘塔生成的这个综述,合计 8288 字,其实还是有点信息过载。
不过没关系,将导出的 PDF 文件扔给 Deepseek V3,用下面的提示词,就有了今天分享的这篇文章:
请基于我上传的 PDF 文件,写一篇“Deepseek:国产之光”的 1500 字专栏文章,综述 Deepseek 的发展历程,采用秦朔的文字风格,要有感染力
当然,这只是一个流程的展示。如果再搭配暗涌对 Deepseek 当家人梁文锋的两篇专访,再要求秘塔汇总一下各界大佬对 Deepseek 的赞美和质疑,那么可以写出更丰富的特稿级稿件。
在体验秘塔这个新功能时,也看到了 OpenAI 新出的深度研究,类似于谷歌此前的同类功能,会以30 分钟这种长时间去搜搜大量的资料写更深度的研究报告。
这些功能的出现,对于会用者是赋能,但对许多以重复性劳动为主要技能的从业者,却会是一个致命的冲击。
都说 AI 平权,但感觉上如果不能提升思考能力,AI 反而会拉大人与人之间的差距。
正文
Deepseek:中国AI新秀如何用极致性价比撼动全球大模型格局?
引言
2023年7月,一家名为Deepseek的公司在杭州悄然成立。这家由幻方量化创立的企业,凭借不到140人的团队,迅速成为国内大模型领域的耀眼新星。Deepseek不仅以技术创新和开源策略赢得了业界的广泛关注,更以极致的性价比和卓越的性能,向全球AI巨头发起挑战。短短两年间,Deepseek推出了一系列引人瞩目的大模型产品,从代码生成到多模态处理,从通用语言模型到复杂的推理能力,每一步都彰显着中国AI公司的创新力量。
早期布局:从代码生成到通用模型
Deepseek的崛起并非一蹴而就。2023年下半年至2024年初,公司陆续推出了几款基础模型,这些产品为Deepseek后来的辉煌奠定了坚实基础。
首先是Deepseek Coder,这款专为代码生成优化的开源模型,支持多种编程语言,如Python、Java、C++等。它不仅能帮助开发者快速完成代码编写和调试,还能通过智能代码补全和优化功能,显著提升开发效率。在公开评测中,Deepseek Coder在HumanEval任务中甚至超越了GPT-3.5-turbo,展现了其在编程领域的强大实力。
紧随其后的是Deepseek LLM,这款通用大语言模型致力于自然语言处理、知识问答等任务。通过高质量的训练数据和强化学习技术,Deepseek LLM在多项基准测试中表现优异。例如,在HellaSwag和数学推理任务中,其67B参数的版本显著优于7B参数的MHA模型,展现了其在复杂任务中的卓越能力。
此外,Deepseek还推出了国内首个稀疏混合专家模型Deepseek-MoE。这款模型通过动态激活专家机制,显著降低了训练成本,同时提高了模型的灵活性和扩展性。这一创新为Deepseek后续产品的技术路径铺平了道路。
技术突破:第二代MoE模型的诞生
2024年5月,Deepseek迎来了技术上的重大突破——Deepseek-V2的发布。这款第二代MoE模型以2360亿的参数规模,迅速成为业界关注的焦点。
Deepseek-V2的最大亮点在于其极低的API定价。输入每百万tokens仅需1元,输出每百万tokens仅需2元,这一价格仅为GPT-4 Turbo的近百分之一。这种“人工智能界的拼多多”策略,不仅让Deepseek-V2在性价比上占据了绝对优势,更引发了国内大模型市场的价格战。
在性能方面,Deepseek-V2同样令人惊叹。它支持128K长上下文,中文综合能力与GPT-4 Turbo相当,英文能力则超越了Mixtral8x22B。通过引入多头潜在注意力(MLA)和细粒度专家机制,Deepseek-V2的KV缓存减少了93.3%,吞吐量提升了5.76倍。这种高效的设计,不仅降低了显存占用,还为大规模部署提供了可能。
全面进阶:从推理优化到千亿模型
2024年下半年,Deepseek的产品线进一步扩展,推出了两款重磅模型。
首先是Deepseek-R1-Lite-Preview,这款预览版模型专注于复杂的逻辑推理任务,如数学竞赛和代码生成。通过强化学习和长思维链设计,Deepseek-R1-Lite在推理时间与准确率之间找到了平衡。它的表现验证了长链推理的有效性,同时也为后续的Deepseek-R1系列奠定了基础。
同年12月,Deepseek发布了千亿参数旗舰模型Deepseek-V3。这款6710亿参数的MoE模型,以其极低的训练成本和卓越的性能,再次震撼了业界。Deepseek-V3的激活参数仅37亿,通过14.8T token的训练,在百科知识、数学、编程等任务中全面超越了Qwen2.5-72B和Llama-3.1-405B。其生成速度较前代提升了3倍,API定价更降低到输入0.5元/百万token,输出8元/百万token,性价比远超Claude 3.5和GPT-4o。
多模态与闭源对标:迈向通用人工智能
进入2025年,Deepseek继续在多模态和闭源模型领域发力。
首先是Deepseek-R1,这款推理模型对标OpenAI的o1,支持深度推理任务,成本仅为GPT-4o的1/30。其强大的数学推理能力在AIME 2024上达到了79.8%的准确率,展现了其在复杂任务中的卓越表现。
此外,Deepseek还推出了Janus-Pro 7B多模态模型,这款开源模型专注于文字生成图像任务,性能接近全球顶尖水平。其低成本和高效设计,为多模态应用提供了更多可能性。
总结与展望
Deepseek的崛起,不仅是中国AI技术的一次飞跃,更是全球大模型领域的一次震撼。从早期布局到技术突破,从推理优化到多模态探索,Deepseek的每一步都充满了创新与挑战。其以“高性能+低价格”的竞争策略,迅速占领了市场,更推动了整个行业的变革。
未来,Deepseek计划在通用人工智能(AGI)领域继续探索,同时通过生态投资推动下游应用落地。尽管面临的国际竞争与合规挑战依然严峻,但Deepseek的脚步不会停止。这家来自中国的AI公司,正在用自己的方式,书写着全球人工智能的新篇章。
Deepseek,无疑是国产之光,更是全球AI领域的耀眼新星。它的故事,才刚刚开始。