本来以为大年夜可以休息一下,不再更新,不过早上一起来发现隔夜英伟达的股票大跌了16%,同时Deepseek又发布了一个新的多模态模型——Janus-Pro-7B。
虽然这两件事对广大A股投资者的关系不是那么大,尤其我们还要休市整整一周,但考虑到整个半导体行业对 A股的成长股还是有着非常重要的映射,再加上这也是近期最热门的话题。
本着跟踪A股整个人工智能、机器人、半导体行业的发展角度,我觉得还是有必要写一篇聊一聊我眼中这次Deepseek爆红的四个关键词,不是技术层面的考量,更多是一些有趣的观察。
API 与编程
第一个点是API和编程。
其实在Deepseek发布 R1 模型的同日,Kimi 也发布了深度推理的相关模型,但是你会发现如今人人提的都是 Deepseek,Kimi 这件事几乎被大家淡忘了。
为什么会出现这样的情况?咋看有点古怪,毕竟从 Kimi 发布的数据来看,其实模型的质量不差。
但后来再仔细一想,尤其是查了一下 Kimi 的开发者平台,我觉得一个很可能的原因就是 Kimi 还是预览版,并没有成熟的 API 可用。
这里我们回顾一下时间线,Deepseek其实在 2024 年 11 月 20 日就发布了 R1 Lite 模型,当时就强调在非常多的数据比赛中已经赶超了 OpenAI 的 O1 模型。
但是当时那个模型只能在官方网页上使用,所以并没有破圈。
但是 1 月 20 日,这次 R1 模型发布之后是同步上线了 API,这意味着可以通过各类程序去调用,我觉得其实是Deepseek这次大幅走红非常重要的一点。
你看这一波在赞美Deepseek的用户,最多的一批是来自于 X (原Twitter) 上的程序员,他们原本的代码最佳实践是采用 OpenAI 的 o1 模型进行整个程序开发的架构规划,然后再用 Claude Sonnet 3.5进行编码。这样的操作虽然表现很不错,但是 o1 模型的成本实在是太高了。
在这样的一个前提下,伴随 Deepseek R1 发布了 API,这意味着可以将原本的工作流快速地从 OpenAI o1 切换到 Deepseek R1 上,许多人都做了这样的尝试,并获得了非常好的结果。
说到底,跑分这件事儿其实里面有很多的猫腻在里面,但是程序员编码的实践是最真实的,很多人觉得好用自然就会在 X 上大幅推广。其实这一点我们从 Openrouter 这个 API 集成网站上,Deepseek R1 模型的调用就可以看到,前两名的都是现在炙手可热的 AI 编程工具。
可见的确从海外市场来看,Deepseek R1 的主要调用是来自于程序员,是来自于编码工作。
也正是因为 Deepseek R1 能够胜任 OpenAI o1 的任务,而且又是一个非常低的成本,所以程序员就立竿见影地倒戈了,并带来了第一波的声量。这一点我觉得是Deepseek R1 成功的根本,同时也是 Kimi 我觉得未来一个最大的挑战。
Deepseek它的 API 开放做得非常好,哪怕是早在 V2.5 的时代,通过 Openrouter 就已经可以调用Deepseek的大模型了。但是迄今为止,在 Openrouter 这样的 API 市场中依然调用不到任何 Kimi 的模型。
对许多老外来说,Kimi 是一个被忽略的国产大模型,这与 Kimi 在国内市场的极高知名度是迥异的。
我们可以看到Deepseek这两天,其实对于 API 的服务是在加剧重视的。
Deepseek有一个网站(https://status.deepseek.com/)会公布 API 服务的可运行时间。从那个网站我们可以看到,在 1 月 27 日,无论是网页对话服务还是 API 服务都出现了一个多小时的故障。
但是进入 1 月 28 日后,其实网站服务依然出现了 10 个小时的性能异常,但是 API 服务整体就没有出现异常。显然Deepseek内部做了调整,首先确保 API 的应用可访问性。
这一点显然非常重要。API 调用都是付费的,而且很多人是预充值的,这批用户往往是将Deepseek已经应用在一个非常重要的应用或者应用场景上。对于这批又付钱又使用核心开发的一些死忠粉,当然是应该要服务好的,尤其是海外市场的付费用户在 X 上有着极大的影响力。
用力过猛的文字风格
如果说 API 和编程是Deepseek在海外引爆的第一个点,那么我觉得第二个点,尤其是在国内普通人这引爆,是和Deepseek的独特文字风格有着极为重要的关系。
之前我在自己的小红书和即刻上分享过很多关于用Deepseek写作的测试。
平心而论,我其实并不太喜欢Deepseek的文字风格,我始终觉得Deepseek-R1像是一个看了很多书的高中生,非常喜欢掉书袋,喜欢去堆砌名词,来显得自己很有学问,写出来的东西其实是非常浮夸。
就像之前我让 Claude 去评估 GPT-4o 和 Deepseek R1 的写作,Claude 就认为 Deepseek R1 有一个用力过猛的问题,所以很多时候我必须要通过额外的提示词(不编造案例,不晦涩,不要用名人名言,不要滥用学术名词,注意可读性和流畅性)去禁止Deepseek写出那么浮夸的文章。
但不可否认的就是,这个时代,浮夸是有浮夸的好,比如动不动Deepseek喜欢输出的什么量子力学、纠缠、坍塌这些高大上的词汇,对许多普通人来说就会觉得的确是非常的高深。
又比如Deepseek在古文上的一些特点,用水浒的风格,用红楼梦的风格去仿写上,它的特质会非常明显。这种特质虽然在写普通文章的时候会被认为是用力过猛,但是在仿写的时候,它就会具有极强的仿写浓度,让人觉得仿写的非常强。
Deepseek用力过猛,所以会努力地去制造和堆砌金句,这同样迎合了许多场景的需求。
比如葬愛咸鱼兄最近的一篇文章《我完全用AI工作了一个月》中就提到,他最近写的那篇一句话锐评非虚构里面对三联生活周刊和正面连接的评价,就是来自于 Deepseek。
Deepseek可以写出这样刻薄尖锐的句子,但是 Claude 可能是因为它的价值观的原因,就不会写得那么刻薄。虽然对Deepseek的这种浮夸,我觉得会带来很多后期使用上的问题,尤其是会编造名人名言,编造一些理论,但是无可否认是这样的金句在大家随便看看随便传播中是最具有特质的。
此外,由于Deepseek不太做“对齐”工作,所以可以引发很多暗黑讨论,这也会引发大家的关注。
大模型好不好,普通人只能从最容易感知的地方去评价。夸张的文字风格,对普通人来说最容易感知,也最容易发起称赞的,这就像一年前 Kimi 可以对 200 万字的文章进行检索,这样一个普通人能够感知的点,就确立了 Kimi 作为一个大模型的地位,而让很多人其实会忽略 Kimi 在其他层面并不那么强,这一点我觉得其实也是非常重要的。
开源
Deepseek是一个开源的模型,这意味着任何的人都可以下载它的模型,并且本地化的部署。
如果你去访问现在的 Ollama(https://ollama.com/) 这样的一个本地部署程序,你就会发现它在首页就将Deepseek和其他几个知名的开源大模型并列放在首页去推荐。显然,Deepseek 获得了开源界的加持。
如果你搜一下小红书或者X,你也会发现许多人当然(包括我)都有分享过在自己的机器上部署Deepseek蒸馏出来的一些小模型的体验。比如我现在在自己的 iMac 上就部署了 qwen蒸馏 14b 的版本。
在 X 上你还能看到牛人用 7 台 M4 Mac Mini 再加一台 MacBook Pro 串联来部署整个 67B 的完整的 Deepseek R1 模型的视频。
这种极具视觉冲击力的分享,其实也大大丰富了关于Deepseek传播的声量。
X
在聊之前的关键词时,X也就是曾经的推特,是被反复提及的。
在全球的大模型产业,X应该说是最核心的一个信息渠道,几乎所有知名的人工智能的研究者,包括 OpenAI 的那些人都在上面发布最新的内容。
显然梁文峰是很了解这套生态的。所以他在去年的 11 月 24 日注册了账号,同时在 27 日Deepseek红火之后,开始接连地在 X 上发布帖子。
除了介绍 R1 的性能、价格之外,同时还用多条帖子的方式宣布了最新的 Janus-Pro-7B 多模态模型的发布。
不仅如此,他还预告了 2 月 25 日会有大事件。
这样的吊胃口绝对是懂 X 传播的。这样差不多一个月的时间窗口,恐怕对整个其他的竞争对手都是一个非常大的压迫。竞争对手不仅要担心 2 月 25 日能够发布一个非常强的模型,同时也要担心潜在用户未来一个月内压抑付费使用其他应用的欲望。总体上来说Deepseek还是非常懂传播的。
Deepseek的崛起或许标志着大模型竞争正迈入“可用性红利”时代。当技术代差逐渐收窄,开源生态的繁荣度、API的易用性、单位token的性价比将构成新的护城河。这不仅是中国团队的突破性胜利,更是全球开发者社区协同进化的里程碑——通过开源协议,Deepseek的模型权重正在硅谷车库、柏林创客空间、东京研究所里被二次开发,这种知识共享的涟漪效应可能催生出远超预期的创新应用。站在生产力革命的拐点,我们乐见更多“技术物种”的涌现:既有追求极致参数量的“超级大脑”,也有深耕垂直场景的“领域专家”,更不乏专注边缘计算的“轻量精灵”。当模型竞技场从跑分榜单转向真实世界的生产力释放,或许这才是人工智能普惠人类的应有之义。
今天的突破只是起点,长征还在继续。