专栏名称: 水木纪要
最有效、最及时分享公私募、公司、行业等投研纪要和市场热点分析。掌握市场信息差,掌握财富代码。
目录
相关文章推荐
南方能源观察  ·  电价飙升后,挪威不想再对外送电了 ·  昨天  
中国航务周刊  ·  【展商推介】深圳远恒峰,邀您莅临“2025国 ... ·  3 天前  
51好读  ›  专栏  ›  水木纪要

各海外投行对DeepSeek的影响和看法总结!

水木纪要  · 公众号  ·  · 2025-01-29 21:27

正文

更多一手调研纪要和海外投行研报数据,点击上面图片小程序

DeepSeek最新高盛交易台点评高盛(G. Esposito FICC&Equity, 25/01/28)

广泛的结论与DeepSeek规模框架

在DeepSeek的R1推理模型(由总部位于中国的量化对冲基金High-Flyer拥有,并建立在现有开源模型基础上,如Meta的Llama和阿里巴巴的Qwen)成功进行基准测试之后,广泛的AI主题交易反应较为消极,因为围绕支出水平、支出回报及当前趋势线的可持续性(无论是过去还是未来)提出了质疑。

除了模型本身,DeepSeek还推出了一款移动应用,截至发布时该应用在美国iOS应用商店排名第一。目前市场的反应主要由以下问题驱动:AI主题扩展所需的集体资本支出,已部署的历史资本及其相对的投资回报,以及未来资本需求的节奏/周期。这些问题可能会对科技和能源行业产生压力,直到更多公司管理层在2024年第四季度财报季节中提供自己的洞察和观点。

高盛的研究继续强调,AI主题的下一阶段演变可能会从基础设施层转向应用层(以AI代理、企业用例、日益增长的消费者效用和变化的计算习惯的形式),作为驱动2025年及以后的资本回报更线性理解的下一批可识别的证据。

DeepSeek有多大?

尽管消费者AI领域持续发展,DeepSeek的R1发布(官方发布日期:2025年1月20日 -)引发了关于影响三个层面的多个话题的讨论(基础设施、AI模型/平台和应用)。DeepSeek的移动应用(由公司V3模型提供支持,于2025年1月15日发布)自发布以来,下载量激增,但该应用的使用量并未以相同的速度扩展。

半导体

GIR认为,我们目前所看到的负面反应,是在DeepSeek发布的R1技术论文背景下出现的,论文暗示有办法以大幅降低成本的方式构建有效的AI模型。尽管如此,值得注意的是以下几点:a)DeepSeek报告的训练成本为560万美元,可能并不代表开发V3的全部成本,因为它似乎利用了其他开源模型;b)关于DeepSeek的V3模型训练所依赖的基础设施仍存在不确定性(即现有出口管制对领先GPU的有效性)。

团队重点提到,Nvidia、AMD、Broadcom、Marvell、Arm和Credo Technology在计算/网络领域,Micron在内存领域,以及Applied Materials、Lam Research、KLA、Teradyne和Entegris在晶圆厂设备、测试和材料领域的公司,这些公司为AI基础设施的建设提供了支持。如果现有厂商暂停重新评估其前瞻性资本支出计划,可能会受到负面影响;如果他们决定加速发展,可能会带来正面影响。

软件

虽然人工通用智能(AGI)是许多私营软件公司追求的“北极星”,但在应用层面,对于许多企业级生成AI应用而言,99百分位的模型并非必需。DeepSeek在基础模型层引入了定价竞争,正值许多企业用例的模型已经足够好之际。进一步的模型扩展以及降低成本应有助于催化AI工作负载的更广泛使用,并推动企业和消费者的采用。

随着团队看到中小型企业(SMB)和企业IT需求环境的早期改善信号,他们对2025年AI支出的增长持乐观态度。他们认为,计算成本降低的好处将流向像MSFT、CRM、NOW、ADBE等已经有成熟AI应用的公司,同时,从长远来看,这也可能为更多新兴软件公司提供创新机会。这一切对企业中的AI应用场景都是有利的。

高盛-人工智能的 “斯普特尼克时刻”

回溯到 2017 年 5 月,由谷歌支持的阿尔法围棋(AlphaGo)在三场长达 3 小时以上的马拉松式比赛中击败了世界排名第一的围棋选手柯洁。阿尔法围棋在这三场比赛中全胜。这就如同 1957 年苏联成功发射第一颗人造卫星进入轨道后,对美国民众的心理和政府政策产生了迅速而深远的影响一样,中国也开始行动起来。

在柯洁失利后不到两个月,中国政府发布了一项雄心勃勃的人工智能发展计划,预计到 2030 年,中国将成为全球人工智能创新的领先中心。2024 年 12 月,中国推出了 “悟道 2.0”(DeepSeek)—— 这是对标 GPT、Llama 3.1 等的产品,与此同时,字节跳动的云雀模型 1.5 专业版(Doubao - 1.5 Pro)和 MiniMax 的启智 K1.5(Kimi k1.5)模型也相继推出,这些都在几天内密集发布,彰显了中国在人工智能领域的持续进步。

在性能方面,这些模型至少与美国的同类模型相当,甚至更优。更重要的是,它们在训练和推理成本以及计算能力需求上显著更低 —— 这是对目前人工智能高投入问题的一个关键突破。高盛的罗纳德・姜(Ronald Keung)预计,中国的智能体人工智能竞赛将继续进行,并概述了 “悟道 2.0” 对中国互联网巨头的影响。

高盛交易台: 这件事的重要性其实并不在于说DeepSeek是中国开发的,或者它迅速登上苹果应用商店的下载榜单,而在于它似乎在AI技术效率上取得了根本性突破。从多个复杂的角度来看,它显著提升了推理的有效性。

据某些测量指标显示,其效率比其他模型高出40-50倍。如果能以更少的资源实现更多的功能,必然引发对容量需求的重新思考。这无疑会引发巨大的争论。

虽然在半导体设备或AI数据层推理的细微差别上并非专家,但鉴于这一主题此前为市场增加了巨大的市值,我们认为市场可能会迅速逆转。之前被称作“Power Up”的板块如今或将“Power Down”。半导体/AI/科技板块今天可能面临更大压力,或许也能解释为何近期英伟达(NVDA)股价持续回调。

早期资金流动迹象?

我们的交易台注意到半导体领域出现了战术性做空的早期迹象,尽管规模尚未显著。我们将密切关注资金流动的进一步发展。

DeepSeek专家Call核心要点 JP摩根 (G. Hariharan, 25/01/28)

电话会议的主要内容:

DeepSeek的创新来自于多个模型优化,包括专家混合(Mixture of Experts)、模型架构(如多头潜在注意力)、FP8的使用等。DeepSeek R1似乎不是一个独立的基础模型,而是可能建立在其他开源模型(如Lambda)的开发基础上,随后在专门的数据集上进行训练,包括其他大型语言模型(LLM)的输出。

DeepSeek的训练成本约为600万美元并不能完全反映真实情况,因为这个成本没有考虑其他间接费用、开发其他基础模型的成本等。似乎MoE模型已经被训练并优化以应对一些关键任务,如编程和数学,这使得它在这些任务上接近甚至超过OpenAI的性能。

这并不代表范式的转变,而更像是LLM模型、算法和技术的持续创新。如果这些效率被广泛实现,将导致推理模型成本大幅下降,从而加速Agentic AI的发展。目前,专家认为,Agentic AI可能在2025年仍然处于炒作阶段,实际部署可能会推迟到2026年,原因在于企业对于授权和信任的需求。专家对AI模型未来的演进持乐观态度,认为我们仍处于AI发展的初期阶段,类似于互联网普及周期的1996年,而非1999年。

前沿模型的开发影响尚不明确。他一直认为,LLM模型可能会迅速商品化,特别是在蓬勃发展的开源生态系统中。同时,他认为大型云服务提供商(CSPs)将继续追求前沿模型,作为区别化竞争的手段,并开辟生成式AI(如视频、现实世界AI、物理AI等)新的领域。

AI资本支出和能源使用预算可能会保持强劲,但如果R1的效率在所有新模型中得以实现,最终可能会对这些方面进行重新思考。然而,计算需求可能依然会非常强劲,因为便宜的推理过程将推动更多AI的普及。专家认为,500美元的推理成本可能会继续下降,从而进一步推动AI的普及和应用。

专家认为,对于中国的限制措施大多是徒劳的,且可能会使中国的更多AI发展对外界保持隐蔽。专家认为,更多的开放合作和信息共享有利于整体AI生态系统的发展,并能避免潜在的陷阱。

大摩- 1月24日,包括CNBC和IT Media AI+在内的多家媒体报道称,中国人工智能初创公司DeepSeek于去年12月底以开源软件的形式发布了一款大型语言模型(LLM)。

DeepSeek——中国开发的开源且更便宜的ChatGPT替代品——正在受到越来越多的关注,其搜索量数据有所体现。DeepSeek在Google上的搜索量现已达到ChatGPT在美国搜索量的39%,以及ChatGPT全球相对搜索量的21%。

据报道,该模型开发耗时2个月,成本不到600万美元,使用Nvidia H800芯片开发。文章指出,根据第三方基准测试,新模型的准确性优于Llama3.1、GPT-4o和Claude Sonnet 3.5。同时,DeepSeek的“r1”推理模型在许多类别中也超越了OpenAI最新的“o1”模型。尽管我们尚未核实这些报道的真实性,但如果上述内容属实,并且先进的LLM确实能够以之前投资成本的一小部分开发出来,那么生成式AI的运行最终可能会从超算缩减到工作站、办公室计算机,甚至是个人电脑。

这种趋势可能会推动对相关产品(芯片和半导体设备)的需求增加,从而使半导体设备行业(SPE)从生成式AI需求的扩散中受益。

瑞银: 中国近期发布的生成式AI模型,例如字节跳动的Doubao和DeepSeek v3,因其在推理能力和多模态(如视觉、语音和视频生成)方面的显著提升而引发市场关注。

第三方基准测试显示,中国领先的基础模型正逐步缩小与OpenAI的GPT-4o之间的性能差距。此外,这些模型在训练和推理成本上显著降低,得益于软硬件创新。

例如,DeepSeek v3的6710亿参数模型仅以600万美元的计算预算完成训练,仅为Meta Llama-3成本的十一分之一,其高效的训练能力让市场大为惊叹。值得注意的是,针对垂直行业和轻量化边缘计算的模型也在蓬勃发展,它们为各类行业客户和消费电子提供了更具成本效益和定制化的解决方案,其中一些甚至具备早期代理功能。

更高的AI成本效率或将吸引更多行业参与者:DeepSeek的研究表明,其在2048台H800 GPU上实现全球领先性能的能力引发了关于训练效率、AI可及性和竞争力的市场讨论。

我们认为,LLM在训练和推理技术上的创新可能会降低生成式AI应用的进入门槛和采用难度,从而吸引更多的供应商和用户进入市场。行业调查显示,由于采用成本的降低,AI生态系统和客户兴趣正在快速增长。

2025年AI相关资本开支是否会继续增长?

是的。DeepSeek在2048台H800 GPU上实现领先性能的能力引发了关于LLM训练效率、AI可及性和竞争力的市场讨论。我们预计2025年AI相关资本开支将因以下三大原因加速增长:

1)DeepSeek的创新将通过降低成本实现AI的普及化,使更多公司能够参与。2)随着模型规模和复杂性的不断提升,仍需要更大的GPU集群。3)更高的AI采用率可能会带动AI推理GPU需求的快速增长。

基础模型在推理和多模态能力上取得重大进展

近期的前沿模型更新中,一些推理模型(如OpenAI o1)在数学和编码能力上取得了显著进展,例如Moonshot k0-math和DeepSeek R1。这些模型的高级推理能力不仅减少了幻觉现象(错误输出)的频率,还在代理推理和规划方面表现出色。图像和视频生成模型在图像质量、3D建模和复杂提示的语义理解方面也有了明显提升。此外,大模型在视觉推理能力上的进步还催生了新的边缘应用和用户界面创新。

DeepSeek等中国模型的创新和显著的成本效益不仅推动了行业的发展,还可能重塑AI市场格局,推动AI技术的普及化和更广泛的应用。随着生成式AI的快速发展,相关技术的突破将带来更多资本投入和市场活力。

杰富瑞-中国DeepSeek引发的担忧-人工智能的投资回报率

随着中国DeepSeek开发出一款开源大语言模型(LLM),其性能与 GPT-4o 相当,但仅使用了极少的计算能力,人工智能相关的半导体股票遭到抛售。该模型架构采用专家混合(MoE)和多头潜在注意力(MLA),具备高质量的参数处理能力。这将促使人工智能行业重新关注投资回报率。尽管DeepSeek的模型效率惊人,但它并未加速任何人工智能的商业化进程。对计算能力需求的重新评估,可能导致 2026 年人工智能资本支出下降(或不再增长)。

DeepSeek是谁,它取得了哪些成就?DeepSeek(DS)由中国一家极为成功的人工智能驱动量化基金 —— 幻方量化 100% 控股。幻方量化于 2023 年 4 月创立DeepSeek,专注于通用人工智能(AGI)/ 大语言模型领域。2024 年 5 月推出 V2 版本,据报道每个输出令牌的成本仅为 2 元人民币。在滑铁卢大学的大语言模型排行榜上,它位列第 7。上个月,它推出了 V4 版本,基于 14.8 万亿令牌的数据集进行训练(GPT4-o 为 13 万亿),训练成本仅为 560 万美元(假设 H800 每小时租赁成本为 2 美元)。这不到 Meta 公司 Llama 模型成本的 10%。DeepSeek还表示,V3 版本的性能超过了 Llama 3.1 和通义千问 2.5,与 GPT4-o 和 Claude 3.5 Sonnet 相当。DeepSeek的架构基于专家混合(MoE)和多头潜在注意力(MLA)。每个 MoE 模型约有 2000 亿个数据参数,每次查询仅激活约 200 亿个参数,这降低了推理成本并缩短了响应时间。这是一个开源模型,可在 Hugging Face 平台获取。因此,其他人工智能开发者可以使用它。我们认为,V3 版本将使人工智能开发者能够以低得多的成本开发应用程序。然而,DeepSeek并不专注于商业化,也未加速任何人工智能的商业化进程。







请到「今天看啥」查看全文