专栏名称: 底线思维
深度资讯体验,独家解读分析,政治经济学者每日提供深度文章。
目录
相关文章推荐
侠客岛  ·  发奖的消息,相信你不会错过 ·  8 小时前  
半月谈  ·  正式开建!7座新高铁站,来了! ·  2 天前  
底线思维  ·  “这么多年了,还是不扒拉就不会滑冰!” ·  2 天前  
51好读  ›  专栏  ›  底线思维

DeepSeek为什么要开源?可能与人工智能领导权息息相关

底线思维  · 公众号  · 政治  · 2025-02-13 11:02

正文


文/观察者网专栏作者 熊节,华东师范大学国际传播研究院全球南方研究中心主任


文/观察者网专栏作者 塞尔吉奥·阿马德乌 ,巴西UFABC大学教授,前巴西国家信息技术研究所所长


【本文由deepseek翻译,经观察者网编辑加工润色后发布。】
人工智能领导权之争——中国与开源
为什么技术领导权如此重要?如何定义人工智能(AI)领域的技术领导权?人工智能是一项横跨多个领域的技术,其进步会对经济、社会和国家安全产生深远影响。技术领导权首先提供了一系列竞争优势,因为发明和创新赋予开发者其他人所不具备的收益和利益。其次,技术领导权是一个关键的地缘政治因素,因为它能够影响全球标准、规范和法规的制定。第三,技术领导权可以推动创新生态系统的形成,巩固长期发展。第四,领导权可以在国际威胁(包括军事威胁)的背景下增强安全性。第五,领导权能够引导技术发展,以实现社会、环境和政治目标。
从技术政治的角度来看,技术科学并非中立,它对权力关系和社会组织具有深远影响(Winner,2020)[1]。人工智能的领导权不仅仅是开发最先进的技术,还包括创建一个能够实现更广泛社会价值和目标的社会技术环境,确保创新遵循特定的目的。人工智能的发展轨迹可能会优先考虑提高经济系统的生产力,或者旨在寻找社会公正和环境可持续的解决方案。它可能寻求集中权力并加强国际不对称性,或者促进知识的传播和公平发展。它可能抑制人口和文化的创造力,或者确保技术多样性。它可能与权力的集中或分散密切相关。
目前,人工智能的领导权掌握在美国手中,主要由所谓的“科技巨头”主导。这些公司控制着开发现有人工智能(尤其是以深度学习为主导的人工智能)不可或缺的资源。
我们都知道,深度学习方法基于统计学和概率学,用于从大量数据中分类和提取模式。为了执行这些操作,人工智能开发者依赖于强大的计算能力。训练一个像ChatGPT这样先进的人工智能模型需要数百万美元,并且需要大量时间使用专用硬件进行处理,例如专为这些任务设计的芯片。这些芯片被称为“AI推理芯片”或“推理加速器”,它们能够在更短的时间内取得更好的结果。例如,谷歌的Tensor Processing Units(TPUs)专为推理和训练优化;神经处理单元(NPUs)或神经网络加速器常用于移动设备和边缘计算;图形处理单元(GPUs)则用于训练和推理。
目前,这些芯片对于图像识别、自然语言处理和其他实时人工智能任务至关重要。
美国政府长期以来一直采取限制尖端芯片获取的政策,主要目的是延缓中国和其他被视为对手国家的AI发展,目标是保持美国在AI领域的领导地位。随着唐纳德·特朗普于2025年1月就职,技术封锁政策进一步加剧。此外,美国总统宣布了一项5000亿美元的“星际之门”项目投资。特朗普的计划是与甲骨文、OpenAI和软银等公司合作,在美国开发物理和虚拟的AI基础设施,以“推动下一代AI的发展”[2]。英伟达、Arm和微软等公司是该项目的合作伙伴,该项目已在德克萨斯州开始实施,并将在未来四年内在美国各个地区建设“巨型数据中心”[3]。
以埃隆·马斯克为代表的美国科技精英认为,人工智能正在接近“奇点”——即人工通用智能(AGI)的出现。他们声称,AGI将完全超越并取代人类在所有智力领域的劳动,如果美国率先实现AGI,其技术霸权将不可撼动。然而,无论是ChatGPT还是DeepSeek,都没有显示出接近AGI的迹象。它们是处理自然语言的有用工具,并在特定领域展示了有限的推理能力,但没有证据表明它们——或任何已知的AI研究——正在接近AGI。
AGI比起一般的AI擅长以更像人类的方式去执行任务
开源的转折点
2024年5月,一家名为DeepSeek的中国小公司推出了其大型语言模型(LLM),该模型受到Llama的启发,Llama是一个禁止商业使用的受限研究协议下的模型。开源模型DeepSeek V2的突出之处在于其前所未有的成本效益。DeepSeek将推理成本降低至每百万个token仅1元人民币,约为Llama3 70B的七分之一,远低于GPT-4。
Token是语言模型用于处理和理解人类语言的基本文本单位,根据上下文和语言,token可以被视为单词、音节甚至单个字符的“块”。AI模型将文本转换为token,并以数字形式表示。这些数字随后由模型处理以生成响应或执行任务。因此,文本中的token数量直接影响成本和处理时间。token越多,推理越复杂且耗时。
与所有中国公司一样,DeepSeek也受到美国政府尖端芯片封锁的限制。这促使DeepSeek的领导者及其团队更加专注于研究和优化。梁文锋在2024年7月的一次采访中表示:“我们的出发点不是抓住机会发财,而是推进到技术前沿,以促进整个生态系统的发展。”[4] 这家中国公司试图引领AI发展的意图显而易见。为了实现这一目标,DeepSeek并没有局限于组织数据并在现有云平台上运行。团队努力在尖端芯片稀缺的情况下寻找解决方案。这需要改变架构、尝试新程序以及广泛的应用数学。
DeepSeek的年轻领导者梁文锋表示:“我们在创新方面缺乏的绝对不是资本,而是信心和如何组织高密度人才以实现有效创新的知识。”[5] 他继续说道:“创新并不完全由商业驱动,还需要好奇心和创造力。我们陷入了过去的惯性,但这也是暂时的。”[6] 梁文锋的理念是减少模仿,增加研究。他主张押注开源模型,不是为了使用它们,而是为了改进它们,并找到需要更少计算资源的路径。
开源是DeepSeek战略的核心,但对腾讯、百度和阿里巴巴等其他中国公司来说可能并非如此。然而,开源允许知识在全球范围内传播,从而以更快、更包容的速度产生新发现的可能性。梁文峰表示:“实际上,开源和论文的发表并没有损失。对于技术团队来说,被追随是一种巨大的成就感。事实上,开源更像是一种文化行为,而不是商业行为,因为给予实际上是一种额外的荣誉,这样做的公司也会更具有文化吸引力。”[7]
开源不是一种技术,而是一个基于知识共享的开发过程。通常,它鼓励组织愿意协作解决问题并通过更新维护解决方案的社区。像Mistral 7B(Mistral AI)和Falcon(技术创新研究所)这样的语言模型是开源的,并在Apache 2.0许可下发布;强化学习模型Stable-Baselines3也是开源的,采用MIT许可证。
那么,为什么DeepSeek的模型如此重要?因为它颠覆了全球AI领导权的竞争。如何做到的?通过大幅降低大型语言模型的计算成本。
开源对于知识传播至关重要,但并不能解决训练和运行模型所需的计算基础设施问题。DeepSeek展示了一个高性能且处理需求较低的开源模型。
DeepSeek-R1已经展示了比OpenAI的ChatGPT o1更强的推理能力,而其成本(包括训练和使用)显著降低。通过开源其模型,DeepSeek促进了大型语言模型的民主化——使技术基础设施欠发达的小公司、国家甚至个人能够基于DeepSeek训练自己的“主权AI”,而无需依赖科技巨头的产品或将数据交给这些公司。印度尼西亚和印度已经开始使用DeepSeek作为基础构建自己的AI基础设施[8]。在此之前,只有美国和中国有能力访问如此高水平的大型语言模型。
上表展示了在lighteval上OpenR1-Qwen-7B、DeepSeek-Distill-Qwen-7B和OpenThinker-7B的性能对比,可以看出在数学成绩上,OpenR1-Qwen-7B和DeepSeek-Distill-Qwen-7B差距不是非常明显。36氪
DEEPSEEK R1对强化学习的押注
“DeepSeek-R1-Zero选择了一条前所未有的路径,即‘纯’强化学习路径,完全放弃了预定义的思维链(CoT)模型和监督微调(SFT),仅依靠简单的奖励和惩罚信号来优化模型的行为。”[9]
在腾讯团队对DeepSeek R1模型的分析中,他们提出可能需要重新思考监督学习在AI发展中的作用。或许他们过于专注于让AI模仿人类的思维方式,而不是更多地押注于强化学习系统本身的解决问题能力[10]。在强化学习中,奖励和惩罚以数学方式表达在模型中。代理(可以是算法或系统)根据策略做出决策,该策略旨在最大化随时间累积的奖励。奖励是代理在环境给定状态下执行操作所获得的数值。
机器学习是人工智能的一个领域,它使计算机能够识别模式并根据数据做出决策,而无需明确编程[11]。机器学习依赖于从大量数据中提取模式并调整其参数以随时间提高预测能力的算法。这些算法可以分为三大类:监督学习(模型从标记数据中学习)、无监督学习(模型在没有预定义标签的情况下识别模式)和强化学习(模型通过试错学习,根据其行为获得奖励或惩罚)。深度学习是机器学习的一个子集,它使用具有多层的人工神经网络以分层和复杂的方式处理数据[12]。
由于这些创新,DeepSeek R1的训练成本大幅降低,仅为ChatGPT成本的1/10到1/20。当OpenAI的模型花费20美元时,DeepSeek仅用1美元就完成了相同的任务。2025年1月,DeepSeek模型的成本仅为每百万token 16元人民币,而ChatGPT的成本高达438元人民币——相差27倍![13] 这意味着组织可以以更低的成本使用DeepSeek的模型,同时实现更高的效率。
不同AI模型的Token输入/输出价格(美元/每百万Tokens),可以看到DeepSeek的价格远低于其他AI模型Reddit
计算能力与AI的地缘政治
英伟达和其他科技巨头股价的暴跌被许多人视为美国在AI领域领导地位的终结,这似乎并不准确。这家强大的GPU制造商的股价大幅下跌是由于在DeepSeek成功开发出成本仅为OpenAI 10%的大型语言模型的消息传出后,大量股票被抛售。这可能会改变AI的发展轨迹。对高处理能力芯片的依赖可能会发生变化。基于这种推理和恐惧,投机者趁机抛售了他们在英伟达和其他公司的股票。
然而,对尖端芯片的依赖并没有因为中国的创新而结束。小于2纳米的芯片代表了人工智能的关键进步,它们确保了更高的处理能力和更低的能耗。随着AI模型变得越来越复杂,需要数十亿甚至数万亿的参数,计算效率仍然是一个关键因素。更小的芯片允许更高的晶体管密度,提高计算速度和能源效率,降低运营成本和冷却需求。这一演进对于AI的大规模实施至关重要,从数据中心到移动设备,包括军事应用。
值得注意的是,纳米芯片扩展了设备中的嵌入式应用,并促进了它们在物联网、医疗保健、机器人和自动驾驶汽车中的使用。另一个承诺是,随着芯片变得更先进、体积更小,AI模型可以在本地运行,减少对云的依赖,并确保更快、更安全的响应。在地缘政治背景下,对更小芯片的竞争加剧了美国和中国等大国之间的技术争端,因为对这一技术的控制定义了数字经济和网络安全领域的竞争力。
美国通过技术主导、战略投资和供应链控制的结合,保持了在芯片和半导体开发和制造领域的领导地位。英伟达、英特尔、AMD和高通等美国公司引领着先进芯片的设计。美国政府通过补贴和激励措施(如《芯片与科学法案》[14])加强其地位,该法案拨款数十亿美元用于加强国内半导体生产,减少对亚洲的依赖。






请到「今天看啥」查看全文