专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
OSC开源社区  ·  🐍OSCHINA恭祝大家蛇年除夕快乐​🧧 ·  3 天前  
OSC开源社区  ·  🧧大年初一,OSCHINA给您拜年啦🎉 ·  2 天前  
程序员的那些事  ·  特朗普出手了!甲骨文微软等“抢购” TikTok ·  6 天前  
OSC开源社区  ·  DeepSeek ... ·  5 天前  
OSC开源社区  ·  数据库即架构 ·  6 天前  
51好读  ›  专栏  ›  OSC开源社区

三位全球顶尖专家解码DeepSeek崛起与开源革命

OSC开源社区  · 公众号  · 程序员  · 2025-01-31 22:00

正文


🔗《2024 中国开源开发者报告》正式发布

在线阅读:https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf


全网热议 DeepSeek 的万字报告背后,我们究竟该关注什么?

过去 24 小时,Anthropic 首席执行官 Dario Amodei 对 DeepSeek 的万字报告在 AI 科技圈掀起千层浪。

还没看的可以前往这篇文章:Anthropic 创始人 Dario Amodei 亲笔撰文:DeepSeek 崛起倒逼白宫强化 AI 监管

在信息过载的时代,大家容易被碎片化解读和片面的观点带节奏,造成认知偏差。

我挑选了三位在全球 AI 领域具有权威身份的专家和学者,相信通过他们的交叉解读,将会带你穿透表象看本质。

接下来,就让我们与顶尖大脑一起冷静剖析这场牵动全球 AI 科技格局的深度对话。

吴恩达(Andrew Ng)

吴恩达是斯坦福大学计算机科学系和电机工程系的副教授,人工智能实验室主任。是人工智能和机器学习领域国际上最权威的学者之一。也是在线教育平台 Coursera 的联合创始人,DeepLearning.AI 创始人,曾担任百度公司首席科学家。2024 年,亚马逊将吴恩达纳入其董事会。

亲爱的朋友们,本周关于 DeepSeek 的讨论,让很多人更加清晰地看到了几个已经在公开视野中发生的重要趋势:

  • 中国在生成式 AI 领域正在追赶美国,并且这一进展将影响到全球的 AI 供应链;
  • 开放权重模型正在逐渐将基础模型层商品化,从而为应用开发者带来了更多机会;
  • 规模化并不是 AI 进步的唯一途径。尽管目前大家对处理能力有很高的关注度和炒作,但算法的创新正在迅速降低训练成本。

大约一周前,DeepSeek,一家中国公司,发布了 DeepSeek-R1 这一出色的模型,它在多个基准测试中表现不输 OpenAI 的 o1。更值得注意的是,这款模型作为开放权重模型发布,并且采用了 MIT 开源许可协议。

上周在达沃斯论坛期间,我收到很多非技术类商业领袖的提问。而就在周一,股市出现了“DeepSeek 抛售潮”:Nvidia 英伟达和其他一些美国科技公司的股价大幅下跌。(截至写作时,股价已略有回升。)

我认为,DeepSeek 让很多人意识到了以下几点:

中国在生成式 AI 领域正在追赶美国

2022 年 11 月 ChatGPT 发布时,美国在生成式 AI 领域遥遥领先。尽管印象改变往往较慢,但即便最近,我还听到很多来自美国和中国的朋友表示,认为中国仍然落后。但事实上,在过去两年里,这一差距已经迅速缩小。

随着中国一些模型如 Qwen(我的团队已经使用了几个月)、Kimi、InternVL 和 DeepSeek 的发布,中国在这一领域显然在追赶,而且在视频生成等领域,甚至已经有时超越了美国。

我非常高兴 DeepSeek-R1 作为开放权重模型发布,并且附带了详细的技术报告。相比之下,一些美国公司则不断推动出台监管措施,借助炒作 AI 灾难(如人类灭绝)来打压开源。

现在已经显而易见,开源和开放权重模型是 AI 供应链的重要组成部分,许多公司将使用它们。如果美国继续压制开源,中国将主导这一供应链的部分,许多企业最终将使用更符合中国价值观的模型,而非美国的。

开放权重模型正在将基础模型层商品化

正如我之前所说,LLM 的 token 价格正在快速下降,而开放权重模型助推了这一趋势,并为开发者提供了更多选择。例如,OpenAI 的 o1 模型每百万输出 token 的价格为 60 美元,而 DeepSeek R1 的价格仅为 2.19 美元。这一近 30 倍的价格差异,让许多人意识到价格下降的趋势。

训练基础模型并提供 API 接入服务是一个充满挑战的行业。许多从事这一领域的公司仍在寻找方法来弥补巨额的训练成本。文章《AI 的 6000 亿美元问题》很好的展示了这一挑战(但我认为这些基础模型公司做得非常棒,我希望它们能成功)。

相比之下,在基础模型上构建应用程序则创造了很多商业机会。现在,其他公司已经花费数十亿美元训练出这些模型,你只需花费几美元就能使用这些模型,构建客服聊天机器人、邮件摘要、AI 医生、法律文件助手等各种应用。

规模化并不是 AI 进步的唯一途径

关于规模化推动 AI 进步的讨论最近有些过热。公平地说,我曾是规模化早期的支持者。许多公司通过炒作“只要获得更多资本,就能扩大规模并且稳定地推动改进”这一论调,成功筹集了大量资金。

因此,大家过于专注于规模化,而忽视了推动 AI 进步的其他更多途径。受美国 AI 芯片禁运的影响,DeepSeek 团队不得不进行大量优化,最终使得模型在性能较差的 H800 GPU 上也能运行,成本控制在不到 600 万美元(不包括研发费用)。

目前尚不清楚这一举措是否真的会减少对计算能力的需求。有时每个单位商品的价格下降反而会促进更多的购买。我认为,在长远来看,智能和计算的需求几乎没有上限,因此,我对未来人类将使用更多智能持乐观态度,即使这种智能变得更加便宜。

我在社交媒体上看到很多对 DeepSeek 进展的解读,就像一场罗夏墨迹测试,大家根据自己的理解对其进行解读。我认为 DeepSeek-R1 的发布具有深远的地缘政治意义,尽管这还需要进一步分析。

此外,它对于 AI 应用开发者也是一次巨大的机会。我的团队已经开始头脑风暴,探索一些新的创意,这些创意只有通过轻松访问开放的高级推理模型才能实现。现在依然是创业的好时机

帕特·基辛格(Pat Gelsinger)

帕特·基辛格(Pat Gelsinger)是全球芯片巨头英特尔的前任首席执行官,同时也是一位拥有逾四十年技术领导和经验的电气工程专家。

智慧:重新学习那些我以为早已明白的教训

DeepSeek 的反响令人非常关注,我觉得很多反应都忽视了过去五十年计算机发展中的三大重要教训。

首先是计算遵循气体定律

也就是说,计算能力会填满所有可用资源所允许的空间(包括资金、电力、热量等资源)。就像我们在 CMOS、个人电脑、多核处理器、虚拟化、移动设备等技术中看到的那样,当计算资源变得更加普及且价格大幅下降时,市场将会迎来爆炸性增长,而非萎缩。

AI 将在各行各业普及,但今天,要实现这一潜力的成本仍然高得离谱。我记得第一次用互联网浏览器时的震撼,简直不可思议。现在,如果你是个青少年,互联网几乎是你每时每刻的生活一部分。市场的反应其实是错的,降低 AI 成本,市场将会迎来大规模扩展。现在,我是英伟达和 AI 相关股票的投资者,很高兴能从价格下降中获益。

工程往往是在约束条件下进行的

DeepSeek 团队显然面临了很多限制条件,但他们找到了一些创新的方式,在各个方面实现了世界级的解决方案,且成本低了 10 到 50 倍。由于出口法规的限制,中国的工程师们不得不发挥极大的创造力,而他们也成功做到了。

他们不需要花费数十亿美元购买最新的硬件、芯片,也不需要庞大的训练预算。记得几年前,我曾面试过计算机科学界的传奇人物、可能是我们时代最伟大的科学家之一唐纳德·克努斯。他曾详细讲述,自己如何在资源最匮乏、时间压力最大的时候,做出最佳的工作。我至今将这个观点视为我工程管理生涯中最重要的收获之一。

开放才是胜利的关键

近年来,看到基础模型的研究变得越来越封闭,实在让人失望。在这一点上,我更倾向于支持埃隆·马斯克,而不是山姆·阿尔特曼。我们真正希望,甚至需要,AI 研究能够更加开放。我们需要知道训练数据集是什么,深入研究算法,并从正确性、伦理和社会影响等角度进行反思

Linux、Gcc、USB、Wifi 等开源项目的巨大成功,已经让所有计算机学者深刻意识到,开放的力量。尽管在法律、频谱、工程、市场采纳等方面,开放总是面临各种挑战,但每次只要给开放一个机会,它最终都会赢得胜利。AI 在我们未来的生活中至关重要,绝不能让任何封闭的生态系统成为这个领域的唯一选择。

DeepSeek 是一次令人惊叹的工程成就,它将推动 AI 的普及。它也将帮助重新塑造业界对开放创新的看法。正是一个受限的中国团队,提醒了我们这些计算机历史中的基本教训。

托马斯·沃尔夫(Thomas Wolf)

托马斯·沃尔夫是 HuggingFace 的联合创始人,HuggingFace 可以理解为一个为人工智能开发者提供资源和工具的开源平台,类似于编程领域的 GitHub。

我终于抽出时间仔细阅读了 Dario 关于 DeepSeek 和出口管制的文章,说实话,读起来真的是有些痛苦。作为 Anthropic 的粉丝和 Claude 的重度用户,我本来期待更多的东西。

文章的前半部分,感觉像是在强行证明闭源模型仍然远远领先于 DeepSeek。虽然有一些提到 DeepSeek 的内部评估,但很多结论都基于未公开的评估数据,这让人难以完全信服

而像「DeepSeek-V3 在一些非常小范围的任务上比 SOTA 模型强」这样的说法,最终变成了「DeepSeek-V3 比美国前沿模型差,差距约为 2 倍」,让我产生了不少怀疑。

类似地,文章还提到 DeepSeek 所有的突破和效率提升早就被闭源模型公司发现了,这主要是因为 DeepSeek 公开的训练成本数据(600 万美元)和 Anthropic 提供的模糊数据(几千万美元)之间的对比。

尽管我对 Anthropic 团队非常钦佩,也对 Sonnet 3.5 印象深刻,但这种长篇的开放研究与模糊闭源研究对比,令我对其领先地位产生了不少疑问。

更令我沮丧的是文章后半部分,它探讨了美中竞争的情景,却忽略了 DeepSeek 模型是开源权重,并且由于其详细的技术报告,很多知识也已经公开(你可以通过 Hugging Face 的 open-r1 项目来复现大部分技术,除了合成数据集)。

如果 DeepSeek 和 Anthropic 都是闭源的,那么「军备竞赛」的解释可能有道理,但一个开源的模型已经广泛可用,并且有详细的科学报告,这使得「闭源军备竞赛」的观点显得有些不现实。

核心问题是:开源不分国界。

全球任何公司,无论位于欧洲、非洲、南美,还是美国,都可以自由下载并使用 DeepSeek,而不需要担心将数据传输到特定国家(如中国),也不必依赖某家公司或服务器来运行核心技术。

就像世界各地的贡献者共同打造开源库一样,DeepSeek 也在全球范围内涌现出了数百个衍生模型,这些模型在 Hugging Face 平台上得到了应用和探索。

更重要的是,随着 open-r1 项目和 DeepSeek 论文的发布,接下来的几个月中,世界各地的团队将发布许多开源推理模型。今天,AllenAI 和 Mistral 就各自发布了开源基础模型(Tülu 和 Small3),这两者已经在挑战当前的最新技术,其中 AllenAI 的 Tülu 模型超越了 DeepSeek-V3。

而且,开源的意义远不仅限于地理层面。我们几乎没有充分认识到开源对于我们安全的重要性!

随着 AI 在我们生活中的核心地位越来越突出,技术的韧性将变得至关重要。今天,我们几乎对一切都依赖互联网。没有互联网,我们无法获取社交媒体或新闻,无法打车、预订餐厅或通过 WhatsApp 联系人。

如果所有数据都必须经过一家公司的数据中心传输,一旦该公司发生宕机,整个世界都可能停滞不前(想象一下 CrowdStrike 最近的宕机放大百万倍)。

随着 AI 助手和技术深度渗透到我们生活的方方面面,未来我们将越来越依赖这些技术来简化日常任务,我们也会对任何因故障造成的停机感到烦恼甚至痛苦。

为了避免这种停机情况,最有效的方式是将韧性深深融入技术链中。

开源有许多优势,比如降低训练成本、提高可调性、控制权和隐私保护。但在长期来看,开源最重要的优势之一,可能是它带来的韧性。它是分散计算、在多个独立提供商之间分配计算资源的最简单、最具成本效益的方式,而且实现起来也不复杂。

与其讨论国家荣誉和竞争,我认为现在是时候从全球视角思考 AI 带来的挑战和社会变革。而开源技术可能是我们安全过渡到一个 AI 深度融入社会、具备韧性的数字未来的关键资产。

小结

看完三位专家鞭辟入里的解读,相信大家内心都泛起了层层涟漪。

此刻,不妨将心中的澎湃、思索与感慨,尽情地打在评论区。

DeepSeek 的破局,远不止是国产 AI 领域的一场胜利。

它宛如一颗投入湖面的巨石,在全球 AI 竞争的浩渺格局中激起千层巨浪,推动着格局的重构。

这一里程碑式的突破,更是一次震撼人心的呐喊,向技术垄断的高墙发出了庄严叩问。

它让我们坚信,开放与共享的精神,定能冲破一切藩篱,引领人类走向更加广阔的智能未来。

当历史的聚光灯打在 2025 年的此刻,

你我都是这场智能革命的见证者,

更是参与者。



既然你看到这里了,如果觉得不错,请随手来个一键三连吧,转发给同样需要的朋友,这对我很重要。

另外如果想第一时间收到推送,也请将本公众号加个星标🌟

感谢观看,下期见。