吴恩达对DeepSeek公司的评论引发了广泛关注,展现了中国在生成式AI领域的赶超趋势及DeepSeek模型的影响力。评论涵盖了几个行业趋势,包括中国在生成式AI领域的赶超、开源权重模型的基础模型层商品化,以及规模化并非AI进步的唯一道路等。
吴恩达指出,中国正在赶超美国在生成式AI领域的领先地位。DeepSeek公司的DeepSeek-R1模型性能与OpenAI的o1模型相当,并以宽松的MIT许可证开源发布。这种进展意味着中国在AI领域的技术实力正在提升,对AI供应链产生深远影响。
吴恩达强调了开源权重模型在基础模型层商品化方面的作用。开源模型降低了训练成本,为应用开发者创造了巨大的机遇。DeepSeek-R1模型的成本远低于OpenAI的o1模型,展示了开源模型在推动AI普及方面的潜力。
吴恩达提到,虽然算力备受瞩目和炒作,但算法创新正在迅速降低训练成本。他认为规模化并非AI进步的唯一途径,通过优化和算法创新,可以在降低计算成本的同时推动AI的进步。
吴恩达评论了DeepSeek模型的地缘政治影响,指出如果美国继续阻碍开源,中国将主导AI供应链的这一环节。他强调了现在仍然是构建AI应用的绝佳时代,并认为DeepSeek等模型的普及将带来许多新的商业机遇。
吴恩达在其个人社交媒体上发表了对 deepseek 的评论,重点谈到中国在生成式 AI 领域正在赶超美国。
吴恩达是斯坦福大学人工智能实验室主任,他在2011年就领导谷歌大脑项目,首次证明大规模深度学习在工业场景的可行性(如神经网络识别猫、提升广告推荐系统),促使谷歌全面转向AI驱动的产品策略。他也是在线教育平台Coursera联合创始人及 DeepLearning.AI创始人,他的项目培养了数百万开发者,直接推动全球AI人才生态的爆发式增长。
我们能从他的对 deepseek 的最新评论中获取什么有价值的投资信息,特别是和中概互联网相关呢?长文分类汇总在“一涵笔记”:
吴恩达:
本周,中国 AI 公司 DeepSeek 的崛起引发了广泛关注,许多人从中看到了几个重要的行业趋势,这些趋势其实早已显现:
(一)中国在生成式AI 领域正在赶超美国,这将对 AI 供应链产生深远影响。
(二)开源权重模型正在将基础模型层商品化,为应用开发者创造了巨大的机遇。
(三)规模化并非 AI 进步的唯一道路,尽管算力备受瞩目和炒作,但算法创新正在迅速降低训练成本。
大约一周前,总部位于中国的 DeepSeek 发布了 DeepSeek-R1 模型,这款卓越模型的基准测试性能可与 OpenAI 的 o1 模型相媲美。更重要的是,它以宽松的 MIT 许可证开源发布。
在上周的达沃斯论坛上,许多非技术出身的商业领袖向我提出了关于 DeepSeek 的问题。而在周一,股市出现了“DeepSeek 抛售”现象:英伟达和许多其他美国科技公司的股价大幅下跌(截至撰稿时,部分股价已有所回升)。
我认为 DeepSeek 让许多人意识到以下几点:
中国在生成式 AI 领域正在赶超美国。
当 ChatGPT 在 2022 年 11 月发布时,美国在生成式 AI 领域明显领先于中国。人们的印象转变是缓慢的,因此即使在最近,我仍然听到美国和中国的朋友都认为中国落后。
但实际上,过去两年里,这种差距正在迅速缩小。凭借 Qwen(我的团队已经使用了数月)、Kimi、InternVL 和 DeepSeek 等来自中国的模型,中国显然一直在缩小差距,并且在视频生成等领域,中国似乎已经处于领先地位。
【一涵注:Qwen是阿里的开源大模型,和DeepSeek一样,以几乎成本价甚至免费开放给社会使用模型。在知名的风险投资人朱啸虎(投资过小红书、饿了么)喊出“靠分红5年拿回本金”时,代表着AI创业公司在美股上市受阻的情况下,很大一批风投对投资中国AI产业都非常谨慎。
在这种所有人都不敢投资的环境下,阿里希望通过开源模型和投资大模型创业公司,推动大模型应用繁荣,从而卖计算服务赚钱,造就更多像米哈游一样成功的案例——米哈游的创始人们在大学宿舍里开始创业第一天起就使用的阿里云服务,而非自己购买服务器。】
我很高兴 DeepSeek-R1 以开源权重模型发布,并附带技术报告,分享了许多细节。
与此形成鲜明对比的是,一些美国公司为了扼杀开源,大肆炒作诸如人类灭绝等假设性的 AI 危险,推动监管。现在,开源/开源权重模型显然是 AI 供应链的关键组成部分:许多公司都将使用它们。
如果美国继续阻碍开源,中国将主导 AI 供应链的这一环节,许多企业最终将使用更多反映中国价值观而非美国价值观的模型。
开源权重模型正在将基础模型层商品化。
正如我之前写到的,LLM 的 token 价格一直在快速下降,开源权重模型加速了这一趋势,并为开发者提供了更多选择。OpenAI 的 o1 模型每百万输出 token 的成本为 60 美元,而 DeepSeek R1 的成本仅为 2.19 美元。近 30 倍的差异让更多人关注到了价格下降的趋势。
训练基础模型并销售 API 访问的业务是艰难的。
【一涵注:如何理解销售API?如果把大模型提供服务比作发电,那么销售API就好比销售供电服务。】
该领域的许多公司仍在寻找一条收回巨额模型训练成本的道路。红杉资本的文章《AI 的 6000 亿美元问题》很好地阐述了这一挑战(但需要明确的是,我认为基础模型公司正在做伟大的工作,我希望他们能够成功)。
相比之下,在基础模型之上构建应用则蕴藏着巨大的商业机遇。
现在,其他人已经花费数十亿美元训练了这些模型,您只需花费少量资金就可以访问这些模型,以构建客户服务聊天机器人、邮件摘要器、AI 医生、法律文件助手等等。
【一涵注:为什么中国的公有云计算发展落后于美国?
云计算的最大优势可能是成本方面,尤其是初期投入。用户可能不需要大量前期投资,按需付费,这对初创公司或者项目初期很有吸引力。
比如,新游戏发布或者游戏新版本发布需要短暂应对流量高峰(如阿里云帮助米哈游发布崩坏星穹铁道和绝区零等新游戏),使用云计算流量突增时可以快速扩容,而自有服务器可能需要提前购买硬件,导致资源浪费或不足。
然而,最近几年因为监管、经济周期、上市受阻以及估值不理想等各种原因,教育、游戏、互联网等行业创业环境有大幅的恶化,而大型国企因为数据敏感等原因更偏好国资云和自建服务器,再加上华为云拿到一些“同情订单”,所以阿里和腾讯云发展都不是很尽如人意。
而如果真像吴恩达所说,在基础模型之上构建应用蕴藏着巨大的商业机遇,意味着AI应用创业或项目创新大概率会兴起,从而为云厂商增加利润穿越经济周期带来新的机会。】
规模化并非 AI 进步的唯一道路。
围绕模型规模化的炒作由来已久,似乎规模化是推动进步的唯一途径。公平地说,我曾经也是模型规模化的早期倡导者。许多公司通过围绕这样一个叙事制造热点,从而筹集了数十亿美元:凭借更多资本,他们可以扩大规模,并且可预测地推动改进。因此,人们过度关注规模化,而忽视了更细致的观点,即我们可以通过多种不同的方式取得进步。
部分受到美国 AI 芯片禁运的影响,DeepSeek 团队不得不进行许多优化,以便在性能较弱的 H800 GPU 而不是 H100 GPU 上运行,最终训练出了一个计算成本(不包括研究成本)低于 600 万美元的模型。
这是否真的会减少对算力的需求还有待观察。有时,降低商品单价反而会导致更多资金用于购买该商品。
我认为长期来看,对智能和算力的需求实际上没有上限,所以我仍然看好人类会使用更多智能,即使它的成本变得更低。
在 X上,我看到了许多对 DeepSeek 进展的不同解读,仿佛这是一场罗夏墨迹测验,每个人都将自己的意义投射到其中。
我认为 DeepSeek-R1 具有尚未完全显现的地缘政治影响。同时,这对 AI 应用开发者来说也是一件好事。我的团队已经开始集思广益,构思只有在我们能够轻松访问先进的开源推理模型后才成为可能的新想法。
现在仍然是构建 AI 应用的绝佳时代!
【一涵注:AI应用创新项目或创业计划爆发,让AI变得更加普惠,是在出现DeepSeek这样性能足够强且成本足够低的模型情况下才成为可能,创新项目用云需求爆发也才成为可能!
附上DeepSeek认为的云计算适用场景表:
】