专栏名称: 梅特涅的信徒
存在就是真理,需要就是合法。
目录
相关文章推荐
媒哥媒体招聘  ·  Blue Note爵士俱乐部招聘!(北京/上海) ·  4 天前  
51好读  ›  专栏  ›  梅特涅的信徒

中国AI崛起,西方陷入恐慌

梅特涅的信徒  · 公众号  · 自媒体  · 2025-01-28 12:19

正文

世界上首个“推理模型”,于去年9月由OpenAI发布。这个名为o1的模型,采用“思维链”来解答科学和数学中的复杂问题,将问题分解为若干步骤,在后台测试不同的解决方法后,再向用户展示结论。这启发了其他公司。谷歌在12月推出了名为“Gemini Flash Thinking”的推理模型,而OpenAI在几天后发布了o3,作为o1的更新版本。

在o1发布不到三个月后,阿里巴巴发布了其Qwen聊天机器人的新版本QwQ,具备了相同的功能。公司在博客中提出:“思考、提问和理解到底意味着什么?”并附上了该模型的免费使用链接。另一家中国公司DeepSeek,也在一周前发布了推理模型R1的“预览”。尽管美国政府试图限制中国的人工智能行业,但两家中国公司已经将美国同行的技术领先优势缩短到仅几周的差距。

去年12月,DeepSeek发布了新款大型语言模型(LLM),一种分析和生成文本的人工智能。其v3版本几乎达到了700GB,只有专用硬件才能运行,且拥有6850亿个参数,比之前所有公开下载的大型模型都要大。Meta的旗舰LLM Llama 3.1,于7月发布,只有4050亿个参数。

DeepSeek的LLM不仅比许多西方同行更大——表现也优于西方绝大多数模型,只有谷歌和OpenAI的专有模型能与之相媲美。人工智能编码平台Aider的创始人Paul Gauthier将DeepSeek的新模型通过编码基准测试,发现它超越了除o1之外的所有竞争对手。Lmsys,一个集体排名聊天机器人的平台,将其排在第七,超过了任何其他开源模型,也是谷歌和OpenAI之外排名最高的模型。

中国AI崛起
如今,中国的人工智能技术已经接近美国的水平,OpenAI的CEO萨姆·奥特曼不得不解释为何差距如此之小。DeepSeek发布v3后不久,奥特曼在推特上酸溜溜的说到:“复制已知有效的东西相对容易,但做一些新的、具有风险和困难的事情则非常难,尤其是你不知道它是否能成功时。

中国的人工智能行业并不容易,2022年,美国禁止将先进芯片出口到中国。领先的芯片制造商Nvidia为中国市场设计降级版产品。美国还试图阻止中国发展自主的高端芯片制造能力,禁止相关设备出口,并威胁对非美公司实施制裁。

中国公司进入大型语言模型(LLM)的时间也比较晚,部分原因是出于监管担忧。百度曾在内部试验LLM多年,开发了名为“ERNIE”的模型,但一直犹豫是否公开。即使在ChatGPT成功后,它最初也仅通过邀请制开放了ERNIEbot。

最终,中国政府发布了支持人工智能行业发展的政策“鼓励生成性人工智能的创新发展”。中国希望在全球竞争中占有一席之地,TechTechChina的编辑Vivian Toh表示。阿里巴巴是第一批适应新政策的公司之一,推出了自己的LLM,“通义千问”。

阿里巴巴发布的最初版本并未引起太大反响:它是基于Meta开源的Llama LLM做的一个改进版本。但随着2024年阿里巴巴发布的多个Qwen版本,质量逐步提高。当阿里巴巴发布了一个能够分析图像和文本的版本时,西方人工智能实验室Anthropic的Jack Clark表示:“这些模型似乎能够与西方领先实验室开发的非常强大的模型竞争。

DeepSeek源自2015年成立的对冲基金High-Flyer,旨在利用人工智能进行基础研究,帮助High-Flyer成为中国最大的量化基金之一。

High-Flyer创始人梁文峰表示,其动机并非纯粹商业化,DeepSeek承诺开发利于公众的人工智能技术。DeepSeek会公开其大部分训练成果,以防技术被少数人或公司垄断。与OpenAI不同,DeepSeek始终能够利用High-Flyer丰富的计算资源,避免了训练成本的高涨。2023年,Qwen发布的同月,High-Flyer宣布进入创造类人级AI的竞赛,并将其AI研究部门分拆为DeepSeek。

DeepSeek的庞大LLM不仅在规模上显著,还因其训练的高效性而闻名,模型通过数据推断其参数。美国剑桥大学的Nic Lane表示,这种成功并非源于某一个重大创新,而是通过一系列逐步的改进实现的。例如,训练过程中使用了舍入法来简化计算,但在必要时保持数字的精确。服务器集群的配置也经过优化,使得单个芯片之间的通讯更高效。训练完毕后,模型被微调,学习如何在较低成本下模仿DeepSeek R1的推理系统。

由于这些创新,训练v3所需的数十亿参数只用了不到3百万芯片小时,成本不到600万美元——大约是Llama 3.1所需计算能力和费用的十分之一。v3的训练只用了2,000个芯片,而Llama 3.1使用了16,000个。由于美国的限制,v3使用的芯片甚至并不是最新的。西方公司似乎更为浪费芯片:Meta计划使用350,000个芯片建立一个服务器集群。正如前特斯拉AI负责人Andrej Karpathy所说,DeepSeek在“预算有限的情况下”训练出一个前沿模型,太不可思议了。

DeepSeek的模型不仅在训练时节省成本,运行时的费用也更低。DeepSeek比同行更高效地分配任务到多个芯片,并在前一个步骤尚未完成时便开始下一个步骤。这使得芯片能够充分发挥作用,避免冗余。结果是,当DeepSeek在2月开始允许其他公司利用v3时,它的收费将是Anthropic对Claude LLM收取费用的不到十分之一。

DeepSeek并未止步于此。即使发布了完整的R1模型,它还推出了几种更小、更便宜、更快速的“蒸馏版”,几乎与大模型一样强大。与阿里巴巴和Meta的类似发布相比,它再次证明了自己可以与业内最大牌的公司竞争。

中国的AI之路
阿里巴巴和DeepSeek以另一种方式挑战西方的实验室。与OpenAI和谷歌不同,中国实验室采取开放源代码的策略,让系统在公开许可下可供使用。如果你想下载Qwen AI并在其基础上进行编程,可以自由操作,无需特别许可。这种宽松的做法伴随着极大的开放性:这两家公司在发布新模型时,都会公开详细的论文,介绍改进性能所采用的技术。

当阿里巴巴发布QwQ(“Questions with Qwen”)时,它成为世界上首个在开放许可下发布此类模型的公司,允许任何人下载完整的20GB文件,并在自己的系统上运行或拆解模型,了解其运作方式。这与OpenAI的做法截然不同,后者始终保持o1的内部机制不公开。

总体而言,这两款模型应用了所谓的“测试时计算”(test-time compute):它们不仅在模型训练过程中使用大量计算资源,在回答查询时所消耗的计算资源也比前几代大型语言模型(LLM)更多。这类似于心理学家丹尼尔·卡尼曼所说的“二型思维”:较慢、更有条理且更具分析性,与快速且直觉的“一型思维”不同。这种方法在数学和编程等领域取得了令人鼓舞的成果。

当你被问到一个简单的事实性问题时,比如“中国的首都是什么?”,你会立刻回答“北京”这一正确答案。类似地,聊天机器人在处理这种简单的问题时,也会根据它内部的语言模型(即它所学习的语言规则和统计数据)快速给出最常见和最准确的答案。如果聊天机器人的语言模型认为某个答案是最合适的,它就会自动给出这个答案,无需进行复杂的推理或分析。

当你遇到一个更复杂的问题时,你不会像回答简单问题那样直接给出答案,而是会以更加有条理、系统化的方式进行思考。以“中国第五大人口城市是哪个?”为例,你可能会首先列出中国的几个大城市,然后根据这些城市的人口排序,最终得出正确的答案。

o1类的大模型的特点在于,它诱使LLM进行类似的结构化思考:系统不会马上给出最可能的回答,而是将问题拆解,并一步一步得出结论。

o1(OpenAI的人工智能模型)将它的推理过程保密,只向用户展示问题的总结和最终答案。OpenAI解释说,这么做的原因是,模型有时会在考虑是否使用冒犯性语言或揭示危险信息时进行判断,但最后会决定不使用这些内容。如果将推理过程完全公开,敏感信息也可能被暴露。这样的做法可以保护模型的隐私,也避免公开其推理机制,从而防止其他人复制或模仿它的工作方式。

而阿里巴巴则没有这样的顾虑。如果你让QwQ解决一个棘手的数学问题,它会详细说明解决过程,甚至可能自言自语几千个字,尝试各种方法。“我需要找出20198 + 1的最小奇数质因数。嗯,这个数字好像很大,但我可以一步一步分解。”模型开始时生成了2000个字的分析,最终正确地得出答案是97。

阿里巴巴的开放性并不是偶然的。葡萄牙Poolside公司AI工具的创始人Eiso Kant表示,中国的实验室正与全球其他公司争夺同样的人才。中国实验室有一项西方实验室无法提供的优势:开放性。西方实验室由于竞争压力和行业性质,将大量资料和技术保密,几乎“把一切都锁起来”。而中国公司通常公开发布这些技术。中国的开源研究人员会毫不保留地发布自己的工作,并且表现出色。他还提到,DeepSeek的v3发布时,论文列出了139位作者的名字,这种公开的荣誉比在美国实验室默默无闻地工作更具吸引力。

同时,Eiso Kant也指出,美国政府试图阻止技术流向中国,导致中国研究人员在美国的工作环境变得更加困难。问题不仅仅在于新的法律给创新带来的行政负担,还因为研究人员常常面临怀疑氛围。

中国实验室的这种透明性在商业上有很大价值,因为那些基于开源模型构建的公司,更可能会选择购买。与此同时,这种开放性也带来了战略性的利益:中国的企业能够在与美国的人工智能竞争中赢得更多的支持者和盟友。

中国的企业大力构建基于本土模型的系统,这样就不必担心西方的政策限制可能会导致与基础平台的连接中断。对于像苹果和三星这样的公司,它们希望将人工智能工具集成到在中国市场销售的设备中,选择中国模型将会更有优势,例如Qwen,它特别在“低资源”语言上表现出色,而美国的模型主要是基于英语数据进行训练。另一个重要的优势是,中国模型的运行成本更低。

虽然DeepSeek取得了很大成绩。但我们也要正视,在人工智智能领域,美国依然拥有无可比拟的创新能力。因此,未来人工智能的发展可能会成为中美之间的关键竞争领域,推动全球科技进步的同时,也将在国际竞争中塑造新的格局。

《文章合集阅读(部)》(点击即可
《文章合集阅读(部)》(点击即可
《改革开放的另类风险:大发展的反噬》(点击即可)

语音节目系列


推荐节目:讲资治通鉴
推荐节目:无可匹敌的力量
推荐节目:讲法国大革命系列
推荐节目:讲述俄国革命
推荐节目:现实政治的基准
推荐节目:世界各国的长期地缘风险
推荐节目:历史成败的具体教训
《推荐节目:现代政治的技巧
推荐节目:千聊会员

欢迎大家加微信,方便交流。
点击二维码加入