专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
51好读  ›  专栏  ›  宝玉xp

转发微博-20250408025441

宝玉xp  · 微博  · AI  · 2025-04-08 02:54

正文

请到「今天看啥」查看全文


2025-04-08 02:54

转发微博
#模型时代# Anthropic联合创始人Kaplan:AGI在2027年到来,一直看DeepSeek论文,算法很厉害,未来模型每6个月一版本

这个访谈来自Anthropic的联合创始人兼首席科学家Jared Kaplan与油管Azeem Azhar频道的对谈。Jared Kaplan在Anthropic位高权重,但是之前出来讲的不多(起码我感觉是这样的),这一出来就比较猛,说人类级AI(AGI)将比预期提前到来,可能在未来2-3年内而非2030年实现。(8000字全文版在这里: Anthropic联合创始人Kaplan:AGI在2027年到来,一直看DeepSeek论文,算法很厉害,未来模型每6个月一版本

***
一、人类级AI:时间表加速到2-3年内

Jared Kaplan对人类级AI的时间表做出了引人注目的更新。当被问及他去年提出的"2030年前实现人类级人工智能"的预测时,Kaplan表示:"如果有什么变化的话,我预计它可能会比2030年更早,可能在未来两到三年内就会出现。"

这种加速发展的预测背后有着对"人类级AI"概念的深入思考。Kaplan解释道,人类级AI并非一个客观的衡量标准,不像"将两名宇航员送上月球并安全带回"那样具有明确的定义。相反,AI能力应该被视为在两个维度上持续发展:一个是AI能够操作的环境范围,另一个是AI能够处理的任务复杂性。

"AI操作环境已经从纯文本扩展到多模态图像,下一个边界就是物理世界。尽管如此,我们的大部分有用工作实际上是在头脑中完成的,"Azhar补充道,指出即使没有物理实现,AI在认知任务上的进步也已经令人印象深刻。

对于任务复杂性,Kaplan描述了一个从秒级到小时级甚至天级的进化过程:"AI正在处理越来越复杂的任务。比如,我可以给Claude 3.7一个需要我花费数小时才能完成的任务,例如分析20,000字的文本,提取8-9个关键论点,确定它们的连贯性和矛盾之处。这是一项需要研究生花半天时间才能完成的工作。"

二、AI能力的扩展视野:从秒级任务到小时级复杂工作

理解AI能力提升的一个关键维度是Kaplan所称的"视野"——AI能够操作的时间跨度。早期的语言模型如BERT只能执行需要几秒钟的简单任务,如在句子中识别名词。而后来的GPT-3可以处理需要10秒左右的任务,比如阅读一个段落并提取句子。

"现在我们看到的是这种任务持续时间的快速进步,"Kaplan解释道。"我们一直在跟踪这种进步,这绝对是我们研究的重点。我们称之为Claude可以操作的'视野',这在Claude Code等工具中尤为明显,它可以搜索代码库、跨不同功能进行更改并测试代码本身。"

这种视野的扩展受到多个因素的推动:
模型智能的整体提升,使模型能够关注更多不同的问题
上下文长度的增加,让AI能够理解从段落到章节再到整本书的内容
使用强化学习训练AI完成更复杂的任务

"最终,我们真正影响世界的方式是通过尝试不同的方法,看看什么有效,什么无效,"Kaplan补充道。"这就是允许我们扩展这个视野的原因。它绝对是我们跟踪的内容。多年前,AI爱好者谈论AI可能无法做越来越长的事情,但我们确实看到这个视野在扩展,因此AI的效用也在提高。"

三、规模化法则与模型预训练的瓶颈

在探讨大型语言模型的发展时,Kaplan详细解释了"规模化法则"——一种描述模型能力与模型大小、数据量和计算资源之间关系的经验规律。这些规律表明,如果增加神经网络的规模(参数数量)、数据量和训练所用的计算量,就能获得非常可预测的性能提升曲线。

"这些规模化法则是非常精确的经验发现,"Kaplan指出,"当你增加神经网络的大小、数据量或训练使用的计算量时,你会得到这些惊人的预测曲线,展示AI如何更好地建模数据,让其'损失'下降。这实际上意味着大型语言模型能够更好地预测句子、段落或文档中的下一个词。"

关于规模化的限制因素,Kaplan认为数据是最常被讨论的瓶颈:"最终,人们将用完数据。我实际上不知道我们是否已经达到了这一点。我想我们会看到。但我确实认为在未来几年内我们会达到这一点。"尽管如此,成本问题正在通过算法改进和硬件进步得到缓解。

有趣的是,Kaplan区分了模型能力的两个方面:模型对数据的建模能力与实际用户效用。"通常情况下,这二者是相关的,但关系不那么精确。我们从AI获得的实用性收益可能更多地来自于训练它完成预训练后的有用任务,而非纯粹的规模扩大。"

四、AI模型生成周期与消费者期望

Claude 3发布一周年之际,Azhar询问了AI模型代际更新的适当时间间隔。Kaplan表示模型更新速度非常快,并可能继续保持这种节奏:"我认为模型生成周期甚至比硬件周期更快。"

"我认为我们应该预计在不太长的时间内,肯定在未来六个月左右,会有一个新一代的Claude模型。这种快速迭代有两个原因:一是我们正在改进后训练或强化学习,二是我们能够提高预训练的效率和智能。"

这与Leopold Aschenbrenner去年提出的模型每两年有一次重大改进的观点形成对比。Kaplan认为实际周期短于两年:"我认为它是一个更连续的过程。预训练生命周期通常以月为单位而非年。研究人员提出值得推出的新创新的速度也快得多。"

对于消费者来说,这意味着AI模型的进步速度比其他技术更快。Azhar分享了他的使用体验:"我们不得不更新行为的速度真的非常惊人...我发现模型似乎变得更好的速度如此之快,以至于我几乎不记录我行为的变化,我只是通过实践来体验它。"

五、测试时间扩展:思考时间成为AI能力的新边界

讨论中的一个关键创新是"测试时间扩展"或"推理时间扩展",这是一种允许AI模型花更多时间思考以提高精确度的方法。Kaplan将其描述为一个重大突破:"当你让AI模型思考更长时间时,你可以获得可预测的准确性提升。例如,当你让Claude 3.7 Sonnet思考一千、两千、四千词,或者更多时,每次思考时间翻倍,你都会得到性能的稳定提升。"

Claude 3.7 Sonnet是Anthropic的首个混合推理模型,能根据任务难度决定需要多少思考时间。Kaplan解释道:"它会根据你分配的任务难度来决定思考多少。这就像你开始一份新工作,老板给你一个艰难的任务,你可能真的想花很多时间思考,因为你真的想得到正确的答案,不想被解雇。"

这种能力在2025年1月通过中国公司DeepSeek的R1模型引起广泛关注。不过,Kaplan表示他并不感到特别惊讶:"我已经关注DeepSeek的进展至少一年或一年半了,因为他们一直在撰写论文并改进他们的模型。对我或Anthropic来说,这并不是很令人惊讶。"

当被问及思考时间在架构上如何实现时,Kaplan澄清说:"这全部都在单个模型中。如果你是开发人员,你可以精确指定Claude获得的预算。99%以上的时间它会保持在这个预算范围内,而且很多时候,它实际上会大幅度未达到这个预算。"

六、全球AI竞争:中国模型与美国前沿技术的对比

讨论转向了全球AI竞争,特别是中国公司如DeepSeek与美国前沿模型之间的竞争。Kaplan对中国AI发展的评价是谨慎而尊重的:"科学突破正在非常、非常快速地发生。当你看到科学中的快速进步时,这不是因为科学家突然变得更聪明。而是因为人们找到了一个存在大量低垂果实的领域...而且我认为收集这些低垂果实的机会太多了,以至于很难预测谁会首先找到哪些进步。"

关于中美之间的技术差距,Kaplan表示:"我的期望是,由于存在出口管制,西方公司可能在可用计算量方面有优势。这可能会使DeepSeek和其他公司更难保持竞争力。但就基本算法本身而言,所有领先的AI公司都在找到能够很好工作并能很好扩展的非常简单的方法。DeepSeek根据他们的论文,也找到了许多这些想法和技术。他们在算法上完全有能力保持竞争力。"

这种评估与一些观察者认为中国在AI方面落后西方多年的看法形成对比。Kaplan指出:"看到深海的进步和他们正在撰写的论文,我想,好吧,他们可能落后六个月,但他们并没有落后很多。"

七、Anthropic的安全方法:在速度与责任之间平衡

有观察表明Anthropic——一家通常倡导安全第一方法的公司——似乎已经调整了它的发展方式,变得更加强调速度。Kaplan解释了Anthropic如何通过"负责任的扩展政策"来考虑开发速度与安全性的相互作用。

"在我们创建Anthropic的早期,我们普遍认为AI将取得非常快速的进步,这主要对世界有益,但也存在许多相关风险。我们认为,这种强大技术的发展稍微缓慢一点,实际上可能在正确处理方面更好。"

Anthropic的创新是创建负责任的扩展政策,作为一种与其他实验室协调的方式,确保AI发展是有益的且不会造成伤害。"我们的想法是仔细思考AI存在哪些真正的风险...我们会衡量我们系统的能力...如果我们跨越某些阈值,我们基本上承诺会采取缓解措施来避免这些问题。"

Kaplan指出,这一框架使他们能够在AI能力和安全研究两方面同时快速发展,因为他们有界限不会在准备好之前越过某些界限。他提到了宪法分类器和相关的"越狱演示"作为Anthropic正在开发的安全系统的例子,邀请互联网上的任何人尝试破解这个新系统以测试其方法。

八、解释性研究与AI监督AI:超人类智能的安全挑战

面对AI不断增强的智能,Kaplan讨论了解释性研究作为关键安全工具的角色。解释性研究的目标是使AI的思维和决策过程对人类可理解,但随着AI变得越来越聪明,这可能会变得更加困难。

Azhar提出了一个尖锐的问题:"如果机器在使我们看起来不像银背大猩猩而像仓鼠的空间中运作,那么什么是可解释的?"Kaplan承认这是一个挑战,但提出了一些方法:

"如果你想理解AI正在做的一切,我同意那会非常困难。但你可能能够研究一些特定的例子,在那里你可以理解,比如,AI正在追求的目标...也许你可以使用AI来帮助你分析另一个AI内部发生的事情,也许你可以使用一个更简单的AI来帮助你理解一个更聪明的AI。"

除了解释性之外,Kaplan强调了使用AI来监督和监控其他AI的重要性:

"我们正在开发的方向之一是加强版的宪法AI,你可以让AI系统使用我们之前讨论的推理来思考另一个Claude版本正在做什么,以便监控它并引导它朝着正确的方向发展。目标是让你对AI的监控和监督随着AI的智能提高而提高。因此,当你到达AI与人类一样聪明或更聪明的时候,你能够利用那些比人类更聪明的AI来实现一致性。"

Kaplan认为大型语言模型的发展方式给了我们一些优势,因为它们首先学习理解人类写作和思想:"这些模型训练的第一件事是理解人类写作、人类思想,人类如何使用词语来概念化世界...它们需要理解所有这些思想。这确实给了我们一个相当强大的基础。"

九、AI作为基础设施与公共利益的协调

在讨论AI作为21世纪基础设施的作用时,Kaplan和Azhar探讨了确保这些模型与公共利益保持一致的挑战。Azhar指出,基础设施本质上是一种社会产品,但目前这些模型主要通过市场互动来指导。

"这些模型不会以一种必然与公共利益保持一致的方式竞争,"Azhar提出。Kaplan承认这是一个问题,但将其置于更广泛的资本主义挑战背景下:

"对于任何新技术来说,都存在某些资本主义激励。从某种意义上说,这些往往不是完全不一致的。我的意思是,人们购买产品。他们将美元投入到他们意见所在的地方。但我确实认为存在外部性...资本主义在确保人类福祉得到改善和广泛可及方面远非完美。但我认为,很多问题与我们已经在世界上面临的问题相似。它们只是...如果技术发展非常快,也许我们必须比其他技术更快地面对它们。"

尽管存在这些挑战,Kaplan强调Anthropic尝试设计灵活性:"比如,你可以以多种不同方式让Claude扮演角色...我们尝试设置一些基本无害性的护栏...但你可以改变Claude。我们确实认为不应该由我们完全决定价值观...我认为使用技术的自由,以你想要的方式使用它,真的很重要。"

十、AI对经济生产力的快速影响与社会准备

对话结束时,Azhar提出了一个关键问题:对于AI可能比运河、电力或iPhone更快地影响经济生产力和劳动力市场的情景,我们应该进行什么样的辩论来做好准备?

Kaplan强调了理解AI与自动化的不同之处的重要性:"AI与我们思考自动化的方式有很大不同。自动化通常是一种非常专门的工具,设计用于特定目的。AI是一种通用工具...它可以做各种事情。这是一个区别。"

他指出,Anthropic正在经验地研究AI的使用方式:"我们有一个名为Clio的工具,它允许我们以隐私保护的方式汇总Claude的使用情况。我们正在研究这些问题,比如它是互补的吗?它是否提高了生产力?在多大程度上它可能替代人们本来会做的任务?我们正在向经济学家开放这个数据集进行研究。"

软件工程是AI被大量采用的一个领域,Kaplan解释道:"软件工程是AI被采用的完美领域,因为软件工程师喜欢采用新技术...而且软件是可验证的。如果Claude产生的东西不工作,它就不会执行,不会通过单元测试。一个很好的问题是,我们在软件工程中看到的情况——如此多的人使用AI——是否会发生在所有知识工作中?" 高飞的微博视频






请到「今天看啥」查看全文