本文报道了名为METR的机构发现的AI智能体的全新摩尔定律。过去6年中,AI完成任务的长度每7个月翻一番,预示五年内将拥有独立自主完成人类数天甚至数周才能完成的软件开发任务的AI研究员。文中详细介绍该研究的方法、结果和引发的讨论,包括衡量AI模型能力的新方法、任务完成时长与模型成功概率的关系、以及AI发展Scaling Law的实用性和预测意义等。
使用模型完成任务的时间跨度来衡量模型的能力水平。研究者通过设计近170个真实任务,测量人类专家完成任务的时间来预测模型的成功概率。
研究者发现,人类专家完成任务的时间能有效预测模型在特定任务上的成功率。他们通过拟合逻辑斯蒂曲线,确定每个AI智能体在50%成功率下的任务时长。
研究发现的Scaling Law对未来AI系统能力的发展趋势具有预测意义。然而,预测的实用价值有限,对所选任务或模型类型的敏感度可能存在争议。
【新智元导读】
这家名为METR的机构,刚刚发现了AI智能体的全新摩尔定律:过去6年中,AI完成任务的长度,每7个月就会翻一番!如此下去,五年内我们就会拥有AI研究员,独立自主完成人类数天甚至数周才能完成的软件开发任务。
就在刚刚,AI智能体的摩尔定律被发现了!
METR研究所表示,他们发现了全新的AI智能体Scaling Law——
AI可执行任务的长度,每七个月翻一番。
过去6年中,前沿通用AI智能体完成任务的能力,每7个月就翻倍一次
同时发表的,还有一篇45页论文。
论文地址:https://arxiv.org/abs/2503.14499
这家加州的非营利研究所METR的研究者提出,以AI智能体能完成的任务长度来衡量它们的性能。
他们设计了近170个真实任务,涵盖了编程、网络安全、通用推理和机器学习等领域,并且测量了人类专家所需的时间,建立了一条「人类基准线」。
据此,他们发现,这一指标在过去六年中一直呈指数级增长,所需翻倍时间约为7个月。
如果按这一趋势推断,在五年内,我们就将见证:AI智能体能够独立完成当前需要人类耗时数天甚至数周才能完成的大部分软件开发任务。
而如果这六年的Scaling Law能持续到本十年末,前沿AI系统完全就能自主执行为期一个月的项目!
这个结论听起来,实在是很炸裂。果然Nature火速采访研究者团队,出了一篇报道。
METR研究者介绍说,之所以做这项研究,是因为他们感觉到:如今的基准测试很快就饱和了,但却不太能很好地转化为AI对现实世界的影响。
所有人都感觉到,「某种东西」正在迅速上升,但这种东西,究竟是什么呢?
对此,专家们也是众说纷纭,有人说「AGI几年内就会出现」,也有人说「Scaling Law已经撞墙了」!
截止时间:2024年12月
METR希望,从目前AI模型的表现中抓住这「某种东西」,由此,这条全新的Scaling Law就诞生了。
这项研究,立刻在AI社区引发了巨大的声浪。
ARIA Research的项目总监Davidad在这条Scaling Law曲线上发现了亮点:合成数据的自我改进(比如带有可验证奖励的CoT上的RL),已经引发了一种全新的增长模式!
而研究中的另一项图表,更是证明了他的第二项观点:pass@8已经接近8小时的范围。
ALTER的创始人表示,Claude能玩宝可梦已经证明了这项研究的观点,而如果继续翻倍,游戏会需要26小时,所以时间点大概在3年后,甚至还会更快!
全新Scaling Law:6年内,AI任务长度7个月翻一番
METR认为,预测未来AI系统的能力,对理解和准备应对强大AI带来的影响至关重要。
然而,究竟应该怎样准确预测AI能力的发展趋势?这项任务目前仍然非常艰巨。
而且,即使我们想理解当今模型的能力,也往往很难把握。
虽然目前最前沿的AI系统中文本预测和知识处理任务上已经远超人类,能以远低于人力的成本中大多数考试中远超人类专家,但它们仍然无法独立完成实质性项目,或者直接替代人类劳动。
甚至,它们也无法处理基于计算机的低技能工作,比如远程行政助理。
那么,该如何衡量它们对于现实世界的实际影响呢?
METR研究者表示,一个有效方法,就是衡量AI模型能完成的任务长度。
这是因为,AI智能体的主要挑战,并不在于缺乏解决单个步骤所需的技能或知识,而在于难以连续执行较长的动作序列。
于是,他们让AI智能体完成一组多样化的多步骤软件和推理任务,同时还记录了具有专业知识的人类所需的时间,然后有了这样一个有趣的发现——
人类专家完成任务的时间,能有效预测模型在特定任务上的成功率。
其中一个软件工程任务:回答「哪个文件最有可能包含密码」
不同时长的任务,最短的只有3秒,最长的有8小时
比如,当前模型在人类耗时不足4分钟的任务上,几乎能达到100%的成功率,但在需要人类耗时超过4小时的任务上,成功率则低于10%。
由此,研究者想到:可以用「模型以x%概率成功完成的任务所对应的人类完成时长」,来描述模型的能力水平。