主要观点总结
本文主要介绍了DeepSeek-R1模型在ARC-AGI和SnakeBench基准上的表现。DeepSeek-R1模型凭借其开源和低成本的优势,已经成为国内AI或云服务商的标配,并且正在被集成到越来越多的应用和服务中。在SnakeBench基准测试中,DeepSeek-R1模型表现良好,但相较于其他高端LLM模型如o3系列等仍有差距。文章还介绍了SnakeBench基准的设计灵感来源,以及LLM在游戏中的对抗评估方法。
关键观点总结
关键观点1: DeepSeek-R1模型成为国内AI或云服务商的标配,并正被集成到越来越多的应用和服务中。
DeepSeek-R1模型凭借开源和低成本的优势得到了广泛应用。
关键观点2: DeepSeek-R1在ARC-AGI上的表现尚待提升。
根据ARC Prize发布的报告,R1在ARC-AGI-1上的表现尚未赶上OpenAI的o1系列模型。
关键观点3: SnakeBench是一个新的基准测试,用于评估LLM的实时决策、多重目标、空间推理等能力。
DeepSeek-R1在该基准上表现良好,与o3-mini的差距很小。
关键观点4: SnakeBench的设计灵感来自著名AI研究科学家Andrej Karpathy的推文,使用游戏作为评估环境可以检验LLM的多种能力。
ARC Prize使用了50个LLM进行了总共2800场比赛,以评估他们的贪吃蛇实时策略和空间推理能力。
正文
自那以后已经过去了两个多月,AI 领域早已经迎来了巨大的改变,其中尤其值得提及的便是 DeepSeek-R1 模型。凭借开源和低成本等优势,这款性能强大的推理模型不仅已经成为国内 AI 或云服务商的标配,还正被集成到越来越多的应用和服务中,甚至原来很多原本与 AI 没有直接关联的应用也以接入 DeepSeek 为卖点进行宣传。
那么,DeepSeek-R1 的 ARC-AGI 成绩如何呢?根据 ARC Prize 发布的报告,R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型,更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势:成本低。
来源:https://arcprize.org/blog/r1-zero-r1-results-analysis
上周六,ARC Prize 又发布了一个新的基准,这一次 DeepSeek-R1 不仅超过了 o1-mini,与 o3-mini 的差距也非常小。
这个新基准名为
SnakeBench
,是一个 1v1 的对抗性基准。其思路很简单:将两个 LLM 放在一起进行贪吃蛇比赛。如下展示了一局 o3-mini 与 DeepSeek-R1 的对抗。
-
官方网站:https://snakebench.com
-
项目地址:https://github.com/gkamradt/SnakeBench
ARC Prize 的推文表示,SnakeBench 的设计灵感来自著名 AI 研究科学家 Andrej Karpathy 的一条推文,其中涉及到了让 AI 智能体在游戏中进行对抗以进行评估的思路。(这条推文还涉及到另一个使用游戏来评估 LLM 的基准 TextArena,感兴趣的读者可访问:
https://www.textarena.ai
)
ARC Prize 表示,使用游戏作为评估环境可以检验 LLM 的多种能力,包括:
ARC Prize 报告说他们目前已经使用 50 个 LLM 进行了总共 2800 场比赛,为这些模型的「贪吃蛇实时策略和空间推理」能力排了个座次。
首先,以文本格式提供两个 LLM 角逐的棋盘,其中会通过提示词明确说明所用的 XY 坐标系。因此需要明确,这里提供的并非真正的 2D 表示 —— 这种信息转译可能会丢失某些空间推理信息。下面展示了一个提示词示例:
在游戏进行时,首先随机初始化每条蛇。然后要求两条蛇(LLM)同时选择下一步动作。当一条蛇撞到墙、撞到自己或撞到另一条蛇时,游戏结束。之后,根据游戏结果计算每条蛇的 Elo 评分。
据介绍,整体来说,Big Llama、o1、o3、Sonnet 3.5 和 DeepSeek 的表现最好,而其它 LLM 总是会撞墙。下面展示了几局效果最好的比赛:
ARC Prize 官网还详细列出了这四局比赛的完整详情,下面展示了其中第二局(DeepSeek-R1 vs o3-mini)的详情。在这里,不仅可以看到 LLM 每一步的选择,而且还能看到 LLM 为每一步选择给出的理由。当然,对于 DeepSeek-R1 模型,我们还可以清楚地看到其完整的思考过程。
Dry Merge CTO Sam Brashears 还注意到了一个非常有趣的回合。此时,o3-mini 和 DeepSeek 同时与一个苹果相邻,而它们竟然同时认为对方不会冒险吃这个苹果,于是决定自己去吃,结果导致双双毙命。
此时,DeepSeek 想的是:「如果我向右移动到 (8,7) ,同时如果蛇 1 也向左移动,则有与蛇 1 相撞的风险。但是,为了保证分数,吃到苹果优先于规避风险。」
而此时 o3-mini 也有类似的想法:「尽管我们的敌蛇(蛇 2)的头位于 (7,7) 处,也有可能想吃这个苹果,但没有强烈的迹象表明它会冒险用自己更长的身体与我正面碰撞。因此,吃到苹果的直接好处大于风险。」
以下是 ARC Prize 总裁 Greg Kamradt 总结的几点关键发现: