专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【一个关于长上下文大语言模型(LLM)的综述 ... ·  19 小时前  
新智元  ·  Claude 3.7 ... ·  22 小时前  
AI范儿  ·  AI 创业公司估值排行榜:从 ... ·  昨天  
新智元  ·  刚刚,DeepSeek开源DeepEP通信库 ... ·  2 天前  
51好读  ›  专栏  ›  黄建同学

Anthropic Claude团队分享了一个有趣的实验:让AI-20250226134147

黄建同学  · 微博  · AI  · 2025-02-26 13:41

正文

2025-02-26 13:41

Anthropic Claude团队分享了一个有趣的实验:让AI(Claude)尝试玩Pokémon游戏。足见大模型这半年的进步真是神速↓

1. 初始尝试并不成功。2024年6月,Claude 3.5 Sonnet版本在游戏中挣扎,面对挑战时,它会反复尝试逃避必须进行的战斗。考虑到Claude从未被专门训练过玩视频游戏,这并不令人意外。(图2)

2. 尽管早期尝试屡遭失败,但也不乏幽默的时刻。在一次尝试中,Claude卡在角落里,深信游戏出了问题,甚至正式请求重置游戏。( 图3)

3. 随着2024年10月Claude 3.5 Sonnet的更新,情况有所改善。Claude首次击败了一个对手,并成功离开了帕雷特镇。但最终,进展停滞,距离成为宝可梦大师还差得远。(图4)

4. 不过,最近使用Claude 3.7 Sonnet的初步预览版进行的尝试显示出惊人的进展。在短短几小时内,Claude就击败了布洛克,几天后又轻松战胜了莫蒂。这是早期模型难以实现的进步。显然,延长思考时间非常有效。(图5-图9)

Claude 3.7 Sonnet不仅能够规划前进的路线,还记得它的目标,并在初始策略失败时进行调整。它通过获得一个知识库来存储笔记、视觉来看屏幕以及函数调用来模拟按键操作和导航游戏,这些一起使Claude能够进行成千上万次的交互,维持游戏进行。

Anthropic团队表示,这种能力不仅仅限于游戏,也为解决现实世界问题的AI系统展示了一种通过泛化推理而不仅仅是通过训练来提升能力的新方式。

目前,Claude玩Pokémon实验仍在继续,可以在Twitch上关注它的进展:twitch.tv/ClaudePlaysPokemon

#ai创造营# #deepseek# #科技#






请到「今天看啥」查看全文