Andrej Karpathy 对 Grok 3 的早期体验进行了总结,分享了他对 Grok 3 的初步印象和测试结果:
1、总体印象:接近甚至超越 OpenAI 的最强模型,发展速度惊人
- 积极基调: “Grok 3 显然处于最先进的水平”。“Grok 3 + Thinking 感觉已经达到了 OpenAI 最强模型 (o1-pro, $200/月) 的水平,甚至略好”。
- 发展速度: 特别强调 xAI 团队“大约一年前才从零开始”,认为 Grok 3 的发展速度“令人难以置信”,并称赞“这个时间尺度达到这种最先进的水平是前所未有的”。
- 未来可期: 表示“早期的 LM 竞技场结果看起来非常鼓舞人心”,并期待在未来几周/几个月进行更多评估,最终将 Grok 3 加入他的“LLM 委员会”以听取更多意见。
2、“Thinking”模式是 Grok 3 的亮点和关键
- “Think”按钮: Karpathy多次强调“Thinking”模式的重要性,并提到 Grok 3 是他见过的“为数不多的可以运行快速思考模型(‘Think’ 按钮)的模型之一”。
- 复杂推理能力: “Thinking”模式显著提升了 Grok 3 在复杂推理任务上的表现,例如:
- 卡坦岛问题: Grok 3 在生成卡坦岛风格的网页代码方面表现出色,超越了许多模型,包括 o1-pro、Gemini 2.0 Flash Thinking 和 Claude。
- GPT-2 训练 FLOPs 计算: Grok 3 成功解答了需要估算和计算的 GPT-2 训练 FLOPs 问题,而 o1-pro 和 4o 模型都失败了。
- 黎曼猜想: 即使是尝试解决黎曼猜想这样的未解难题,也展现了 Grok 3 的“勇气”和“不轻易放弃”的态度。
- 解决“Gotcha”问题: 在一些“Gotcha”式的难题中,开启“Thinking”模式也能显著提升 Grok 3 的表现,例如数“草莓”中“r”的数量和比较 9.11 和 9.9 大小。
3、DeepSearch 功能:类似 Perplexity Deep Research,但有待完善
- DeepSearch 概念: Karpathy 描述 Grok 3 的 DeepSearch 功能“似乎结合了 OpenAI/Perplexity 所谓的 ‘Deep Research’,以及思考”。他认为 DeepSearch 类似于 Perplexity 的 Deep Research,可以产生高质量的、研究型的回答。
- 信息检索能力: DeepSearch 在回答需要互联网检索的复杂问题时表现出色,例如:
- 苹果新品发布会
- Palantir 股票上涨
- 白莲花第三季拍摄地
- Bryan Johnson 使用的牙膏
-“尖锐边缘”和不足: Karpathy 也指出了 DeepSearch 的一些“尖锐边缘”和不足之处:
- 引用问题: 模型似乎不喜欢引用来源,即使被明确要求。
- 幻觉: 模型有时会产生虚假的 URL 和不准确的事实信息。
- 信息来源: DeepSearch 错误地将 xAI 排除在“主要 LLM 实验室”之外。
4、其他“Gotcha”问题测试结果:有亮点也有不足
- 成功案例:
- 数字母: Grok 3 在数“草莓”中的“r”和“LOLLAPALOOZA”中的“L”数量问题上,通过“Thinking”模式成功解决。
- 简单谜题: Grok 3 能够解决一些简单的谜题,即使不开启“Thinking”模式。
- 逻辑推理: 在“Sally 姐妹”的问题中,Grok 3 即使在 GPT-4o 回答错误的情况下,也能正确回答,体现了逻辑推理能力。
- 失败案例:
- 幽默感不足: Grok 3 的幽默感依然不足,生成的笑话重复且质量不高。
- 伦理敏感性: 模型对于“复杂的伦理问题”仍然过于敏感,例如拒绝回答关于人口死亡率的问题。
- SVG 生成: 在生成复杂的 SVG 图像方面表现不佳,可能是因为难以用文本描述复杂的二维网格布局。
- Emoji Mystery: 无法解决 Emoji 谜题,即使给出 Rust 代码提示。
5、总结与展望
- 整体水平: Grok 3 + Thinking 的整体水平已经接近甚至超越了 OpenAI 最强的模型,尤其是在复杂推理和多步任务方面。
- DeepSearch 潜力: DeepSearch 功能潜力巨大,但仍需改进准确性和信息来源问题。
-“Thinking”模式的价值: “Thinking”模式是 Grok 3 的核心竞争力,显著提升了模型在复杂任务上的表现。
- 未来方向: Karpathy 强调需要进行更多评估,并期待 Grok 3 在未来几周/几个月的发展。
总而言之,Karpathy 对 Grok 3 的早期体验是积极且充满希望的。他认为 Grok 3 在“Thinking”模式的加持下,展现了强大的复杂推理能力,并具备与 OpenAI 最强模型竞争的潜力。虽然 DeepSearch 和其他方面仍有改进空间,但 Grok 3 的快速发展速度和令人鼓舞的早期表现,使其成为 LLM 领域一个值得期待的新星。
#人工智能#
1、总体印象:接近甚至超越 OpenAI 的最强模型,发展速度惊人
- 积极基调: “Grok 3 显然处于最先进的水平”。“Grok 3 + Thinking 感觉已经达到了 OpenAI 最强模型 (o1-pro, $200/月) 的水平,甚至略好”。
- 发展速度: 特别强调 xAI 团队“大约一年前才从零开始”,认为 Grok 3 的发展速度“令人难以置信”,并称赞“这个时间尺度达到这种最先进的水平是前所未有的”。
- 未来可期: 表示“早期的 LM 竞技场结果看起来非常鼓舞人心”,并期待在未来几周/几个月进行更多评估,最终将 Grok 3 加入他的“LLM 委员会”以听取更多意见。
2、“Thinking”模式是 Grok 3 的亮点和关键
- “Think”按钮: Karpathy多次强调“Thinking”模式的重要性,并提到 Grok 3 是他见过的“为数不多的可以运行快速思考模型(‘Think’ 按钮)的模型之一”。
- 复杂推理能力: “Thinking”模式显著提升了 Grok 3 在复杂推理任务上的表现,例如:
- 卡坦岛问题: Grok 3 在生成卡坦岛风格的网页代码方面表现出色,超越了许多模型,包括 o1-pro、Gemini 2.0 Flash Thinking 和 Claude。
- GPT-2 训练 FLOPs 计算: Grok 3 成功解答了需要估算和计算的 GPT-2 训练 FLOPs 问题,而 o1-pro 和 4o 模型都失败了。
- 黎曼猜想: 即使是尝试解决黎曼猜想这样的未解难题,也展现了 Grok 3 的“勇气”和“不轻易放弃”的态度。
- 解决“Gotcha”问题: 在一些“Gotcha”式的难题中,开启“Thinking”模式也能显著提升 Grok 3 的表现,例如数“草莓”中“r”的数量和比较 9.11 和 9.9 大小。
3、DeepSearch 功能:类似 Perplexity Deep Research,但有待完善
- DeepSearch 概念: Karpathy 描述 Grok 3 的 DeepSearch 功能“似乎结合了 OpenAI/Perplexity 所谓的 ‘Deep Research’,以及思考”。他认为 DeepSearch 类似于 Perplexity 的 Deep Research,可以产生高质量的、研究型的回答。
- 信息检索能力: DeepSearch 在回答需要互联网检索的复杂问题时表现出色,例如:
- 苹果新品发布会
- Palantir 股票上涨
- 白莲花第三季拍摄地
- Bryan Johnson 使用的牙膏
-“尖锐边缘”和不足: Karpathy 也指出了 DeepSearch 的一些“尖锐边缘”和不足之处:
- 引用问题: 模型似乎不喜欢引用来源,即使被明确要求。
- 幻觉: 模型有时会产生虚假的 URL 和不准确的事实信息。
- 信息来源: DeepSearch 错误地将 xAI 排除在“主要 LLM 实验室”之外。
4、其他“Gotcha”问题测试结果:有亮点也有不足
- 成功案例:
- 数字母: Grok 3 在数“草莓”中的“r”和“LOLLAPALOOZA”中的“L”数量问题上,通过“Thinking”模式成功解决。
- 简单谜题: Grok 3 能够解决一些简单的谜题,即使不开启“Thinking”模式。
- 逻辑推理: 在“Sally 姐妹”的问题中,Grok 3 即使在 GPT-4o 回答错误的情况下,也能正确回答,体现了逻辑推理能力。
- 失败案例:
- 幽默感不足: Grok 3 的幽默感依然不足,生成的笑话重复且质量不高。
- 伦理敏感性: 模型对于“复杂的伦理问题”仍然过于敏感,例如拒绝回答关于人口死亡率的问题。
- SVG 生成: 在生成复杂的 SVG 图像方面表现不佳,可能是因为难以用文本描述复杂的二维网格布局。
- Emoji Mystery: 无法解决 Emoji 谜题,即使给出 Rust 代码提示。
5、总结与展望
- 整体水平: Grok 3 + Thinking 的整体水平已经接近甚至超越了 OpenAI 最强的模型,尤其是在复杂推理和多步任务方面。
- DeepSearch 潜力: DeepSearch 功能潜力巨大,但仍需改进准确性和信息来源问题。
-“Thinking”模式的价值: “Thinking”模式是 Grok 3 的核心竞争力,显著提升了模型在复杂任务上的表现。
- 未来方向: Karpathy 强调需要进行更多评估,并期待 Grok 3 在未来几周/几个月的发展。
总而言之,Karpathy 对 Grok 3 的早期体验是积极且充满希望的。他认为 Grok 3 在“Thinking”模式的加持下,展现了强大的复杂推理能力,并具备与 OpenAI 最强模型竞争的潜力。虽然 DeepSearch 和其他方面仍有改进空间,但 Grok 3 的快速发展速度和令人鼓舞的早期表现,使其成为 LLM 领域一个值得期待的新星。
#人工智能#