专栏名称: AGI Hunt
关注AGI 的沿途风景!
目录
相关文章推荐
autocarweekly  ·  教会四家人用鸿蒙智驾,只需要一个春节 ·  昨天  
有车以后  ·  小米SU7 ... ·  3 天前  
51好读  ›  专栏  ›  AGI Hunt

DeepSeek R1 还是LLM 吗?

AGI Hunt  · 公众号  ·  · 2025-02-11 00:00

正文

又一场争论爆发了。

这次争论的是: 关于LLM 的本质。

而主角则是AI 领域著名的“ 永远正确先生 ” Gary Marcus,和80000Hours 的创始人Benjamin Todd。

关于Gary Marcus 是谁,DeepSeek 这样介绍的:

至于争论的导火索,则是一条看似普通的推文。

Benjamin Todd 发文指出Gary Marcus 总是在预测“ AI做不到某事 ”,而实际上AI早就能做到了。

图像

相信你都会觉得过分的是, Todd 的 文章标题叫做:《 Gary Marcus 表示,AI 无法做它已经可以做的事情 》,并在文中列举展示了Marcus 从2020 年至今的几次“错误预测”:

Marcus的 预测

并且还得到大量网友声援:



看到这里,好像文章的标题 Gary Marcus 表示,AI 无法做它已经可以做的事情 》虽然矛盾,但 也挺合理?

图像

你有没有好奇, 看到文章的Marcu s 会作何感想?

如你所料,自然是 非常火大:

说我不对也就算了, 还要嘲笑我小气不舍得包月?

试想,换你能你受得了?!!

必须给出强烈回应!!!

于是,暴怒的Marcus 立刻发文回应称自己从未说过“ AI 做不到X ”,而是特指“ 纯LLM 做不到X ”。

我的立场很明确:

• 纯LLM不是AGI,永远也不会是

• 领域越早超越纯LLM,我们就越早(无论好坏)达到AGI

• 纯LLM作为基础仍然存在很多问题(ChatGPT就说明了这一点)

话说回来,当Gary Marcus 用免费版的ChatGPT(GPT-4o-mini,也可能用的是4o)测试生成美国各州统计表失败时,他可能没想到这会引发AI界最激烈的定义权争夺战。

GPT-o1生成的美国各州数据表格引发定义权争夺战

80,000 Hours 创始人Benjamin Todd 在看到Gary Marcus 对LLM 的大肆批判后,随手用20$/月的付费版GPT-o1 复现并实验成功了。

所以他才发文犀利指出:

Marcus 总在批判AI无法完成已被攻克的任务。

这下子,Gary Marcus 的狡辩能力瞬间就激发出来了!

才有了他前面的辩称:

我是指LLM 不行,但o1 显然已经不是LLM 了啊兄弟!

于是……

话题又成功跑偏了,争论迅速 转化 升级 升温 成为了 LLM 的本质论战

论战主题:

纯LLM 的定义是什么? o1 和r1 还是纯种LLM 吗?


讨论的矛头直指当前最前沿的 OpenAI o1 ,同时自然也波及了当红的中国开源模型 DeepSeek R1

当模型通过强化学习(RL)融入规则系统后,它们还是纯粹的大语言模型吗?

辩论大战一触即发!

正方观点:升级即质变

Gary Marcus 在深度解析中指出:

DeepSeek 系统包含模型 + RL架构 + 符号规则奖励机制,其训练过程本质上是神经符号混合系统。就像说方格纸会乘法,只因外部系统能填写乘法表

Image

他强调称,DeepSeek R1 的技术细节显示它的训练阶段采用 双轨制奖励系统

  1. 准确性奖励 :通过预定义规则验证数学问题答案格式

  2. 格式奖励 :强制模型在 标签内呈现思考过程

反方观点:权重即一切

ML工程师Manu Otel 指出:

R1和o1本质上仍是LLM。MoE架构只是神经元激活模式的拆分,所谓的“符号规则”不过是损失函数里的格式约束

来自OpenAI 工程师Aidan McLaughlin 表示震惊:虽然我不能代表o1 说话(因为Sam Altman 不让),但r1 就是LLM 啊!

这就是个标准LLM,所谓规则系统不过是训练阶段的脚手架

来自HuggingFace的GDP 更直白:

在Huggingface仓库里你只能找到权重文件和分词器——这就是LLM的本质证明

中间派:量子纠缠态…

被炸出来的亚利桑那州立大学教授Subbarao Kambhampati 也只好表态:“ R1 在推理时还是纯LLM 的,但我当然不会说不是 ”:

R1 的训练本质是在LLM 权重中固化RL 构造的思维链。就像用强化学习给自己编写提示工程教材,然后背熟教材参加考试

呃……那是是,还是不是?

论教授的说话水平……

严谨派: 流畅 的证明

当争论陷入胶着时,有网友给出了形象的类比思路:

这就像争论“用Word文档写诗的人还算人类吗?”

——因为Word提供了拼写检查

而Michael Druggan 更进一步,贡献了 为严谨的全场MVP 证明:

Gary Marcus说LLM不能做X →

R1做到了X →

Gary Marcus不可能错 →

所以R1不是LLM →

QEN(证明完成)

这逻辑,确实很严谨。

(好奇:以此为thining 思维链训练出来的r1 会是个什么样子……

智能的边界?

GPT-o1处理复杂查询的界面引发思考

这场争论的本质,是AI 的发展正在突破传统认知框架。

当:

  • 训练过程引入符号规则

  • 推理时延长token 生成窗口

  • 系统集成外部验证工具

我们面临的,或许不再是技术定义问题,更是 智能本质的重新认知







请到「今天看啥」查看全文