又一场争论爆发了。
这次争论的是:
关于LLM 的本质。
而主角则是AI 领域著名的“
永远正确先生
” Gary Marcus,和80000Hours 的创始人Benjamin Todd。
关于Gary Marcus 是谁,DeepSeek 这样介绍的:
至于争论的导火索,则是一条看似普通的推文。
Benjamin Todd 发文指出Gary Marcus 总是在预测“
AI做不到某事
”,而实际上AI早就能做到了。
相信你都会觉得过分的是,
Todd 的
文章标题叫做:《
Gary Marcus 表示,AI 无法做它已经可以做的事情
》,并在文中列举展示了Marcus 从2020 年至今的几次“错误预测”:
Marcus的
神
预测
并且还得到大量网友声援:
看到这里,好像文章的标题
《
Gary Marcus 表示,AI 无法做它已经可以做的事情
》虽然矛盾,但
也挺合理?
你有没有好奇,
看到文章的Marcu
s 会作何感想?
如你所料,自然是
非常火大:
说我不对也就算了,
还要嘲笑我小气不舍得包月?
试想,换你能你受得了?!!
必须给出强烈回应!!!
于是,暴怒的Marcus 立刻发文回应称自己从未说过“
AI 做不到X
”,而是特指“
纯LLM 做不到X
”。
我的立场很明确:
• 纯LLM不是AGI,永远也不会是
• 领域越早超越纯LLM,我们就越早(无论好坏)达到AGI
• 纯LLM作为基础仍然存在很多问题(ChatGPT就说明了这一点)
话说回来,当Gary Marcus 用免费版的ChatGPT(GPT-4o-mini,也可能用的是4o)测试生成美国各州统计表失败时,他可能没想到这会引发AI界最激烈的定义权争夺战。
GPT-o1生成的美国各州数据表格引发定义权争夺战
80,000 Hours 创始人Benjamin Todd 在看到Gary Marcus 对LLM 的大肆批判后,随手用20$/月的付费版GPT-o1 复现并实验成功了。
所以他才发文犀利指出:
Marcus 总在批判AI无法完成已被攻克的任务。
这下子,Gary Marcus 的狡辩能力瞬间就激发出来了!
才有了他前面的辩称:
我是指LLM 不行,但o1 显然已经不是LLM 了啊兄弟!
于是……
话题又成功跑偏了,争论迅速
转化
、
升级
、
升温
成为了
LLM 的本质论战
。
论战主题:
纯LLM 的定义是什么?
o1 和r1 还是纯种LLM 吗?
讨论的矛头直指当前最前沿的
OpenAI o1
,同时自然也波及了当红的中国开源模型
DeepSeek R1
:
当模型通过强化学习(RL)融入规则系统后,它们还是纯粹的大语言模型吗?
辩论大战一触即发!
正方观点:升级即质变
Gary Marcus 在深度解析中指出:
DeepSeek 系统包含模型 + RL架构 + 符号规则奖励机制,其训练过程本质上是神经符号混合系统。就像说方格纸会乘法,只因外部系统能填写乘法表
他强调称,DeepSeek R1 的技术细节显示它的训练阶段采用
双轨制奖励系统
:
-
-
反方观点:权重即一切
ML工程师Manu Otel 指出:
R1和o1本质上仍是LLM。MoE架构只是神经元激活模式的拆分,所谓的“符号规则”不过是损失函数里的格式约束
来自OpenAI 工程师Aidan McLaughlin 表示震惊:虽然我不能代表o1 说话(因为Sam Altman 不让),但r1 就是LLM 啊!
这就是个标准LLM,所谓规则系统不过是训练阶段的脚手架
来自HuggingFace的GDP 更直白:
在Huggingface仓库里你只能找到权重文件和分词器——这就是LLM的本质证明
中间派:量子纠缠态…
被炸出来的亚利桑那州立大学教授Subbarao Kambhampati 也只好表态:“
R1 在推理时还是纯LLM 的,但我当然不会说不是
”:
R1 的训练本质是在LLM 权重中固化RL 构造的思维链。就像用强化学习给自己编写提示工程教材,然后背熟教材参加考试
呃……那是是,还是不是?
论教授的说话水平……
严谨派:
流畅
的证明
当争论陷入胶着时,有网友给出了形象的类比思路:
这就像争论“用Word文档写诗的人还算人类吗?”
——因为Word提供了拼写检查
而Michael Druggan 更进一步,贡献了
极
为严谨的全场MVP 证明:
Gary Marcus说LLM不能做X →
R1做到了X →
Gary Marcus不可能错 →
所以R1不是LLM →
QEN(证明完成)
这逻辑,确实很严谨。
(好奇:以此为thining 思维链训练出来的r1 会是个什么样子……
智能的边界?
GPT-o1处理复杂查询的界面引发思考
这场争论的本质,是AI 的发展正在突破传统认知框架。
当:
我们面临的,或许不再是技术定义问题,更是
智能本质的重新认知
。