当大部分人都相信一件事或趋势时,不同意的人可以选择沉默,也可以大声说出来。前者是少数派中的多数派,后者少数派中的少数派。
马毅就是一个少数派中的少数派。
自 2000 年从伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学,现担任香港大学计算机系主任和数据科学研究院院长。
他最早将 “压缩感知” 技术应用于计算机视觉领域,在人脸识别、物体分类等任务上产生了巨大影响。
知名 AI 学者李飞飞是马毅在 UIUC 时招的第一个华人助理教授,ResNet 一作何恺明是马毅在微软亚研院负责视觉组时招的第一个博士生。
马毅公开表达时直言不讳。AI 业界惊叹于 GPT 等大模型的威力,担心 AI 可能毁灭人类,如图灵奖得主杰弗里·辛顿(Geoffrey Hinton) 和 OpenAI 发起者之一伊隆·马斯克(Elon Musk)就多次将 AI 类比为原子弹,呼吁监管。
“说现在的 AI 危险的人,要么是无知,要么是别有目的。” 马毅在 twitter 上回应 AI 威胁论。
强烈的观点来自他对当前 AI 系统的理解。不少人相信用更多数据、更大算力做更大参数的模型,就可以实现 AGI(通用人工智能),这就是大模型的 Scaling Laws(规模定律),它被一些人视为 “信仰”。
马毅则不相信这条路。他认为现在的深度学习网络本质上都在做压缩(compression):就是从图像、声音和语言等高维信号里,找到能表示数据间相关性和规律的低维结构。
2023 年底发表白盒大模型框架 CRATE 时,马毅在社交媒体上称压缩不会通向通用智能或意识。
“GPT 有很多知识,但知识不等于智能。”GPT 表现出来的数学推理等能力在马毅看来本质还是依靠记忆、统计,就像一个接受填鸭式教育的高分低能的学生,它并不能学到因果推理、逻辑等能力。
马毅理解的智能,是能自己纠正现存知识的不足并发现新知识的系统。
为解释深度学习网络到底在做什么,马毅团队最近几年的重点工作是白盒大模型,用数学来解释深度学习网络的压缩过程,以找到更高效的压缩方式。
他希望让更多人了解白盒,以对抗黑盒带来的误解,因为 “历史上,任何有用的黑盒都可能变成迷信和巫术”。他担心对 AI 的恐惧可能带来过度监管,遏制创新。
相比 Scaling Laws 追随者的人多势众和 AI 威胁论的直指人心,马毅等少数派影响力小得多。
今年 5 月与马毅在香港见面前,我们问身边的 AI 从业者:怎么看马毅团队的研究?
“不太关心”、“不看他的论文了”,大部分从业者更关注如何在现有路线下提高训练和推理效率。
就在前几天,马毅的多篇论文合作者,图灵奖得主杨立昆(Yann LeCun)公开抨击马斯克说 AI 可能毁灭人类是阴谋论。马斯克问杨立昆:“过去 5 年,你做了哪些 ‘科学’?”“你应该更努力一点。”
马毅团队的白盒大模型 CRATE 去年发布时,在同等参数下的指标不如已有的模型 ViT。一些从业者称这是 “负优化”,“魔改 Transformer,但效果还不如”。
秘塔科技创始人、马毅的学生闵可锐说:现在 AI 界的评价标准越来越偏向一个研究是否 work,而不是智识上的增长。
“你不在 1000 亿参数的模型上验证,大家就不太相信。” 他称学界与工业界的算力差距也拉大了不同模型的效果差距。
去年马毅创立了忆生科技:“如果产业界能接受这些东西,功成不必在我。但我们想加速这个过程,证明白盒路线可行。” 马毅说。
写完第三本书后发誓不再写书的马毅现在又开始写一本新书,针对高年级本科生。他将面向香港大学所有专业的学生设计 AI 通识课程,讲历史和计算思想,希望年轻一代有正确理解 AI 的基础。
忆生天使轮投资人,真格基金合伙人刘元认为,在主流方向上做到最好,或敢做、能做不一样方向的人,都是他们寻找的创始人:“马毅是我们见过的、少有的能做开创性工作的学者,我们很钦佩。”
真理不一定掌握在少数人手中,但少数派和观点竞争的存在增加了发现真知的概率。
“如果你相信只靠 Scaling Laws 就能实现 AGI,我觉得你该改行了”
《晚点》:一些大模型从业者告诉我,他们现在已经不看您的论文了,因为可解释的白盒大模型对实践没什么指导,他们更关心如何找到更高效的训练和推理框架。
马毅:很正常,当你要做不太一样或比较基础理论的东西,大家不一定很容易接受。
但只有用理论框架解释已有的工作,把现在这些通过经验的神经网络搞明白了,你才知道它的局限在哪里。
《晚点》:你觉得主流方法的局限是什么呢?很多人相信用更多的数据、更大的算力搞更大参数的模型可以达到 AGI。
马毅:任何事情,用越大规模的资源就会得出越好的结果。但现在通过 Scaling Laws 看到的现象是不是智能本身?这是个 big question。
《晚点》:你认为现在大模型涌现的智能实际是什么?
马毅:大模型现在只实现了局部的记忆功能。
早期我们做分类和识别,让机器能认出什么是猫,是在模拟从物理视觉信号到我们大脑中的抽象概念的过程。生成则是一个反向过程,是从语义信号再生成物理信号。
这两个加起来才是完整的记忆系统,现在的模型,识别和生成是分开的,所以只是对这个完整系统的局部的模拟。记忆本身从生物智能的角度也只是一种低层次智能,不是逻辑、因果推理等人类的高级智能。
正因为它是局部的,它的实现也比较粗暴,对数据、模型和算力的要求都非常大。提升它的性能也很昂贵,现在要做 Backward Propagation(反向传播)——各种深度模型,不管多少层,都是几十亿、几百亿、几千亿的参数同时优化,这样算力要求就很大。
而且它是一个开环系统(即无反馈控制系统,指系统的输入量不受输出量影响的系统),没法知道自己学的东西是对还是错。所以现在训练大模型,第一步就要清洗好数据,如果你给它错的数据,它也会记下来。
《晚点》:即使有缺陷,但为什么现在追逐 Scaling Laws 是很多聪明人的共同选择?全世界在这个方向上的直接和间接投入达到了万亿美元量级。
马毅:因为它正反馈强。而且一个东西一旦变成主流,大家就会相互确认、强化认同。
一个领域里,大家都去认可一件事,往往会忽略掉其他可能更重要或至少跟现的想法互补的东西,这在历史上重复发生。
《晚点》:有什么例子吗?
马毅:深度网络本身就是例子。60、70 年代冷了以后,之后三四十年里只有寥寥无几的人在坚持。
现在有点矫枉过正,原来神经网络是一无是处,现在变成能解决所有问题。只要稍微有点常识是不是都会觉得这里边有问题?
《晚点》:矫枉过正会带来什么?
马毅:从众,什么东西热大家就做什么。这样同一个指标只会培养出同质化的人,能力、方向、研究水平都一样,没有独创性。
其实过去十年,国内对 AI 的投入绝对不比国外少,但整个人才培养和科研导向变得同质化,这会造成落后。
《晚点》:全球范围里指出现有方法局限的主要是杨立昆(Yann LeCun)、李飞飞和您这种学者。年轻的从业者是不是还是有更快拿出成果的压力?
马毅:作为年轻人,如果你的信仰就是 Scaling Laws,觉得把现在的系统做大就能实现 AGI ,我觉得你该改行了。因为你已经不可能有作为了,你就只能做一个螺丝钉。
去年多模态模型出来后,上上下下都说好,我跟杨立昆、谢赛宁,还有我们的学生就想:好吧,我们验证一下,如果确实如此,我们真可以改行了,就让 OpenAI 完成这个使命就好了,因为已经实现 AGI 了。
结果我们只做了尝试性的测试,就发现绝大部分多模态模型在很简单的任务上也会犯一些常识性错误。主流多模态大模型里,只有 Gemini 和 GPT-4V 高于随机猜测的水平。
但大家不愿意去谈这种事。现在社会各界为了推动 AI 只讲积极面,不去看局限。
马毅提及的研究见论文
Eyes wide shut? exploring the visual shortcomings of multimodal llms
。该论文展示的一些多模态模型对图片的错误理解例子。
《晚点》:即使不能当最领先者,去优化现有方法是不是也有价值?
马毅:我是说不适合再做研究了。研究要有创新,不应该从众,要去找现有方法里不足的地方,改进现有知识,发现新知识。如果你找不到现有方法的不足,肯定得改行。
《晚点》:你们团队这几年花了很大功夫研究白盒大模型,用白盒打开黑盒与更安全、可控的 AI 有关吗?一般人们会把可解释性和可控联系起来。
马毅:黑盒的最大问题还不是你怎么去控制它,而是历史上,只要什么东西是黑盒,而且比较有用,就会产生迷信和巫术。
现在很多人想当巫师、国师,制造恐惧、利用恐惧,想垄断这个技术。
《晚点》:你是指马斯克吗?
马毅:还有几位,都是一帮掌握这个技术的百万富翁,说大模型是原子弹,可能把人类毁灭了。
我们就觉得很可笑。我很清楚你在干什么,你在做数据压缩,做一个简单的、局部的记忆功能,自主学习的能力都没有,这有什么可怕的?
如果这个东西真危险,为什么说它危险的高科技公司的 CTO、CEO 自己也在做,Hinton(图灵奖得主 Geoffrey Hinton) 自己都在创业。你做的就不危险,别人的就危险?
去年我在 twitter 上发过一个很得罪的人话:现在说 AI 危险的人,要么是无知,要么是别有目的。
《晚点》:就算现在的大模型还不是高级智能,但是不是需要提前防范它的潜在危害?
马毅:任何技术都可能是双刃剑。照这个逻辑,互联网太危险了,可以传递各种错误信息,炼钢也危险,可以做刀、做炮。
科研领域应该是开放的。如果政府去监管一个技术,应该规范它的用途和最终产品,不能连芯片、软件,甚至算法开源都要规范。最后只能是既得利益者的垄断。
《晚点》:所以白盒的一个意义是给大模型祛魅?
马毅:我们想让大家明白大模型本质上在做什么。
它现在做的是非常简单,甚至机械的事。有些结果看起来蛮神奇,但这些网络的框架和对数据的处理都可以 100% 用数学解释清楚。
这也是为什么我们花了大量工夫去做实验,其实作为研究完全不必要。你看最近那篇文章,有 6、7 个学校的团队一起。我们谁都没那么多资源,就得团结起来,把不同应用场景都做出可信赖的成果。
(注:马毅提到的研究见
White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?
)
“白盒是对数据压缩过程的数学解释,当知道了数学原理,就可以省去很多试错成本”
《晚点》:实际上你们现在研究的白盒大模型,具体是在做什么呢?
马毅:现有的深度学习模型,例如 Transformer(主流大语言模型架构)、Denoising Diffusion (去噪扩散模型,主流文生图模型)本质都在做一样的事:压缩数据——就是从高维的图像、声音、语言等信号里,找到可以表示数据间相关性的低维结构,这些低维结构就可以帮助预测高维信号——只是压缩的算子和优化策略不太一样。
过去大家是通过经验和尝试,不断找到更简约、更精准的近似压缩方式,但很多人不一定意识到了自己在做这件事。
白盒就是对这个压缩过程的数学解释,搞清它每一层要实现什么统计或几何功能。
一旦清楚意识到了优化的本质,你就能把这件事做得很高效,而且会发现历史上有比现在基于经验试出来的更高效的方法。
《晚点》:追求对数据压缩过程的数学解释,除了学术意义,有什么应用价值吗?
马毅:现在大家买那么多芯片,大部分都是在试错。可能一个模型只需要一千张卡,实际却用了一万张,因为靠经验设计的网络可能有 10 个版本,要一个个去试哪一个更好。
依靠经验的黑盒模型虽然有效,但不清楚到底是哪些部分有效,经常是 “三分之一的人在干,三分之一的人看,还有三分之一的人在捣乱”。这就增加了很多试错成本,也会带来训练中的不稳定性。
而如果知道了数学原理,就相当于把搭建筑的砖头搞明白了,以后就可以换更便宜、更好的材料,重新设计它。
《晚点》:听起来就是从业者在追求的东西。但他们好像又不是很关注白盒的进展?
马毅:2021 年的 ReduNet 是一个白盒神经网络的理论框架,但未必就找到了最佳的工程实践,当时学校也没太多算力,我们只能在小规模的数据上做实验,效果没那么直观。
过去一年我们突破很快,真的发现在这个框架下可以设计出能被解释的网络,网络性能也接近甚至超过了现在一些基于经验的网络,而且我们的模型更简洁、更可解释。
其实白盒大模型在工业界的关注度也蛮高的。去年底发的 CRATE,可能论文引用次数少一些,但它在 Github 上已经有上千颗星了。这对于一篇理论性的文章来说还是非常罕见的。
(注:ReduNet 是马毅团队 2022 年发布的白盒大模型理论框架,CRATE 是马毅团队 2023 年提出的更新的白盒大模型。)
《晚点》:不过在相似参数下,CRATE 在一些任务上的指标仍低于现有模型如 ViT。有人说白盒大模型反而是对现有系统的 “负优化”,你怎么看?
2023 年底发表的论文
White-Box Transformers via Sparse Rate Reduction
中,不同版本的 CRATE 和 ViT 在 ImageNet-1K 数据集上的图像分类任务准确率比较。
马毅:
这个工作的目的是验证依据原理设计的、可解释的架构是有效的。
但工程带来的额外提升是后续的事。
比如我们最近就有新成果,前几天刚发布了 CRATE-α。简单调整一些编码方式后,CRATE-α 的性能已经可以与 ViT 媲美。
CRATE-α、CRATE 和 ViT 在 ImageNet-1K 数据集上的图像分类指标比较。见论文
Scaling White-Box Transformers for Vision
。
《晚点》:介绍 CRATE 的论文称它是 “白盒 Transformer”。白盒模型和 Transformer 是什么关系呢?它仍是一种 Transformer 架构的模型吗?
马毅:准确来说,白盒是一种架构实现方式,它也可以不是 Transformer。只是 Transformer 先发现了现有方法,在最初那篇论文里,我们是从原理上去解释 Transformer 里经验发现的东西到底在干什么,哪部分有用,为什么有用。所以我们完全可以不相似,因为压缩过程也可以被推导出来,可以被简化。
接下来我们一定要超越现有的网络,我们正在做。CRATE 还可以更简洁和高效。
《晚点》:怎样算超越?比如你们的新模型和 GPT-4 比如何,和 GPT-4o 比呢?
马毅:同样性能下,计算效率高十倍、百倍;同样算力规模做训练,模型性能更高。而且我的算子、系统更稳定。
《晚点》:实际上白盒模型现在能提升多少训练效率?
马毅:目前所用的资源只有经验做法的的三分之一或四分之一。
实际上可能省得更多,因为我们人很少。原来 ReduNet 是光有理论和概念,还不知道实现路径。去年年中,我们开始看到白盒框架可以做出不输经验方法的模型,就更有信心了,我们的学生也更兴奋了。这之后光靠我们一个团队,网络版本已经迭代了好几次,因为我们不是瞎猜,不需要试 10 个、100 个。
“Everything should be made as simple as possible, but not simpler”
《晚点》:你认为现在的大模型只是对记忆功能的局部的模拟,那么真正的智能是什么?
马毅:现在的一个混淆是把知识当成智能。它们相关,但不同。知识是存量,智能是增量。
GPT-4 和一个初生的婴儿,哪个更有知识?GPT-4。哪一个更智能?婴儿。婴儿可以自学,他可能变成下一个爱因斯坦。