专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
阳泉日报  ·  2024年山西经济“成绩单”公布 ·  昨天  
山西广播电视台  ·  2024年山西体育十大新闻出炉 ·  昨天  
山西广播电视台  ·  2024年山西体育十大新闻出炉 ·  昨天  
山西省邮政管理局  ·  冻哭了!大风强劲气温骤降 全天“冰冻”模式…… ·  昨天  
HZ老乡俱乐部  ·  霍州:各村缴费通知! ·  昨天  
山西发布  ·  春节假日山西文旅市场迎来“开门红” ·  3 天前  
山西发布  ·  春节假日山西文旅市场迎来“开门红” ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

LLM,一艘方向不对但积重难返的华丽游轮...

深度学习自然语言处理  · 公众号  ·  · 2024-12-24 19:00

正文



来自:SimpleAI and ...

LLM所有 细分方向 群+ ACL25/ICML25/NAACL25 投稿群-> LLM所有细分领域群、投稿群从这里进入!

下班回到家,给娃完成了一条龙服务之后,在这个周五的夜晚(拖拖拉拉已经到了周六),终于有时间来回味一下今天下午听的一场学术会议——由上海 AI Lab 组织的 浦江AI学术年会 。由于会场离公司很近,所以很方便就能参加,难得的机会让自己 think something else.

今天我报名去听的专题论坛叫做“ 非共识性研究与创新 ”,这个名字一下子就抓住了我。隔壁的“具身智能”和“AI4Science”论坛被挤得水泄不通,而这里则冷冷清清,中场过来都有座位,我就知道我来对了,这才叫非共识嘛!听完会议之后,脑子里涌现出一些略显悲观的想法,决定记录一下。

SH AI Lab 的付杰老师上来就直言他不觉得现在LLM的路子是对的,现在这样搞出来的LLM根本不懂它为什么能输出某些答案,本质上可能还是靠记忆;交大的何哲陟老师谈论了当代大模型训练系统的计算效率跟人脑巨大差距,来说明目前的训练方式的不科学性,并介绍了一些脑启发式计算方法;上财的滕佳烨老师则利用经济学中的菲利普斯曲线理论在当代的失效,来提醒我们对大模型scaling law等理论进行研究应该避免修正主义;人大的胡迪老师则讨论了他们组对多模态训练中不平衡问题的思考和解决思路,告诉我们在一味堆数据和算力的同时不要忘了仔细审视数据的质量和利用......这些研究许多都挺有趣的,感兴趣的读者可以直接搜他们的学术主页。

(交大何老师的slides,人脑的功率只有20W,但算力比肩万卡集群)

但这不是我想在这里想聊的点,更让我产生思考的,是后续圆桌讨论环节。讨论的一个重要主题就是—— 自回归模型和scaling law,就是目前的版本答案吗?目前这种LLM的路径,就是通往AGI的正确姿势吗?

其实,我觉得这个问题,放在“非共识性研究与创新”这个论坛里,就是废话,答案是:当然不是。各位大佬分别表达了自己的看法,例如清华的崔鹏老师质疑LLM是否真能理解“数”,因为LLM本质就是一个基于embedding的semantic空间,一个semantic空间主要的作用就是相似性,而数字很难用相似性表达;北大的陈宝权老师提到大模型的学习跟人类学习过程的显著差异;还有老师继续从脑科学的角度来论证目前LLM设计的问题,等等等等....

听到这里,这些大佬们你一言我一语的讨论渐渐地变成了背景白噪音,我陷入了沉思。他们提到的 脑启发式设计、人类思考的快与慢两个系统、MoE方法等等,虽然现在学术界讨论得火热,但都是很久很久的课题,都是AI的古早问题了 ,科学家们早就想尽可能地借鉴人脑神经元的设计来设计神经网络了、最早的MoE思想在1991年就已经被提出了,为什么直到今天,我们依然需要用这些东西拿来做证据,来证明现在大行其道的LLM方法,不是真正通往AGI的方法? 难道做LLM的人真的不知道吗?

大家是知道的,也许会有很多外行人随波逐流涌入,但是真正一线做LLM的人必然是知道这条路是不可持续的。更优的技术一直都存在,所以这根本不是哪个技术路线更优的问题, 我觉得学术界一直在回避一个残酷而无奈的事实——这些技术路线其实就是被商业驱动并主导的。

GPT3在19年就出来了,它已经足够强大,给一个好的prompt,它就可以完成很多zero-shot任务,但由于它是闭源模型,只有少数人可以研究和体验它,出不了圈;Google在22年就推出了参数量达540B的PaLM,但同样这种模型根本不是普通人/机构能接触的,因此那个时期虽然有大厂在军备竞赛式地推出大模型,但依然给人一种“圈地自萌”的感觉,在NLP学术界根本不是主流,甚至业界的一个共识是要把大模型做小,做到普通企业都能使用。

一切的一切是在什么时候改变的呢?那就是OpenAI发现InstructGPT有巨大的商业化潜力,然后从商业产品的角度对InstructGPT进行了小小迭代,推出了ChatGPT,一下子就击中了人们的心巴。后面的故事我们都知道了,ChatGPT成为了一个史诗级商业化产品,让GPT、decoder、自回归这条路线一夜间变成了正统,几乎所有人都开始沿着这条路子来做大模型,导致今天人们以为只有decoder才能做出这样的事。

但RNN就不能吗,其实也能,RWKV就是例子,但由于没有先发优势,即使从模型角度RWKV可能比GPT更优秀,但100个人都研究GPT怎么着取得的效果也会比你一个人研究RWKV更好,而伴随着滚雪球效应,GPT的先发优势只会越来越明显,然后吸引越来越多的资金和智力投入其中,其他的竞争路线由于机会成本不断加剧,就算理论上能证明比GPT更好,也得不到太多关注,渐渐淹没在主流的浪潮中,只有当主流方案的弊端偶现之时,才有机会露个头。然而, 即使GPT的问题在时不时显现,但由于所谓的scaling law的存在,我们的数据依然没有穷尽、算力还在进步,通过堆数据堆算力、打一点补丁、改一改prompt、搞一搞post training,就能把一些弊端暂时掩盖 。大家都知道是治标不治本,但是尝试更加根本的解决方案——换模型架构、换底层的训练方式,明显成本太大,因此即使一大堆的论文不断指出长远来看更好的方案,但成本因素、商业利益因素让他们不得不选择“贪心算法”,只选择短期内最优的方案,而这个最优甚至也不是指模型的最优,而是与人相关的最优——能否拉到投资、能否快速吸引更多用户、能否博得更大流量、能否为自己和家庭获得更高收入...

所以下一代的技术路线在哪里?更优的技术是什么?GPT、Transformer的继承者是谁? 这些问题,与其从学术角度去思考,不如从商业角度去思考——我们人类到底喜欢什么? 也许每一个研究机构、课题组,都应该配备一个产品经理,从用户的角度去思考我们需要怎样的产品,然后来反推它背后的技术路线。

不过说起来容易,每一个学者一定都非常希望自己的研究可以落地、可以真正为人类带来价值、变成为大众所用的产品,但真正成功的寥寥无几。ChatBot从来不是新鲜事物,微软小冰、Siri都是很多年就存在的产品,大模型也不是新鲜事物,在ChatGPT出来之前Google无论在硬件还是软件层面都是大模型的统治者,那么ChatGPT是如何产生的?OpenAI他们是如何做出这样一个爆品呢?

虽然大家一直都在喷OpenAI不Open,但这里我不得不为其说一句公道话, OpenAI最open的一点,就是open the window . 学术圈说它不open,主要是说它没有把窗户里的东西掏出来给大家,但单纯打开窗户,让老百姓都来看看他们家都有啥,已经足够重要。它努力把一个科研领域的成果,用商业产品的方式open给大家体验,让大多数人真正意识到目前技术能达到的水平,甚至许许多多的研究人员也是从OpenAI开放ChatGPT的使用之后,才真正开了眼。 初期的ChatGPT依旧有各种各样的问题,但是由于开放给了大众,一个不需要说明书的、没有任何玩法定义的大玩具,人民群众的无限脑洞就会自然而然地赋予其无限的活力,这个过程会迅速反哺OpenAI下一步的研究,从而让ChatGPT一两年内迅速迭代,让人们有机会探索更多的玩法,形成一个正面循环。 目前的LLM公司,无一不是想走进这样的循环,因为只有这样的循环里才有可能盈利。这就是商业故事的魅力,真正能发扬光大的技术,一定是被人民所喜爱的技术,而不是研究人员自认为好的技术,OpenAI首次把LLM包装成零门槛的接口交给人民,用人类集体的智慧去发掘探索它的价值,而正好LLM在那个时点已经积累了足够的潜力让人们去挖掘,二者一拍即合,促成了今日LLM的局面。

至于说今日LLM的发展是否是一条正确的路子,只能说技术路线一定不是最优的,但目前依然有利可图、人们对此依然有足够的新鲜感和玩法探索空间,人类的贪婪和好奇心决定了我们一定会穷尽所有的数据、所有的算力,而不顾成本地去把LLM干到顶, 这是一艘华丽的游轮,但却积重难返无法调头,直至搁浅 。虽然我们内心99%地犯嘀咕这个天花板其实很低,但依然对scaling law抱有1%的幻想希望能看到奇迹,这个幻想引诱着资金持续投入,资金的持续投入吸引着大部分研究者投入其中,直到有一天人们把LLM玩够了,当人们终于意识到LLM帮我们写的报告、代码其实根本没有价值的时候,那就是LLM的终点。







请到「今天看啥」查看全文