专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
庞门正道  ·  干饭,一定要积极啊! ·  昨天  
字体设计  ·  学生们的立春节气字体设计 ·  3 天前  
字体设计  ·  还是 DeepSeek 懂中国的人情世故啊 ·  3 天前  
ZaomeDesign  ·  每日灵感丨二月五日 ·  昨天  
庞门正道  ·  大年初一的中奖名单公布! ·  4 天前  
51好读  ›  专栏  ›  待字闺中

LLMs的魔法能力来自哪里

待字闺中  · 公众号  ·  · 2023-12-04 08:54

正文

生成式人工智能及其流行的Transformer模型如今无处不在,新模型每小时都在发布(参见人工智能的通货膨胀)。在这个迅速发展的人工智能领域,这些模型可能带来的价值似乎是无穷的。像chatGPT这样的大型语言模型(LLM)已经成为每个工程师资源堆中的一部分,作家们使用它们来支持他们的文章,设计师们利用它们创造初步视觉效果或从计算机视觉模型的结果中寻找灵感。

如果不是魔法,那是什么真正驱动这些令人印象深刻的Transformer模型的呢?

然而,尽管成就巨大且实用性强,生成性人工智能增强了生产力,但重要的是要记住,现代机器学习模型(如大型语言模型或视觉Transformer)根本没有进行任何魔法般的操作(这与机器学习或一般统计模型从未具有魔法性质的事实相似)。即使模型的卓越能力可能被视为类似魔法,一些领域专家甚至谈论模型的“幻觉”,但每个模型的基础仍然只是数学和统计概率(有时复杂,但仍然是数学)。这引出了一个根本性的问题:如果不是魔法,那么究竟是什么真正驱动了这些令人印象深刻的Transformer模型?

所有模型的基础是数据

在任何模型(统计或机器学习)中,对后期模型性能影响最大的是训练数据。如果你没有大量高质量的数据来反映你希望模型学习的关系,就没有东西可以训练,结果模型的表现会很差(著名的GIGO原则:垃圾进垃圾出)。数据建模的这一基本原则多年来一直没有改变。在每一个革命性的新型Transformer模型背后,首先就是一件事:数据。正是这些数据的数量、质量和上下文将驱动模型后续的性能。最近的研究(见下文)支持这一点,展示了最新的生成性AI模型在提供的上下文是训练分布的一部分时泛化得很好,但对于分布外的学习表现不佳。

在分布内学习与分布外学习

请记住,模型不过是一个巨大的网络、树状结构或关系图。机器学习模型基本上学习的是如何将给定输入转换为期望输出(见图1)。

图 1

上图是一个超简单神经网络的示意图,基于天气和其他上下文预测人流量。左侧是训练期间的输入(特征),而右侧是输出(目标)。中间可以有几个转换(层),它们学习复杂的输入输出关系。

当模型被训练(或者换句话说:当这些关系被更新时),输入的上下文和输出的信息量将决定模型擅长什么。就像人类擅长用母语回答问题一样,机器学习模型擅长回应它们见过很多次的输入数据。这被称为分布内学习。如果在训练期间,模型被提供了大量丰富的上下文,它可以依赖后来获得的这些知识,结果预测表现出准确的性能。

分布外学习则描述了一个模型需要基于它之前未见过的情境进行预测的情况。你可以想象一个从未学过挪威语的人突然回答用挪威语提出的问题。请查看图2以获取分布内和分布外学习的概览。

图 2

上图展示了分布内(左)与分布外(右)学习。左侧的模型对于未包含在原始训练数据中的新情境(在这个例子中是“政治”)表现不佳,而右侧的模型对于未见过的情境表现良好。机器学习模型通常属于左侧类别,并且在分布外学习中表现不佳。

现代大型语言模型(LLMs)和其他机器学习模型之所以表现出色,是因为原始训练数据中包含了大量的体量和上下文信息。由于这些模型进行了广泛的预训练,能够处理的问题范围非常广,属于分布内学习的问题非常多。这使得模型能够回答各种问题,对用户来说可能看起来像是魔法或者具有人类水平的智能,但实际并非如此。同样,模型给出错误或意外的答案也不是真正的幻觉,它基本上突显了原始训练数据中的上下文缺口,因此导致了分布外学习。总的来说,机器学习模型在分布外学习能力上非常有限,需要对基础模型进行大量的训练。

语言模型中预训练的力量

在谷歌DeepMind成员最近的一篇论文中,作者们加强了这样一个论点,即现代大型语言模型(LLMs)的上下文学习性能主要源自它们的预训练分布。这篇名为《Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models》的论文由Steve Yadlowsky、Lyric Doshi和Nilesh Tripuraneni(2023年)共同撰写,专注于探讨现代Transformer模型是如何获得它们令人印象深刻的上下文学习能力的(即它们对任何提示给它们的上下文都能给出答案的能力)。

论文:https://arxiv.org/abs/2311.00871

这些发现非常有洞察力。当Transformer模型在涵盖广泛上下文的数据上进行预训练时,它们在学习属于预训练上下文范围内的新任务时表现出令人印象深刻的性能。这种能力接近最优,展现了在训练分布内令人印象深刻的泛化和适应能力。然而,当这些模型遇到预训练领域之外的上下文时,性能受限且会发生失败。这表明了泛化能力降低和对分布外上下文的明显限制。

视觉Transformer:一个关于规模的案例研究







请到「今天看啥」查看全文