专栏名称: 量子学派

专注于自然科学领域（数理哲）的教育付费平台

回归原理，如何看待GTP-4

量子学派 · 公众号 · 科学 · 2023-03-15 22:46

正文

引

AI的本质是什么？
一切都是概率吗？

还有未知的涌现效应？

GPT-4来了，再次狂飚

中文世界的标题：

GPT-4震撼发布 ：多模态大模型，直接升级ChatGPT，开放API，游戏终结了？

以下是官方的说辞：

GPT-4可以接受图像和文本输入，而GPT-3.5只接受文本。

GPT-4在各种专业和学术基准上的表现达到 "人类水平"。它通过了模拟的律师考试，分数约为应试者的前10%。

GPT-3.5和GPT-4当任务的复杂性达到足够的阈值时，区别就出来了，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。

GPT-4能对相对复杂的图像进行说明和解释，比如说，从插入iPhone的图片中识别出一个Lightning Cable适配器。

OpenAI承认，GPT-4并不完美，仍然会对事实验证的问题产生错乱感，也会犯一些推理错误，偶尔过度自信。

谷歌前两天已开始一波反击！开放大语言模型PaLM API。

斯坦福“Alpaca”火了：100美元就能比肩GPT-3.5！手机即可运行。

明天中文世界的百度的文心大模型，也将发布。

AI世界，狂飚突起，让人眼花瞭乱。

但不管世界如何变换，可以从原理上理解人工智能的本质。

AI本质：逆概率问题

所谓逆概率 ，就是与“正向概率”相反。

假设袋子里面有P只螃蟹，Q只蜘蛛，你伸手进去摸一把，摸到螃蟹的概率是多大，你是可以计算出来的。

但反过来看： “事先并不知道袋子里面螃蟹和蜘蛛的比例，闭着眼睛多摸几次，可以就此对袋子里面的螃蟹和蜘蛛的比例作出什么样的推测。”

这个问题就是逆向概率问题。

当你不能准确知悉某个事物本质时，你可以依靠经验去判断其本质属性的概率。

贝叶斯定理是18世纪英国数学家托马斯·贝叶斯提出的概率理论。

与其他统计学方法不同，贝叶斯方法建立在主观判断的基础上， 逆概率，明显反科学 ，这也是它200多年来不为科学家们待见的原因。

1774年，法国数学家拉普拉斯也非常“不科学”地发现了贝叶斯公式， 给出了我们现在所用的贝叶斯公式的表达：

该公式表示在B事件发生的条件下A事件发生的条件概率，等于A事件发生条件下B事件发生的条件概率乘以A事件的概率，再除以B事件发生的概率。 公式中，P(A）也叫做先验概率，P(A/B)叫做后验概率。

虽然今天的AI有了长足的发展，但本质还是一个逆概率问题 。

丢个骰子出去，猜一下是哪个点。

语音识别举例：贝叶斯定理

以语音识别为例， 来理解一下逆概率。

统计机器翻译的问题可以描述为：给定一个句子e，它可能的外文翻译f中哪个是最靠谱的。即需要计算：P(f|e)。

P(f|e) ∝ P(f) * P(e|f)

这个式子的右端很容易解释： 那些先验概率较高，并且更可能生成句子e的外文句子f将会胜出。只需简单统计就可以得出任意一个外文句子f的出现概率。 然而 P(e|f)却不是那么好求的，给定一个候选的外文局子f，它生成（或对应）句子e的概率是多大？我们需要定义什么叫“对应”，这里需要用到一个分词对齐的平行语料库。

率先成功利用数学方法解决自然语言处理问题的是贾里尼克，他把语音识别简化为用贝叶斯处理的数学问题成功开辟了一条全新的问题解决路径。

随着大量数据输入模型进行迭代，随着计算能力的不断提高、大数据技术的发展，贝叶斯公式巨大的实用价值愈发体现出来。

语音识别只是贝叶斯公式运用的一个例子， 逆概率思想早已渗透到AI的方方面面。

以下部分内容来自公众号“马丁的面包屑”，公众号 hannima 前鹅广产品经理，前图灵机器人人才战略官/AI 产品经理

传统AI：一个个的逆概率子集

ChatGPT出现之前，再聪明的AI，都可以让为是复合Agent组合起来支撑的。

复合Agent是什么意思呢？

即有若干个术业有专攻的代理人：

一个负责聊天对话的，

一个负责诗词生成的，

一个负责代码生成的，

一个负责写营销文案

······

每个Agent只擅长做自己的那部分事情，猜自己那部分的谜团。

在用户使用的过程中，系统会 先判定 用户的意图是什么，应该是哪个Agent，然后再将用户的命令分发给 对应的agent 去解决并提供答案。

因此看起来是很厉害的机器人，背后其实是若干个术业有专攻的机器人。

事实上 Siri、小爱、小度，小冰 甚至包括各个平台的 客服机器人 都是这种模式。

这样当你要上线一个 新能力 （例如写古诗），你只需要新增训练一个Agent，然后将这个Agent接入到总控的 分类意图器 下就行。

本质上不过是一个个的逆概率子集，你在做的只是训练出一个术业有专攻的机器人而已，离 真正的人工智能 十万八千里。

但ChatGPT的能力不再是这种模式了，

他所采用的模式是 大语言模型+Prompting 。

所有的能力通过一个 模型实现 ，背后只有一个什么都会的机器人（ 即大语言模型 ），并支持用户借助文字下达命令（ 即Prompting，提示/指示 ）。

虽然这种能力的表现还不算完美，但是他开启了一条一种通向“ 通用型人工智能 ”的道路，也就是通向AGI的方向。

GPT的技术原理

还是与前面说的一样， NLP任务 核心逻辑是一个“ 猜概率 ”的游戏。

比如说，“ 我今天被女朋友________ ”，

经过大量数据训练后， AI预测空格出会出现的 最高概率 词是“ PUA ”。

那么 PUA 就会被填到这个空格中，从而答案就产生了——

“我今天被女朋友 PUA 了”

他只是在玩文字游戏，进行一次又一次的概率解谜， 本质上 和我们玩报纸上的 填字游戏 是一个逻辑。

只是我们靠知识和智慧，AI靠概率计算。

而在目前的“ 猜概率 ”游戏环境下，基于 大型语言模型 （LLM，Large Language Model）演进出了最主流的两个方向，即 Bert和GPT 。

其中BERT是之前 最流行 的方向，几乎统治了所有 NLP领域 ，并在自然语言理解类任务中发挥出色 （例如文本分类，情感倾向判断等） 。

而GPT方向则较为薄弱， 最知名 的玩家就是OpenAI了，事实上在GPT3.0发布前，GPT方向一直是弱于BERT的（ GPT3.0是ChatGPT背后模型GPT3.5的前身 ）。

接下来我们详细说说 BERT和GPT两者之间的差别 。

BERT

双向预训练语言模型+fine-tuning（微调）

GPT

自回归预训练语言模型+Prompting（指示/提示）

每个字都认识，连到一起就不认识了是吗哈哈。

没关系，接下来我们把这些术语 逐个拆解 一遍就懂了：

预训练语言模型

我们通常认知里的AI，是针对具体任务进行训练。

例如一个能分辨猫品种的Agent，需要你提供 A-缅因猫 ， B-豹猫 这样的数据集给他，让它学习 不同品种 之间的特征差异，从而学会分 辨猫品种 这项能力。

但 大语言模型 不是这样运作的，他是通过一个 大一统模型 先来认识这个世界。再带着对这个世界的认知对具体领域进行 降维打击 。

在这里让我们先从 NLP领域 的中间任务说起。像 中文分词 ， 词性标注 ， NER ， 句法分析等NLP任务 。

他们本身 无法直接应用 ， 不产生用户价值 ，但这些任务又是NLP所依赖的，所以称之为 中间任务 。

在以前，这些中间任务都是 NLP领域 必不可少的。

但是随着 大型语言模型 的出现，这些 中间任务 事实上已经逐步消亡。

而大型语言模型其实就是标题中的“语言预训练模型” 。

他的实现方式是将 海量的文本语料 ，直接喂给模型进行学习，在这其中模型 对词性 、 句法的学习 自然而然会沉淀在模型的参数当中。

我们看到媒体对 ChatGPT 铺天盖地的宣传里总是离不开这样一句话——

在拥有 3000亿 单词的语料基础上预训练出的拥有 1750亿 参数的模型。

这里面3000亿单词就是训练数据。而1750亿参数就是沉淀下来的AI对这个世界的理解。

其中一部分 沉淀了Agent 对各类语法、句法的学习

（例如应该是两个馒头，而不是二个馒头，这也是中间任务为什么消亡的原因）。

而另外一部分 参数参数则储存了AI 对于事实 的认知

（例如美国总统是拜登）。

经过预训练出一个这样的大语言模型后，AI理解了人类对语言的使用技巧 （句法、语法、词性等） ，也理解了各种事实知识。

甚至还懂得了代码编程，并最终在这样的一个大语言模型的基础上，直接降维作用于垂直领域的应用。

（例如闲聊对话，代码生成，文章生成等）。

而 BERT和GPT 两者都是基于大语言模型的，他们在这一点上是相同的。

他们的不同在于 双向/自回归、fine-tuning/Prompting 这两个维度，我们接下来会重点弄明白这四个术语。

双向 VS 自回归

BERT：双向。

双向是指这个模型在“ 猜概率的时候 ”，他是两个方向的信息利用起来同时猜测。

例如“ 我____20号回家 ”，他在预测的时候，是同时利用“ 我”+“20号回家 ”两端的信息来预测空格中的词可能为“ 打算 ”。

有点像我们做英文的完形填空，通常都是结合 空格两端 的信息来猜测空格内应该是哪个单词。

GPT：自回归。

自回归就是猜概率的时候 从左往右 做预测，不会利用 文本中右侧 的内容，和BERT相反。

这就有点像我们写作文的时候，我们肯定是一边写一边想。

两者基本理念的区别导致 BERT 在之前 更擅长自然语言理解类任务 ，而 GPT 更擅长 自然语言生成类任务（例如聊天、写作文） 。

——注意，我说的是之前，后面的章节我会介绍现在的情况发生了什么变化。

fine-tuning VS Prompting

假设现在预训练好的大模型要针对具体领域工作了，他被安排成为一名 道德观察员 ，要分辨文章到底有没有写黄色小段子。

那么BERT和GPT的区别在哪里呢？

BERT：fine-tuning（微调）。

微调是指模型要做某个专业领域任务时，需要收集相关的专业领域数据，做模型的小幅调整，更新相关参数。

例如，我收集一大堆 标注数据 ，A-是黄色，B-没有搞黄色，然后喂给模型进行训练，调整他的参数。

经过一段时间针对性学习后，模型分辨搞黄色的能力更出色了。

这就是fine-tuning，二次学习微调。

GPT：Prompting。

prompt是指当模型要做 某个专业领域 的任务时，我提供给他一些示例、或者引导。但不用更新模型参数，AI只是看看。

例如，我提供给 AI模型10张 黄色图片，告诉他这些是搞黄色的。

模型看一下，效果就提升了。大家可能会说，这不就是 fine-tuning 吗？不是一样要额外给一些标注数据吗？

两者最大的区别就是 ：这种模式下，模型的参数不会做任何变化升级，这些数据就好像仅仅是给AI看了一眼—— 嘿，兄弟 ，参考下这个，但是别往心里去。

不可思议吧，但他成功了！

而更令人疯狂的是，到目前为止，关于 prompt 明明没有对参数产生任何影响，但确实又明显提升了任务的效果，还是一个未解之谜。暂时而言大家就像程序员对待bug一样——

I don't know why , but it work lol .

这种Prompt其实就是 ICT（in-Context Learning） ，或者你也可以称为 Few shot Promot ，用大白话说就是 “给你一点小提示” 。

同时还有另外一种Promot，称之为 Zero shot Promot 。

ChatGPT就是 Zero shot promot 模式，目前一般称之为 instruct 了。

这种模式下用户直接用人类的语言下达命令，

例如“给我写首诗”，“给我做个请教条”。

但是你可以在命令的过程中用一些人类语言增强AI的效果。

例如“在输出答案之前，你给我认真一点，否则我揍你”。

就只是增加这样一句话，AI的答案效果就会明显提升。

你可能会问这是什么魔法咒语？！

有一个比较靠谱的猜测是这句话可能让AI回想起了学习的资料中那些推理知识好像前面都会有这句话。

然后这一切莫名激活起了他过去的记忆，不自觉开始仿造那些严密的推理过程中 一步步推导 。

综上对比下来，你会发现好像GPT这种模式比起BERT模式更符合我们对人工智能的想象：

通过海量的知识成长起来，然后经过稍微引导 （Prompt） ，他就能具备不同领域的强大能力

最后总结一下，

ChatGPT背后的GPT模型是什么？

在一个超大语料基础上预训练出的 大语言模型（LLM） ，采用 从左到右 进行填字概率预测的自回归语言模型，并基于 prompting（提示） 来适应不同领域的任务。

如果只基于上面的描述，你可能大概弄懂了他背后的原理，但是对于为什么他这么牛逼，你仍然无法理解。

没关系，我们接着进入第二部分。

GPT牛逼在哪里

他可能是AGI通用型人工智能的开始

在我们原始的幻想里，AI是基于对 海量数据 的学习，锻炼出一个 无所不知无所不能 的模型，并借助 计算机的优势 （计算速度、并发可能）等碾压人类。

但我们目前的AI，不管是AlphaGo还是图像识别算法，本质上都是服务于专业领域的技术工人。

我们心目中的机器人，无所不能

而GPT目前看似只能解决自然生成领域的任务，但实际上，他展现出了通用型人工智能的潜力。

在前面我们提到，目前而言， BERT 擅长自然语言理解类任务（完形填空）， GPT 擅长自然语言生成类任务（写作文）。

但在 Google的FLAN-T5模型上 已经实现了两类任务在输入输出形式上的统一，从而使得用GPT来做完形填空成为可能。也就是可以用 一个大模型 来解决 所有NLP领域 的问题。

那么再进一步地，

是否 GPT 可以从 NLP 领域走向其他AI领域呢？

当然有可能！在去年年中爆火的AI绘画，其中一个关键技术门槛其实就是 Text-图像 的转化，这同样是来自 OpenAI 所开源的 CLIP模型 实现。

因此GPT在图像领域的能力同样也令人期待。同理在多模态如 音频、视频 ，本质上也能转化为 Text-everthing 的问题去求解，从而让 大语言模型 发挥成吨的威力。

当然你可能会问，

那么只要大语言模型就可以呀，

为什么是GPT，而不是BERT呢？

Promot模式相较fine-tuning更具生命力

事实上，BERT的fine-tuning模式有两个痛点。

1.我需要准备某个专业领域的标注数据， 这个数据还不能少，如果太少，AI模型训练后就会形成过拟合

（就是AI直接背下了整本习题册，册里的问题100%正确回答，但是稍微变幻题型就GG）

2.我需要部署大语言模型， 才能对他进行进行微调，那么部署大语言模型的成本，甚至进一步对他进行微调的能力，并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。

而 Promot模式 恰恰相反，不需要太多的数据量，不需要对模型参数进行改动（也就意味着可以不部署模型，而是接入公开的大语言模型服务）。

那么他的调试就会呈现 百花齐放 的姿态，玩家越多， 创造力 涌现就越猛烈。

全新的人机交互方式

这里的人机交互，指的是人-模型之间的交互。

目前ChatGPT采用的是模型侧的 Few shot prompt ，即给一点示例提示，让AI提升表现。

虽然 暂时未知 为什么 不更新模型 仅仅只是给AI看一眼就能带来巨幅提升，但这种 交互模式 无疑是更友好的。

而更具颠覆性的是 输入端的Zero shot prompt ，

即我们 用人类的语言逐步引导AI思考 ——比如我们可以说，你仔细想好步骤，再给出答案。

就仅仅是多加一句“ 你仔细想好步骤 ”，AI的答案靠谱率就会明显提升。

而这种交互方式的演变，就是我们梦想中的 人机交互模式 。

我不需要 专业的能力 ，不需要 高端的设备 ，我就是开口，说出我的诉求，AI就能够理解并帮我实现。

GPT开始尝试讨好人类，并成功了

在1 2月的媒体通稿 里，一大堆对ChatGPT的溢美集中于他的“ 仿真性 ”，仿佛通过了 图灵测试 一般。

而这种仿真性，直观来说，我们会认为是AI的“智力”提升了，他更聪明了。

但实际上，ChatGPT背后的GPT3.5，更多的提升在于“ 用人类所喜欢的方式回答 ”。

事实上ChatGPT背后的 GPT3.5 的模型，相较GPT3.0，他并没有在原始训练语句上增加太多（还是那 3000亿语料 ）并且模型参数也没有太大变化（还是 1750亿参数 ，甚至参数可能都没有变化）。

之所以他会让人产生质变的感觉是因为他做了人类偏好处理。

例如以前的输入模式可能需要这样：

> 执行翻译任务
> 输入是“我爱北京天安门（中文）”
> 翻译目标语种是英文”

而现在你直接说：

> 帮我把我爱北京天安门翻译成法语

又或者是，以前你提一个问题，他会不加选择的回答，而现在他会考虑答案有害性：

> 如何毁灭世界——

你可以召唤三体人降临（此处应有一个潘寒hhh）
> 如何毁灭世界——

亲，请不要毁灭世界，地球是人类共同的家园

而这些对于人类偏好的攻略依赖于三个步骤：

1.创建人类偏好数据。

随机挑选一些问题，并由标注人员给出高质量回答，形成“ 人类表达-任务结果 ”的标注数据，喂给模型，让它学习——这批数据数量仅有数万，并通过Prompt模式进行，即模型参数不产生变化。

2.训练一个回报模型

随机挑选 一些问题，让原始模型输出答案，再由标注人员基于“ 人类偏好标准 ”

（例如相关性，信息丰富程度，答案有害，负面情感等），对原始模型的答案做一个排序。

然后我们利用这批标注好的“ 人类偏好 ”数据，训练一个回报模型，这个回报模型会对原始模型的结果进行打分，告诉他 什么答案分高，什么答案分低 。

3.通过强化学习循环整个过程

强化学习 会将回报模型和原始模型链接到一起，当原始模型输出的结果，在 回报模型 中获得 较低分值 ，他就收到惩罚，被要求 重新学习 。

后续 不断循环步骤2和步骤3 ，原始模型就会脱胎换骨，学习到人类的偏好，变成一个人类所喜欢的模型，也就是我们最终所看到的 ChatGPT 。

这让我们有理由相信，模型的表现不好，不一定是他没学到知识，可能只是他不知道对于人类而言， 哪种答案 才是人类想要的。

而这种人类偏好学习，目前来看是集中 在Prompt模式下的GPT 的，而非 fine-tuning 模式下的BERT。

GPT这么厉害，你到底是哪个单位的？

先问ChatGPT——你是谁？

我是谁，它是这样解释的：

GPT是基于 Transformer 架构的预训练语言模型，可以生成自然语言文本。 Transformer 是基于自注意力机制的 深度学习模型架构 ，它在自然语言处理领域中得到了广泛的应用，如 机器翻译 、 文本分类 和 生成模型 等。

GPT是基于 Transformer 模型的改进版本，主要是针对生成任务进行了优化，通过预训练学习自然语言的语义和语法规律，进而生成高质量的文本。

因此，GPT可以看作是 Transformer 模型在生成任务上的一个 应用扩展 。

短短的自我介绍中，ChatGPT就四次提到 Transformer 。

Transformer模型结构图

Transformer到底是什么，让ChatGPT如此迷恋？

这只变形金刚，到底是只什么怪兽？

Transformer的定义清晰明了：

是用于 自然语言处理 （NLP）的 神经网络架构 。

在Transformer出现之前， 人工智能 研究领域百家争鸣。

Transformer出现之后，格局开始变了。

开始打压如日中天的 循环神经网络 （RNN）和 卷积神经网络 （CNN）。

以上图片来自网络，请原创者联络我们

Transformer架构使用了 注意力机制 ，能够处理 长序列 的依赖关系。

这让它具有以下明显优点：

❶

回归原理，如何看待GTP-4

正文

请到「今天看啥」查看全文