ChatGPT的背后
ChatGPT
红得发紫,强得让人类心悸。
但在它的背后,还隐藏着一位
真正的大佬
。
可以说,与它相比,
ChatGPT
其实只是他的一个跟班小弟。
或者说,只是它掌控家族中的一个比较靓的仔。
这位大佬自
2017年
问世以来,隐约已成为
AI领域
的基石王者。
它的名字叫做——
Transformer
!
Chat不重要,GPT 才重要
先拆解一下ChatGPT,它由
Chat
与
GPT
两部分组成。
聊天不重要,
GPT
才重要。
那什么是GPT,它的全英文是
Generative Pre-trained Transformer
。
翻译过来就是——
生成式预训练
的变形金刚。
先问ChatGPT——你是谁?
我是谁,它是这样解释的:
GPT是基于
Transformer
架构的预训练语言模型,可以生成自然语言文本。
Transformer
是基于自注意力机制的
深度学习模型架构
,它在自然语言处理领域中得到了广泛的应用,如
机器翻译
、
文本分类
和
生成模型
等。
GPT是基于
Transformer
模型的改进版本,主要是针对生成任务进行了优化,通过预训练学习自然语言的语义和语法规律,进而生成高质量的文本。
因此,GPT可以看作是
Transformer
模型在生成任务上的一个
应用扩展
。
短短的自我介绍中,ChatGPT就
四次
提到
Transformer
。
Transformer模型结构图
Transformer到底是什么,让ChatGPT如此迷恋?
这只变形金刚,到底是只什么怪兽?
强大的变形金刚Transformer
Transformer的定义清晰明了:
是用于
自然语言处理
(NLP)的
神经网络架构
。
在Transformer出现之前,
人工智能
研究领域百家争鸣。
Transformer出现之后,格局开始变了。
开始打压如日中天的
循环神经网络
(RNN)和
卷积神经网络
(CNN)。
以上图片来自网络,请原创者联络我们
Transformer架构使用了
注意力机制
,能够处理
长序列
的依赖关系。
这让它具有以下明显优点:
❶
并行计算
:由于自注意力机制的引入,Transformer可以实现并行计算,加快训练速度。
❷
长序列处理
:相比传统的循环神经网络和卷积神经网络,Transformer可以处理更长的序列,这是由于自注意力机制可以学习到全局的序列信息。
❸
模块化结构
:Transformer由编码器和解码器两部分组成,每部分都包含了多层相同的模块,这种模块化结构使得Transformer更易于扩展和调整。
Transformer在各种任务中的表现,也将不断得到改善和优化,发展日新月益。
以
上
图片来自网络,请原创者联络我们
自
2017年
推出之后, Transformer 已经形成了自己的家族体系。
基于GPT架构,
ChatGPT
就隐藏在
GPT-3
的后面。
现在你就明白,它为什么叫
变形金刚
了。
它的确是可以演变成各种不同的角色,而且个个都挺厉害。
统一自然语言NLP
人工智能的一大研究方向,首先是
自然语言处理NLP
领域。
自从
Transformers
出现后,全球NLP领域的人工智能的工程师们望风景从。
Transformers在该领域的进展所向披靡,不可阻挡,原因如下:
❶
模型大小和训练数据规模的增加
:大规模的Transformers模型,如
GPT-3.5
、
bert
、
T5
等,有些模型参数量达到
千亿级别
,具有更强表达能力。
❷
多语言和跨语言应用
:由于Transformers模型具有更强泛化能力,因此可以被应用于多语言和跨语言任务,如
机器翻译
、
跨语言文本分类
等。
❸
与其他模型的结合和拓展
:与其他模型结合使用,如结合卷积神经网络(CNN)或循环神经网络(RNN)进行多模态学习等。
❹
解释性和可解释性
:随着越来越多的机器学习算法被应用于实际场景,对于模型的解释性和可解释性要求也越来越高。
LLM成长的时间线
在自然语言处理NLP领域,总体的趋势是:
LSTM/CNN→Transformer
NLP领域分为两大不同类型的任务:
这两个领域的研发,已经收敛到了两个不同的预训练模型框架里:
❶
自然语言理解
,技术体系统一到了以Bert为代表的“
双向语言模型预训练
+
应用Fine-tuning
”模式;
❷
自然语言生成类任务
,其技术体系则统一到了以GPT为代表的“
自回归语言模型
(即从左到右单向语言模型)+Zero /Few Shot Prompt”模式。
而这两大模型都是基于
Transformers
,而且两者也出现了技术统一趋向。
在自然语言处理NLP这个领域,Transformer基本上已经一统天下
。
以至于那些还沉迷于CNN,RNN的工程师被警告:
放弃战斗吧,向Transformer投降!
藏不住的野心:
统一计算机视觉CV
除了
NLP
,人工智能的另一分支是计算机视觉
CV
。
Transformer最开始,只是专注于自然语言的处理。
NLP曾经
落后于计算机视觉
,但是Transformer的出现迅速地改变了现状。
一出生就风华正茂,用来形容Transformer毫不为过。
它催生了一大批举世瞩目的模型,达到了令人类不安的程度。
随着Transformer统一了NLP,
计算机视觉领域
显然受到了启发。
一直沉迷于
CNN
神经网络中的科学家,开始想知道Transformer是否可以在
计算机视觉方面
取得类似的效果。
不试不知道,一试吓一跳。
Transformer在计算机视觉领域同样治疗效果明显:
❶
图像分类
ViT
(
Vision Transformer
)
是一种将 Transformer 应用于图像分类的模型。在 ImageNet 等基准数据集上取得了与
卷积神经网络
(CNN)相媲美的结果。
❷
目标检测
DETR
(DEtection TRansformer)是基于 Transformer 的目标检测模型。DETR 在 COCO 数据集上取得了与
Faster R-CNN
方法相当的结果。
❸
语义分割
Transformer
可以用于语义分割任务,其中每个像素被视为一个 token。在
Cityscapes
、
ADE20K
和
COCO-Stuff
等数据集上取得了领先的结果。
以上例子都是Transformer的应用,它在计算机视觉领域也是虎视耽耽。
花8分钟时间,
拆解Transformer这只变形金刚
Transformer为何如此强大,我们花8分钟来解剖它。
以下内容来自
Jay Alammar
:
Transformers可以被看做一个
黑
盒
,
以
文本翻译
中的
法-英翻译任务
为例,这个黑箱接受一句法语作为输入,输出一句相应的英语。
那么在这个黑盒子里面都有什么呢?
里面主要有两部分组成:
Encoder
和
Decoder
。
输入一个文本的时候,该文本数据会先经过一个叫
Encoders
的模块,对该文本进行编码。然后将编码后的数据再传入一个叫
Decoders
的模块进行解码,解码后就得到了翻译后的文本。
Encoders
为
编码器
,
Decoders
为
解码器
。
细心的同学可能已经发现了,上图中的
Decoders后边加了个s
,那就代表有多个编码器了呗,没错,这个编码模块里边,有很多小的编码器,一般情况下,Encoders里边有
6个小编码器
,同样的,Decoders里边有
6个小解码器
。
在
编码部分
,每一个的小编码器的输入,是前一个小编码器的输出。而每一个小解码器的输入,不光是它的前一个解码器的输出,还包括了
整个编码部分
的输出。