专栏名称: 量子学派
专注于自然科学领域(数理哲)的教育付费平台
目录
相关文章推荐
科学网  ·  我的被拒论文,让审稿人偷偷发表了 ·  2 天前  
科学网  ·  湘潭大学迎新任校长 ·  3 天前  
科学世界  ·  恰逢圆周率日,聊聊 π 所衍生的缤纷文化 ·  4 天前  
51好读  ›  专栏  ›  量子学派

ChatGPT幕后的真正大佬……

量子学派  · 公众号  · 科学  · 2023-02-25 23:08

正文


ChatGPT的背后

ChatGPT 红得发紫,强得让人类心悸。

但在它的背后,还隐藏着一位 真正的大佬


可以说,与它相比, ChatGPT 其实只是他的一个跟班小弟。

或者说,只是它掌控家族中的一个比较靓的仔。

这位大佬自 2017年 问世以来,隐约已成为 AI领域 的基石王者。

它的名字叫做—— Transformer


1

Chat不重要,GPT 才重要

先拆解一下ChatGPT,它由 Chat GPT 两部分组成。

聊天不重要, GPT 才重要。

那什么是GPT,它的全英文是 Generative Pre-trained Transformer

翻译过来就是—— 生成式预训练 的变形金刚。

先问ChatGPT——你是谁?

我是谁,它是这样解释的:

GPT是基于 Transformer 架构的预训练语言模型,可以生成自然语言文本。 Transformer 是基于自注意力机制的 深度学习模型架构 ,它在自然语言处理领域中得到了广泛的应用,如 机器翻译 文本分类 生成模型 等。


GPT是基于 Transformer 模型的改进版本,主要是针对生成任务进行了优化,通过预训练学习自然语言的语义和语法规律,进而生成高质量的文本。


因此,GPT可以看作是 Transformer 模型在生成任务上的一个 应用扩展

短短的自我介绍中,ChatGPT就 四次 提到 Transformer

Transformer模型结构图


Transformer到底是什么,让ChatGPT如此迷恋?

这只变形金刚,到底是只什么怪兽?


2

强大的变形金刚Transformer

Transformer的定义清晰明了:

是用于 自然语言处理 (NLP)的 神经网络架构


在Transformer出现之前, 人工智能 研究领域百家争鸣。

Transformer出现之后,格局开始变了。

开始打压如日中天的 循环神经网络 (RNN)和 卷积神经网络 (CNN)。


以上图片来自网络,请原创者联络我们

Transformer架构使用了 注意力机制 ,能够处理 长序列 的依赖关系。

这让它具有以下明显优点:

并行计算 :由于自注意力机制的引入,Transformer可以实现并行计算,加快训练速度。

长序列处理 :相比传统的循环神经网络和卷积神经网络,Transformer可以处理更长的序列,这是由于自注意力机制可以学习到全局的序列信息。

模块化结构 :Transformer由编码器和解码器两部分组成,每部分都包含了多层相同的模块,这种模块化结构使得Transformer更易于扩展和调整。

Transformer在各种任务中的表现,也将不断得到改善和优化,发展日新月益。

图片来自网络,请原创者联络我们

2017年 推出之后, Transformer 已经形成了自己的家族体系。

基于GPT架构, ChatGPT 就隐藏在 GPT-3 的后面。


现在你就明白,它为什么叫 变形金刚 了。

它的确是可以演变成各种不同的角色,而且个个都挺厉害。


3

统一自然语言NLP

人工智能的一大研究方向,首先是 自然语言处理NLP 领域。

自从 Transformers 出现后,全球NLP领域的人工智能的工程师们望风景从。

Transformers在该领域的进展所向披靡,不可阻挡,原因如下:

模型大小和训练数据规模的增加 :大规模的Transformers模型,如 GPT-3.5 bert T5 等,有些模型参数量达到 千亿级别 ,具有更强表达能力。

多语言和跨语言应用 :由于Transformers模型具有更强泛化能力,因此可以被应用于多语言和跨语言任务,如 机器翻译 跨语言文本分类 等。

与其他模型的结合和拓展 :与其他模型结合使用,如结合卷积神经网络(CNN)或循环神经网络(RNN)进行多模态学习等。

解释性和可解释性 :随着越来越多的机器学习算法被应用于实际场景,对于模型的解释性和可解释性要求也越来越高。


LLM成长的时间线


在自然语言处理NLP领域,总体的趋势是:

LSTM/CNN→Transformer

NLP领域分为两大不同类型的任务:

❶理解类人工智能

❷生成式人工智能


这两个领域的研发,已经收敛到了两个不同的预训练模型框架里:

自然语言理解 ,技术体系统一到了以Bert为代表的“ 双向语言模型预训练 + 应用Fine-tuning ”模式;

自然语言生成类任务 ,其技术体系则统一到了以GPT为代表的“ 自回归语言模型 (即从左到右单向语言模型)+Zero /Few Shot Prompt”模式。


而这两大模型都是基于 Transformers ,而且两者也出现了技术统一趋向。

在自然语言处理NLP这个领域,Transformer基本上已经一统天下

以至于那些还沉迷于CNN,RNN的工程师被警告:

放弃战斗吧,向Transformer投降!




4

藏不住的野心:

统一计算机视觉CV


除了 NLP ,人工智能的另一分支是计算机视觉 CV

Transformer最开始,只是专注于自然语言的处理。

NLP曾经 落后于计算机视觉 ,但是Transformer的出现迅速地改变了现状。

一出生就风华正茂,用来形容Transformer毫不为过。

它催生了一大批举世瞩目的模型,达到了令人类不安的程度。

随着Transformer统一了NLP, 计算机视觉领域 显然受到了启发。

一直沉迷于 CNN 神经网络中的科学家,开始想知道Transformer是否可以在 计算机视觉方面 取得类似的效果。

不试不知道,一试吓一跳。

Transformer在计算机视觉领域同样治疗效果明显:


图像分类

ViT Vision Transformer 是一种将 Transformer 应用于图像分类的模型。在 ImageNet 等基准数据集上取得了与 卷积神经网络 (CNN)相媲美的结果。



目标检测

DETR (DEtection TRansformer)是基于 Transformer 的目标检测模型。DETR 在 COCO 数据集上取得了与 Faster R-CNN 方法相当的结果。


语义分割

Transformer 可以用于语义分割任务,其中每个像素被视为一个 token。在 Cityscapes ADE20K COCO-Stuff 等数据集上取得了领先的结果。

以上例子都是Transformer的应用,它在计算机视觉领域也是虎视耽耽。




5

花8分钟时间,

拆解Transformer这只变形金刚


Transformer为何如此强大,我们花8分钟来解剖它。

以下内容来自 Jay Alammar


Transformers可以被看做一个 文本翻译 中的 法-英翻译任务 为例,这个黑箱接受一句法语作为输入,输出一句相应的英语。


那么在这个黑盒子里面都有什么呢?

里面主要有两部分组成: Encoder Decoder



输入一个文本的时候,该文本数据会先经过一个叫 Encoders 的模块,对该文本进行编码。然后将编码后的数据再传入一个叫 Decoders 的模块进行解码,解码后就得到了翻译后的文本。

Encoders 编码器 Decoders 解码器

细心的同学可能已经发现了,上图中的 Decoders后边加了个s ,那就代表有多个编码器了呗,没错,这个编码模块里边,有很多小的编码器,一般情况下,Encoders里边有 6个小编码器 ,同样的,Decoders里边有 6个小解码器


编码部分 ,每一个的小编码器的输入,是前一个小编码器的输出。而每一个小解码器的输入,不光是它的前一个解码器的输出,还包括了 整个编码部分 的输出。







请到「今天看啥」查看全文