最近chatGPT是彻底火出圈了,其实去年底就已经推出,但是这两个月突然爆火,或许是由于流浪地球2的热播,大家觉得他很像MOSS吧。
铺天盖地的文章、视频、话题,作为一个数据类的科普自媒体,好像不说几句,似乎就和这个时代彻底脱节了。
其实很早以前,微软小冰就已经能进行比较简单的对话了。
我刚和小冰聊了几句,发现它语料库还挺新的,连chatGPT都知道。但是聊几句就明显能感觉到语意识别能力相对不足。
为什么这么多年过去了,小冰似乎没有多大的成长,而chatGPT仿佛横空出世,直接实现了对话机器人代差级别的、史诗级飞跃。
其实,chatGPT也不是横空出世的。Open AI经过了六七年的打磨,才最终由量变到达质变。
简单回顾一下AI的发展史。从类别上看,可以大体把AI分为决策式AI和生成式AI。
所谓决策式AI,基本上是用AI来进行分类、判断和预测;而生成式AI则是由AI来创作内容。包括文本、图像、音频等。
在2011年以前,大部分的AI技术集中于决策式AI。在2012年以后,生成式AI开始生根发芽。
特别是在2017年,Google的transformer框架发布以后,大语言模型的理论基础初步建立。
随后生成式AI急速发展,在2020年GPT-3推出的时候,在业内其实已经引起了轰动。Open AI再接再厉,基于GPT-3.5微调之后,推出了集大成的chatGPT。
AI发展历程概览
[1]
总的来看,chatGPT,或者说AI的发展,在近两年出现了井喷式的增长。
主要有两方面原因:
第一,硬件的支撑使得算力大幅增强
存储的价格下降以及云计算等技术的逐渐成熟,使得大规模机器学习的硬件基础有了保障,同时,越来越多的数据为大规模语言训练提供了更加充足的原材料。
动则数十亿级别的训练参数在以前是完全不可想象的,既没有那么多数据,也跑不动那么大的模型。
第二,算法、模型和架构的提升
原来的AI训练算力大体上符合摩尔定律,大约每20个月翻一番。深度学习的出现和transformer框架的发布,大规模模型的出现使得训练算力呈指数级增长。
算法、模型和架构演进
[2]
所以,chatGPT的诞生并非偶然,而是技术发展到一定程度的必然结果。
而它的爆火,一方面,和它的出现形态有关,另一方面,当然和它的技术有关。
从形态上看
在过去的几年里,AI其实在各领域都有长足的发展。但是这些领域都过于小众。只有圈内的人了解。在这个领域内,人工智能的发展对于普通人而言,人工智能还是一个遥远而又看不见也摸不着的概念。
当然,这也和AI的发展状态有关。决策式AI,通常需要在特定领域的大量数据训练,用于辅助人类决策,使用场景上通常在企业端。而生成式AI则可以生成文字、音频、多媒体等各类内容,这些内容是可以被普通人所感知的。
去年,AI绘图工具——Midjourney创作的《太空歌剧院》(Théatre D’Opéra Spatial),在美国科罗拉多州博览会艺术比赛上,获得了“数字艺术/数字修饰照片”一等奖。
《太空歌剧院》Théatre D’Opéra Spatial
[3]
生成式AI创作的内容跨越了圈层和阶级,超越了种族隔阂,消融了文化差异,不再是小众领域的曲高和寡,而是老少皆宜的雅俗共赏。
而chatGPT采用对话的模式,以更低的门槛让普通人也能体验,更加感觉像人们理想中的通用人工智能。这让很多普通人第一次真正的感知到了人工智能的存在。
这种交互方式,可以让人人都被AI所赋能,在企业内部,老板只要说一句:给我本月的利润增速和区域排名,AI马上就会把数据呈现在眼前,当然,这依然依赖于企业内部的数据治理和数据质量。
所谓人们理想中的通用人工智能,也就是更像人类。那么到底chatGPT是如何做到更像人的呢?这就得从技术上解读了。
从技术上看
从表现上看,chatGPT的核心能力在于三点:
-
-
-
这得益于NLP技术的发展以及大语言模型(LLM)的诞生。
Google在2017年发表了论文《Attention is all your need》,在Transformer框架中引入了注意力的概念。
简单来说,这是模拟人类在接受信息时,把有限的注意力集中到重点之上的思路,有助于在长文本中,理解距离较远的词之间的联系。
OpenAI基于Transformer框架推出了生成式预训练模型(Generative Pre-trained Transformers (GPT)),并且每年一迭代,在GPT3推出的时候,其能力已经超乎很多人想象。
chatGPT是基于GPT3.5做的微调,在对话方面做了进一步强化。
数据玩家通过这两天的研究,认为chatGPT的在已有技术的基础上,升级的核心主要在于两点:
-
训练方法:生成式预训练+Prompting(提示),使得训练的过程大大加速
-
训练策略:通过基于人类的反馈的强化学习来进行训练。也就是,终于把强化学习用到了NLP领域
看起来很难理解对不对,接下来,我尽量说中文。
我们知道,训练AI其实是和教育人类的小孩类似的。当AI犯错时,你要提醒他什么是对的,这个过程需要大量的人工标注来实现。
在以往的决策式AI训练中,海量的人工标注数据是训练AI的基础。类似图像识别、自动驾驶、金融领域的信贷风控等,都依赖于大量的样本标注数据。标注的工作需要大量的人力投入,因此,模型的训练成本也很高。
大语言模型LLM的训练方式改变了,直接喂给AI海量的文本,让它自己学。扣掉一些词让它做完形填空(BERT模式),或者让它看了上句猜下句(GPT模式)。
在这样训练之后,AI能够理解人类语言的模式,它知道一个词出现之后,他后面大概率还会出现什么词。
并且,在学习了海量的文本后,AI有了“常识”,这是通用型人工智能的一大特点,也是人类和AI的主要区别之一。
它学习了数理化,也熟读文史哲,它知道明星的名字,也知道现在美国总统是谁,它的的确确更像人了。
另外,从工程上,原来的训练方法(fine-tuning,微调),每更新一次参数,都需要更新模型,换句话说,要重新跑一下;
而采用prompting的模式,则完全不用,只需要给AI投喂一些示例,让它自己体会。
[4]
这里又分几种情况:
Few-shot,给几个示例;
One-shot,给一个示例;
Zero-shot,不给示例。
chatGPT就是Zero-shot模式,当然,你可以通过给它增加示例的方式,使其回答更加精准,这就是为什么你可以追问chatGPT,他会随着你的追问,越来越贴近你想要的结果。
Zero-shot, One-shot & Few-shot
[5]
而这个追问的方式,完全不需要你写代码,只需要对话就行,这使得chatGPT可以通过和成千上万,甚至数亿的用户对话来飞速成长,这是人类理想中通用人工智能的样子。
难道强人工智能就这么来了?别着急,接着看。
这么多用户和chatGPT对话,每个人的语言风格千差万别,到底怎么判断回答对还是不对?
如果AI能够自动从人类的语言中判断一个回答好还是不好,而不用人类去标注他的回答,那将会节省非常多的标注工作量。这就是基于人类的反馈强化学习RLHF(Reinforcement Learning from Human Feedback)。
强化学习是一种训练策略,其他策略还有有监督(有标注样本)、无监督(无标注样本,主要做分类)等。
AlphaGo就是采用的强化学习,通过一个奖励/惩罚函数,来告诉AI这一步是加大获胜概率,还是减小,这样AI就可以不断的和自己对弈。
为什么NLP领域之前没采用这种方式呢?主要是因为这个奖励/惩罚函数太难设计了。
人类针对一个回答可能给出非常多种的评价。比如说:不错、还行、挺好的、很好、太棒了、和我想的一样;或者:这不是我想要的结果、错了、这样不对、还可以更好、我觉得你没有理解我的意思……
这些反馈几乎是难以穷尽的。除非真的找一堆人,来针对AI给出的N种回答,量化的选择自己喜欢哪一种,不喜欢哪一种。
不就是人嘛,不就是钱嘛,OpenAI不差钱,自然也不差人。
RLHF相关论文
[6]
他们找了40个人的专职外包团队,真的开始一条条的标注,所以你看,看起来是个通用人工智能了,还是靠人工堆出来的。
具体过程如下:
RLHF训练过程
[7]
第一步,针对一个话题“向一个6岁小孩解释登月”,人工标注师会给出人类的答案,供GPT-3采用有监督的模式进行训练;
第二步,针对以上话题,AI给出自己的四个答案,由标注师按照最好到最差进行排序,用于训练奖励/惩罚模型;
第三步,可以进行强化学习了,针对任意话题,AI给出一段文字以后,丢给第二步训练出来的奖励/惩罚模型,获得一个反馈值,针对不同风格的回答获得的不同反馈值,AI学习到了哪种回答是人类更喜欢的。
现在,上亿的用户正在时时刻刻为chatGPT提供着更多的数据,更多的反馈,毫无疑问,这些数据将会被用于GPT-4的开发,这个数据量级,基本上已经穷尽了人类对于特定回答可能的反应,再往后,chatGPT真的就是边聊边学了。
GPT-3的参数量高达1750亿,超过了人脑神经元数量860亿;GPT-4的参数量将达到100万亿,和人脑神经元的连接数量相当。
回到我们前面的问题,AI真的要更像人,还有一点值得探讨:即AI应该永远正确,还是像人一样偶尔会犯错。
现在的chatGPT,会经常犯错,也会认错,主要是由于还不够强大。
等到它足够强大了,它会学习到,有时候,不一定要给最优答案,有时候,不一定要保持正确,有时候,善意的谎言可能更能被人接受。
也就是说,AI会有情商。
再过不久,AI就可以看出人类在文字中的话外之音,听出人类语言中的言外之意,可以通过解析人类的声纹,从而判断人类的情绪是否对他的回答有所影响,以及在他的回答中是否包含了别的意思。甚至通过视频的解析人类的微表情,可以判断这个人是否在撒谎,或者说还有言下之意。科幻电影中的那一幕幕,好像真的越来越近了。
chatGPT将在哪些领域应用?我们会失业吗?
又该回到那个老生常谈,但又直击灵魂的问题,我们会被AI取代吗?
更具体点,我们会被chatGPT取代吗?
毫无疑问,是的。
内容创作
首当其冲的就是内容创作领域,类似我这样的科普作者,如果仅限于复制粘贴一些概念、原理,或已有的科普材料的话,ChatGPT完全可以替代我们,而且做得比所有人更快,比大部分人更好。
除了文字创作以外,有点反直觉的是,创意创作的职业有可能会更快的被取代,比如说画家,作曲家等等。
这听上去和大家以往的认知有点不太一样。
按照大家的传统认知,人类最有优势的就在于人类的创意,而创意来自于自主意识,这也是AI所不具备的。
那天听了刘润老师的直播,我有了一些不一样的认知。
所谓的创新和创意其实是在有限的排列组合里创作出一个人类能够感知到美的唯一组合。
这个有限的空间指的就是音符、绘画的颜色和构图等。
音符和色彩组成的空间,对人类来说并不算是有限的,几乎可以等同于无限空间,但对于AI来说,特别是对于超大算力的AI来说,是可以穷尽的有限空间。
而在一个相对有限的空间里,不断的试错,寻找最优或者次优解这种事情,AI再擅长不过了。
事实上现在有很多的画家已经把寻找灵感这件事,交给AI了。
即先尝试让AI通过给出的一个或几个关键字进行创作,从AI创作的一系列作品中挑选自己喜欢的,用来寻找灵感,再将AI的画作用自己的风格画出来。
也就是说,画家、作曲家,这类人类引以为豪的创意创作职业,已经把自己最核心的竞争优势——灵感,交给AI去处理了。
剩下的所谓作曲或者作画风格,如果要进行模仿,对于AI来说更加不在话下。