2023
年人工智能领域如果只能筛选一个关键词的话,恐怕非“大模型”莫属。大模型的发展在过去一年中,让各行各业发生了天翻地覆的变化,有企业因大模型而新生,有企业因大模型而消亡。企业的变迁跟技术迭代息息相关,而大模型就是新一代人工智能技术下的产物,大模型已经深入各行各业对具体业务进行了全方位的干预,可以说未来没有一个行业能脱离
AI
大模型的影子。新年伊始之际,人工智能的的发展也将进入下一阶段,对社会生产的改变也将更加明显,下面是根据过去一年人工智能的发展现状对未来一年人工智能发展的预测。
以MoE为主的方法将成为大模型研究的新方向
MoE
,即
Mixture-Of-Experts
,是一种深度学习技术,它通过门控网络实现任务
/
训练数据在不同专家模型间的分配,让每个模型专注处理其最擅长的任务,进而实现模型的稀疏性。这种方法可以在保证运算速度的情况下,将模型的容量提升
>1000
倍。
MoE
模型由两个关键组成部分构成:门控网络和专家网络。门控网络负责根据输入数据的特征,动态地决定哪个专家模型应该被激活以生成最佳预测。专家网络是一组独立的模型,每个模型都负责处理某个特定的子任务。通过门控网络,输入数据将被分配给最适合的专家模型进行处理,并根据不同模型的输出进行加权融合,得到最终的预测结果。
MoE
模型已经在一些实际应用中取得了显著的效果。例如,
Moët & Chandon
,这是一家法国的精品酒庄,也是奢侈品公司
LVMH Moët Hennessy Louis Vuitton SE
的一部分。他们使用
MoE
模型来提升其产品的质量和准确性。
在
2023
年
12
月份,
Mistral AI
发布了
类
GPT-4
架构的开源版本
Mistral 8x7B
模型,
这
8
个
70
亿参数的小模型组合起来,直接在多个跑分上超过了多达
700
亿参数的
Llama 2
。英伟达高级研究科学家
Jim Fan
推测,
Mistral
可能已经在开发
34Bx8E
,甚至
100B+x8E
的模型了。而它们的性能,或许已经达到了
GPT-3.5/3.7
的水平。
Transformer架构的统治地位将受到挑战
在过去的几年中自从
Transformer
出现之后,它的架构几乎就是为大模型而量身制作的,简单的前馈神经网络模型能够提供给模型足够大的参数,再加上带有残差和注意力模块编解码结构的堆叠,不仅是参数量更进一步的增大,巍模型提供更强大表示能力,稠密的多头自注意力机制还为模型提供了数据内部不可或缺的关系表达能力。
但是随着底层基础模型技术的研究和发展,逐渐有一些新的模型架构对传统
Transformer
造成了一定的挑战,当然这种挑战不仅仅局限于学术层面,更多的可能还会在后续的工业界得到证实。
由于
Transformer
本身参数的增加随着
token
的增加成
2
次方的增长,这导致计算成本也在迅速的增长,其次
Transformer
在参数达到一定量级后也出现了表达瓶颈的现象,由此出现了一些在未来可能会替代
Transformer
的研究方案。
l
RetNet
:
RetNet
(
Retentive Network
)被设计为大型语言模型的基础架构,
RetNet
的主要优势在于它能够同时实现训练并行化、低成本推理和良好的性能。
RetNet
提出了一种名为
"retention"
的机制来替代传统的
"attention"
机制。这种机制支持三种计算范式,即并行、循环和分块循环。具体来说,其并行表示允许训练并行化,循环表示使得推理成本低,而分块循环表示有助于有效地进行长序列建模。
l
RWKV
:
RWKV
(
Receptance Weighted Key Value
)将
Transformer
的高效可并行训练与
RNN
的高效推理相结合。
RWKV
的设计精良,能够缓解
Transformer
所带来的内存瓶颈和二次方扩展问题,实现更有效的线性扩展,同时保留了使
Transformer
在这个领域占主导的一些性质;
l
Mamba
:
Mamba
基于选择性状态空间模型(
SSM
),
Mamba
将这些选择性
SSM
集成到一个简化的端到端神经网络架构中,无需注意力机制,甚至不需要
MLP
块。
Mamba
通过让
SSM
参数作为输入的函数,解决了其离散模态的弱点,允许模型根据当前标记选择性地沿序列长度维度传播或忘记信息。
Mamba
具有快速的推理(吞吐量比
Transformer
高
5
倍)和序列长度线性缩放。在语言建模任务中,
Mamba-3B
模型在预训练和下游评估中均优于相同规模的
Transformer
,并且与其两倍大小的
Transformer
模型相媲美。
l
UniRepLKNet
:
UniRepLKNet
是由腾讯和香港中文大学联合发布的一种基于大核卷积神经网络(
CNN
)的大模型基础架构。
UniRepLKNet
采用大核
CNN
,可以处理多种模态的数据,如图像、音频、时序预测等。
UniRepLKNet
提出了四条用于大核
CNN
架构设计的指导原则,并设计了一种硬件感知的并行算法,实现了实际测速优势,在多种模态上均实现了最先进的性能。
UniRepLKNet
在时序预测的超大数据上用这一为图像设计的
backbone
达到了最先进的性能。这些特性使得
UniRepLKNet
成为了一种强大的模型架构,它有效地利用了大核
CNN
的优点;
l
StripedHyena
:
StripedHyena
是由
Together AI
发布的一种新型人工智能模型,它将注意力和门控卷积结合成了所谓的
Hyena
运算符。
StripedHyena
采用了一种独特的混合结构,将门控卷积和注意力结合成了
Hyena
运算符。这种结构使得
StripedHyena
在训练、微调和生成长序列过程中具有更高的处理效率,更快的速度和更高的内存效率。在短序列任务中,包括
OpenLLM
排行榜任务,
StripedHyena
在性能上超越了
Llama-27B
、
Yi7B
以及最强大的
Transformer
替代品,如
RWKV14B
。
StripedHyena
能够处理长序列,这使得它在处理长提示的各种基准测试中表现出色。
StripedHyena
的设计优化了计算效率,使得它在训练期间能够进行体系结构修改。
l
PanGu-
Π
:
Pangu
Π是一种新型的
Transformer
模型,它针对
Transformer
的特征坍塌问题和非线性关系进行了优化。在
Transformer
更深层中,特征的秩显著降低,导致所有
token
之间的相似性增加,这极大地降低了
LLM
的生成质量和多样性。非线性对
Transformer
模型的能力有重大影响。增强非线性可以有效地缓解特征坍塌的问题,并提高
Transformer
模型的表达能力。
PanGu
Π在前馈网络(
FFN
)中采用了级数激活函数,并且在多头自注意力(
MSA
)中集成了增强型快捷连接,这有效地为
Transformer
架构引入了更多的非线性。并增广
Shortcut
(
Augmented Shortcut
)来缓解特征坍塌的问题,提高大语言模型的表达能力。
以上这些基础模型框架或者相关微调技术都将会对
Transformer
的统治地位造成一定的影响,能否完全替代
Transformer
在大模型一统天下的局面,不仅要看学术界的成果,更要看工业界的行动。
大模型免微调方法得到一定的发展
大模型表现能力如此显眼,其中少不了对模型的微调,而近期的一些研究表明通过对
alignment tuning
的深入研究揭示了其“表面性质”,即通过监督微调和强化学习调整
LLMs
的方式可能仅仅影响了模型的语言风格,而对模型解码性能的影响相对较小。具体来说,通过分析基础
LLMs
和
alignment-tuned
版本在
token
分布上的差异,作者发现在大多数情况下,它们在解码上表现几乎相同,主要的变化发生在文体方面,如话语标记和安全声明。
研究者提出了一种名为
URIAL
(
Untuned LLMs with Restyled In-context ALignment
)的简单、无需调优的对齐方法。
URIAL
方法利用上下文学习(
ICL
),通过采用少量精心策划的风格示例和精心设计的系统提示,实现了对基础
LLMs
的有效对齐,而无需调整其权重。在这个方法中,通过巧妙构建上下文示例,首先肯定用户查询并引入背景信息,然后详细列举项目或步骤,最终以引人入胜的摘要结束,其中包括安全相关的免责声明。
研究发现这样一个直接的基准方法能够显著减小基础
LLMs
和经过对齐的
LLMs
之间的性能差距。这表明,通过精心设计的上下文示例,可以在不进行调优的情况下实现对基础
LLMs
的有效对齐,为对齐研究提供了新的思路。
事实证明,只要基础模型设计的够好,加以优质的数据和足够的训练,完全可以省去微调的步骤,这不但提高了大模型训练的效率,也大大减低的大模型微调的成本。
多模态大模型
将持续渗透各行各业
随着最近一年来以
ChatGPT
为主的大模型逐渐走向应用市场,从最初的语言模型应用,已经发展到了视觉模型应用、语音模型应用等多个应用领域,由此也诞生了多模态大模型。多模态大模型,即能够处理多种类型输入(如文本、图像、语音等)的人工智能模型。多模态大模型正在逐渐改变各行各业。
多模态大模型已经在自动驾驶领域得到应用,例如,可以利用多种不同的传感器,例如摄像头、激光雷达、超声波等,来构建一个更加全面和准确的自动驾驶系统。中国科学院自动化研究所的
“全媒体多模态大模型”结合新华社全媒体的海量数据积累和媒体融合业务场景,推动了人工智能在视频配音、语音播报、标题摘要、海报创作等多元媒体业务场景的应用。
微软的研究员撰写的综述预测,多模态基础模型将从专用走向通用,未来将有更多的研究关注如何利用大模型处理多模态任务。中国科学院预测,
“多模态大模型
+
小模型”的模式可能成为主流,多模态人工智能产业正在走向场景应用的新阶段。多模态大模型将在未来的人工智能发展中起到重要作用。
这些证据和预测表明,多模态大模型将持续渗透并改变各行各业,为我们的生活带来更多可能性。在新的一年,多模型模型的发展应用将持续深入各行各业,对具体的业务产生不可忽视的影响。
具身人工智能开始迅速发展
具身人工智能,也被称为
Embodied AI
,是指具有物理实体并能与真实世界进行多模态交互的智能体。具身智能(
Embodied Intelligence
)是一种智能系统的设计理念,其目标是通过将感知、决策和行动融合在一起,使机器能够像人类一样具备身体和运动能力。具身智能的核心理念是利用机器的身体结构和动作能力来增强其智能表现和解决复杂任务的能力。传统的人工智能系统主要关注于数据处理和算法的优化,而具身智能则更加注重机器与环境的互动和交流。
1986
年,著名的人工智能专家布鲁克斯
(Rodney Brooks)
提出了具身智能的理论,他认为智能是具身化和情境化的,传统以表征为核心的经典
AI
进路是错误的。
李飞飞教授提出了一套新的计算框架
——
DERL
(
deep evolution reinforcement learning
)深度进化强化学习,这篇文章提到了生物进化论与智能体进化的关系,并借鉴了进化论的理论应用于假设的智能体(
unimal
宇宙动物)的进化学习中。
目前,具身智能已经成为国际学术前沿研究方向,包括美国国家科学基金会在内的机构都在推动具身智能的发展。谷歌公司的
Everyday Robot
已经能够将机器人和对话模型结合到一起,形成一个更大的闭环。
UC
伯克利的
LM Nav
用三个大模型(视觉导航模型
ViNG
、大型语言模型
GPT-3
、视觉语言模型
CLIP
)教会了机器人在不看地图的情况下按照语言指令到达目的地。
基于形态的具身智能研究,例如机器人关节控制,使机器人完全依靠自身形态即可实现对整体行为的控制。具身人工智能正在快速发展,并在人工智能领域中占据越来越重要的地位。
通用人工智将进入爆发的前夜奇点
通用人工智能(
Artificial General Intelligence
,
AGI
)是指一种具备与人类相似或超越人类智能水平的人工智能形式。与狭窄人工智能(
Narrow AI
)不同,狭窄人工智能是专注于执行特定任务或解决特定问题的人工智能形式。通用人工智能则是更全面、灵活,能够处理多个不同领域的任务,具有类似人类的学习能力和智能适应性。
随着生成式人工智能的发展,
未来
的人工智能技术发展已经到了
通用人工智能前夜的爆发奇点
。
麦肯锡的最新年度全球调研结果证实,生成式人工智能(简称
GenAI
)工具已出现爆炸式增长。许多此类工具至今推出尚不满一年,但已有
1/3
的受访者表示,其所在组织会在至少一项业务职能中经常使用
GenAI
。
OpenAI
发布了「
AGI
路线图」,详细解释了这家前沿研究机构对通用人工智能研究的态度。
OpenAI
不断构建出更为强大的
AI
系统,希望快速部署
AGI
,以积累在相应的应用经验;
OpenAI
正在努力创建更加一致和可控的模型;
OpenAI
希望全球范围内解决三个关键问题:人工智能系统的治理问题,
AI
系统产生的收益的分配问题,以及访问权限的共享问题。
OpenAI
预计给世界带来巨大变化的
AGI
在最后阶段一定会出现。
国内
科大讯飞副总裁、研究院院长刘聪提出,未来通用人工智能发展将呈现三个趋势:一是向多模态、多语言的方向发展;二是更加可信和可解释,解决幻觉问题和安全问题;三是必须站在软硬件全自主创新的基础上发展大模型技术和产业。
麦肯锡预测,通用人工智能的潜在经济价值在
17
万亿至
26
万亿美元之间,并且追求这种价值的公司比例也在持续增加。
这些证据和预测表明,未来一年可能是通用人工智能前夜的爆发奇点,我们有理由期待通用人工智能的快速发展和广泛应用。
垂直领域大模型
的发展将进入平稳期
垂直领域大模型是针对特定领域或任务进行深度学习训练的超大规模模型。相较于通用大模型,垂直大模型具有更强的领域专业性和任务针对性,能够更好地解决特定领域的问题和提供更加精准的服务。
随着各行业中垂直类大模型应用的持续爆发,大模型对各行业的影响已经进入了顶峰时刻,如医疗、教育、交通、法律、媒体等很多能够被大模型最容易改变的行业都已经与大模型深度结合,相关的企业也都在紧锣密鼓的部署大模型的产业链。从时间节点上来说,在未来一年中,垂直类大模型的应用
已经过了爆发期
,
将会进入平稳的发展期,持续释放行业需求和红利。
垂直大模型正加快覆盖各行各业。例如,携程集团发布了国内首个旅游行业垂直大模型
“携程问道”;华为发布了金融、电力、药物分子三个垂直领域大模型;京东表示发布的千亿级大模型,进一步聚焦行业应用。
未来垂直领域大模型的研发将会持续投入加大,国内多家企业加大
“垂直大模型”研发投入,并在旅游、商业、金融、医疗、办公协同等领域加快应用。
业内人士认为,目前,国内出现了做通用大模型和做垂直大模型两条路径。算力、大规模数据、高成本人才成为大部分企业入局通用大模型的
“拦路虎”。深度定制、广阔的场景应用,则催生了国内垂直领域大模型的开发。
腾讯发布的大模型时代
AI
趋势报告显示,未来的数字化商业将分为大模型基础设施型企业、垂直行业领域的小模型应用企业,以及更加贴合个人用户的模型应用和服务。这一生态的建立和发展,将更广泛地赋能各行业应用,加快社会各领域数字化转型、智能化发展,带来全社会的生产效率提升。垂直领域大模型的发展已经进入平稳期,其应用和影响将会越来越广泛。
国内人工智能技术突破瓶颈开始快速发展
人工智能的发展源于上个世纪
50
年代在美国达特茅斯会议上的共识,距今已经有
70
多年了,也就是说人工智能其实不是一门新的学科和技术,这几十年来,全球研究人工智能的技术人员主要都集中在美国、加拿大、英国等国家,相关的技术成果也都出自于上述国家的技术团队。而我国在过去几十年间,真正研究人工智能技术的团体和个人则要少得多,这主要是因为人工智能在过去几十年间都是以基础研究为主,很少出现应用型的人工智能产品。
国内真正大规模开始研究人工智能技术的时间节点在
2016
年前后,
2016
年
3
月,
DeepMind团队
研发的
AlphaGO
与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以
4
比
1
的总比分获胜。此后人工智能技术的热度不断地被刷新。
但是这些热点事件都是在国外,国内几乎没有报出过有关人工智能技术发展的轰动性事件,更多的是追随国外技术的脚步发展,这也很正常,主要是国内无论从技术人员储备,还是从技术沉淀上来说都比不上国外。
不过随着近几年的追赶,国内技术团队在一些领域也逐渐绽放光芒,技术成果也可圈可点,从技术上来说,有了一定的突围,产业规模也连年攀升。
最新公布的统计数据显示,中国人工智能核心产业规模达到
5000
亿元,企业数量超过
4400
家,已建设近万个数字化车间和智能工厂。
另外,近几年国内
人工智能
的
论文数量激增,泥沙俱下,导致部分论文质量不高,但这并不能说明人工智能发展停滞不前,而是表明目前有更多的研究人员投入到了这个火热的研究方向。在