今天分享的是
大模型专题系列
深度研究报告:《
2023国产大模型发展现状竞争格局应用进展及未来发展方向分析报告
》
(报告出品方:
H3C
)
报告共计:
33
页
Transformer 架构的提出,开启了大语言模型快速发展的新时代
谷歌的 BERT 首先证明了预训练模型的强大潜力:OpenAI的 GPT 系列及 Anthropic 的 Claude 等继续探索语言模型技术的边界。越来越大规模的模型不断刷新自然语言处理的技术状态。这些模型拥有数百亿或上千亿参数,可以捕提语言的复杂语义关系,并进行人类级别的语言交互。
在 Transformer 出现之前,自然语言处理一般使用RNN或 CNN来建模语义信息。但RNN和CNN均面临学习远距离依赖关系的困难:RNN 的序列处理结构使较早时刻的信息到后期会衰减:而CNN的局部感知也限制了捕捉全局语义信息。这使 RNN和CNN在处理长序列时,往往难以充分学习词语之间的远距离依赖。
Transformer 注意力机制突破了 RNN和 CNN 处理长序列的固有局限,使语言模型能在大规模语料上得到丰富的语言知识预训练。该模块化、可扩展的模型结构也便于通过增加模块数量来扩大模型规模和表达能力,为实现超大参数量提供了可行路径。Transformer 解决了传统模型的长序列处理难题,并给出了可无限扩展的结构,莫定了大模型技术实现的双重基础。
参数量的倍数增长是大模型最根本的特点
大模型代表了一种新的预训练-微调范式,其核心是先用大规模数据集预训练一个极大的参数模型,然后微调应用到具体任务。这与传统的单任务训练形成了对比,标志着方法论的重大变革。参数量的倍数增长是大模型最根本的特点,从早期模型的百万量级,发展到现在的十亿甚至百亿量级,实现了与以往数量级的突破。
Transformer 架构的提出开启了 NLP 模型设计的新纪元,它引入了自注意力机制和并行计算思想,极大地提高了模型处理长距离依赖关系的能力,为后续大模型的发展奠定了基础。正是由于Transformer 架构的成功,研究者们意识到模型的架构设计在处理复杂任务和大规模数据中发挥着举足轻重的作用。这一认识激发了研究者进一步扩大模型参数量的兴趣。虽然之前也曾有过扩大参数量的尝试,但因受限于当时模型本身的记忆力等能力,提高参数数量后模型的改进并不明显。
GPT-3的成功充分验证了适度增大参数量能显著提升模型的泛化能力和适应性,由此掀起了大模型研究的热湖。它凭借过千亿参数量和强大的语言生成能力,成为参数化模型的典范。GPT-3在许多 NLP 任务上表现亮眼,甚至在少样本或零样本学习中也能取得惊人的效果。
大模型优势及应用前景
与早期的人工智能模型相比,大型模型在参数量上取得了质的飞跃,导致了在复杂任务的建模能力整体上的提升:1)学习能力增强:以应对更复杂的任务:2)泛化能力加强:以实现更广泛的适用性:3)鲁棒性提高:4)具备更高层次认知互动能力:可模拟某些人类能力。
应用前景:复杂性、高维度、多样性和个性化要求使得大型模型在某些任务上更易获得出色的建模能力:多模态传感器数据的融合分析,尤其涉及到时序数据的处理,如自动驾驶:杂且动态的目标,需要模型从大规模多样化的数据模式中学习,如金融领域中的量化交易策略优化:涉及异构数据源的高维输入空间,如医学图像和报告:需要为不同用户或场景进行个性化建模的定制化需求,如智能助理。
报告共计:33页