AI 模型在大模型的推动下,架构在一定程度上得到了统一,解除了任务与算法的强绑定。通用模型可以在相对统一范式下,最大化应用效果。
相对统一范式的体现,一般是对模型本身的假设越来越少,换言之,知识密度低,计算密度高。计算密度高很自然地会带来计算效率的挑战。
当然,统一范式的趋势不可避免。在知识密度更高的领域,比如科学计算、图机器学习,反而经常遇到范式不统一,导致模型泛化性很难提升的问题。
若能在一个端到端的大模型技术栈更好解决计算效率的问题,大模型在后续的落地中将一往无前。
蒸馏、剪枝、量化,是模型压缩的经典方法,在大模型中应用已经非常广泛,如今需要探索更深层次的优化空间。
人们还注意到,大模型的推理机制是自回归模型,这是一种序列推理模式,因此要并行化是比较困难的,在大规模的长序列推理中,需要重点解决算力空闲问题。
大模型推理时, token 之间可以基于概率的关联关系,因此模型只是更可能采纳最准确的答案,却有一定的概率跑偏,生成现实中完全不存在的表达,这就是大模型的幻觉来源。大模型的幻觉对于搜索、问答等应用会产生较强的负面影响,而且大模型训练周期长,吸收的知识有较长的停滞时间。
所以,解决大模型的计算效率挑战,涉及应用层、模型层、算法层、框架层、编译层、基础设施层等,是一个多层次的工程问题,不同层次之间还会互相影响。
在应用层,针对准确性、时效性要求很高的任务,大模型配合 RAG 就能很好地提升表现。
在模型层,为了缓解计算密度高的压力,稀疏化策略很好适应了这种需要,它变得越来越受欢迎,如 MoE LLM,将传统稠密模型结构切分为多个称为“专家”的子结构,而满足多种专家能力的需要并维护多个专家模型,相比将所有专家模型融合到一起更加高效。每个专家,负责处理特定的任务或数据子集 。因此,稀疏 MoE 技术路线能够大幅降低训练和推理计算量。
稀疏化模型简单有效,不仅是架构,稀疏化范式还可以推广到算子、参数等层面,比如结构化稀疏对卷积等操作进行剪枝,可以生成更小的模型,从而有效加速。
此外,为了给大模型推理加速,量化技术也不断演进,比如对权重和激活值采用不同的精度策略,可以保持精确度的同时降低存储空间。
在框架层和编译层,统一架构使得底层的图层与算子层更加容易协同和优化。图层与算子层的优化极大提升算子复用与内存占用的压缩,从而加速模型训练与推理。
以大模型为基础,针对不同的任务,将会演化出大量不同的小模型或者计算模式,在基础设施层,也会有越来越多软硬结合的需求,让定制的基础设施匹配最适合的任务,才能最大化提高效率。大模型演化速度如此之快,芯片研发长久以来又是特别耗时和艰难的,要让定制芯片达到提效的目的,其自身演化也必须跟上模型生态演化的速度。为此,采用 AI 来加速其研发,将是很自然的选择。
当然目前更加繁荣的,是计算软件层的演化,在算力紧缺的当下,对软件优劣的快速评估将变得十分重要。大模型推理的一大瓶颈是性能与时效的平衡,这在基础设施层面的根本体现,其实不是延时,而是吞吐量。为此,要有效地评估不同计算软件之间的性能差距,吞吐量是更重要的指标。
从模型、软件、基础设施上解决了效率难题,企业才能全心投入大模型原生应用层的建设,因为创作型应用特别消耗算力。
为何是创作型应用?不仅仅是模型层面,在 token 层面,统一范式下的知识密度也是较低的。在当下的 AI Native 应用中,数据的关系需要大量概率计算,带来了极大不确定性。但反过来看,这其实为创作提供了无限潜能。Sora 模型的演示视频中经常出现的物体融合、分离、渐变与错配,虽然脱离物理现实,但其实就是一种创作机制的体现。企业业务和 UGC 平台对多样性的极致探索,将带来不可估量的算力和能耗需求。
可以说,在精确性计算稳定落地之前,多样性计算将率先成就更多新的杀手级应用。
知识密度低和幻觉,其实只是意味着大模型降低了知识的门槛,让高度结构化的知识在弱结构的自然语言序列展开,让创意在 token 生成的分支中无限发散,让更多人能以类似搜索引擎的体验,触及过去难以触及的专业知识。
可以说,大模型塑造了知识表示的新形态,以及知识获取的新范式。
以上效率优化方向并非空谈,目前都已经有了相关的落地案例和最新技术迭代。
3 月 18 日至 21 日 NVIDIA 将在圣何塞会议中心举办 GTC 2024 大会,届时,NVIDIA 创始人兼首席执行官黄仁勋将在北京时间 3 月 19 日(星期二)上午 4:00 在美国加州圣何塞 SAP 中心发表 GTC 2024 主题演讲,届时线上也将同步直播。本次大会将举办超过 900 场会议,300 多家参展商将展示企业如何部署 NVIDIA 平台,以在航空航天、农业、汽车和运输、云服务、金融服务、医疗和生命科学、制造、零售和电信等各行各业实现重大突破,GTC 为不同技术水平和兴趣领域的参会者提供了丰富的内容。无论是线下亲临现场还是在线参会,您都将享受到一场令人难以置信的盛会。
值得特别关注的是,本次 GTC 2024 大会还设置了
「China AI Day——LLM 最佳实践和应用会议」
线上专场,这是 NVIDIA 为国内 AI 开发者、技术领袖和决策人举办的中文演讲专场,
将于 3 月 19 日上午 10:00 在线举办
,专场共计 13 场系列演讲,届时您可以参与在线问答,还能与其他参会的同行线上交流。
包含 RAG、MoE 模型、结构化稀疏、量化、图层优化、AI 定制芯片、吞吐量测评、AI Native 应用等方向的相关技术
,都将在该会议中一一呈现!
本次 China AI Day 线上专场分为四个专题:LLM AI Infra、LLM 云上工具链、LLM 推理及性能优化与 LLM 应用。先来一睹为快,更别错过
观众专属福利
(详见文末介绍)!
LLM AI Infra专题
演讲将首先带来全栈的LLM工程技术与实践分享。来自蚂蚁集团和 NVIDIA 的专家们将揭秘 NVIDIA 基于 NVIDIA LLM 训练框架、Transformer Engine 上的 FP8 训练以及多精度训练 (MPT) 的能力,针对 LLM 的全栈软件和硬件整体流水线,并展示AI工程在离线训练推理引擎、在线服务、GPU 集群调度与虚拟化、工程智能等多个领域的效率提升之后,如何在大模型时代,迎接更加严苛的效率挑战!
在
LLM 云上工具链
专题
中,针对模型训练中的速度、算力利用率、计算密度等问题,来自阿里云和腾讯云的演讲者们将介绍使用图表示学习进行编译优化的训练加速模式、对大模型关键算子即 attention 计算做更深度的并行优化的成果,以及实现稀疏计算与存储的基于 MoE 的大模型训练工具。在逼近极致性能的同时,最大化资源利用率,并最小化资源需求!
在
LLM 推理及性能分析专题
中,来自腾讯科技、美团、微软亚洲研究院和 NVIDIA 的多位技术专家将针对模型推理中的速度、成本、易用性和核心指标等挑战,介绍多种新型技术,如:新型的结构化稀疏新算法,这一算法仅需要少量的校准样本便可实现;即插即用的 PyTorch 量化工具 MTPQ,能够实现模型在 GPU 上极致的推理性能;吞吐优先的测试方法,其显著提升了各类 CUDA 应用在 GPU 上的吞吐表现;针对动态稀疏计算的深度学习编译器 PIT,利用置换不变变换,实现高 GPU 利用率和低覆盖浪费。除了性能和效率,企业在工具易用性和评测基准统一上做出了更多努力!