专栏名称: 图灵人工智能

人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。

大语言模型技术演进与启示！

图灵人工智能 · 公众号 · 算法科技媒体 · 2024-11-26 00:00

主要观点总结

随着大模型在人工智能领域的广泛应用，其背后的技术体系正变得愈发复杂与精细。从 Transformer 架构的性能优化，到多模态模型的交互设计，再到软硬件协同的高效实现，大模型系统的构建已不仅是单一技术的堆叠，而是跨越算法、硬件和系统架构的全方位整合。11月14-15日，由CSDN联合高端IT咨询与教育平台Boolan举办的“2024全球机器学习技术大会”探讨了从模型设计到实际落地的核心技术实践。多位重量级嘉宾带来了Transformer效率优化、合成指令优化、多模态跨模态对齐等技术的最新研究成果，为行业提供了全新的思路与方向。

关键观点总结

关键观点1: Transformer效率优化

Google团队提出的Transformer架构，因多头注意力机制迅速成为NLP领域的主流选择。面临计算复杂度高和内存需求高的挑战，优化需从Prefilling和Decoding阶段进行，包括GQA、MQA和MLA策略，以及稀疏注意力和局部注意力方法。

关键观点2: 释放AI潜能：应对硬件和软件挑战

AI领域正经历计算需求增长，硬件创新和软件框架进化，推动AI性能提升。Python作为AI开发语言，与硬件加速语言和图形API协作，优化AI计算性能。

关键观点3: Infinity Instruct: 合成指令技术的探索

Infinity Instruct项目整合现有开源数据，构建两级标签体系，筛选高质量指令数据，并基于模型能力缺陷生成数据。提出任务粒度的偏好建模方法，提升模型在多任务场景下的表现。

关键观点4: 多模态大模型的实践与思考

紫东太初多模态大模型引入多任务多模态自监督学习框架，涵盖Token级、模态级到样本级的学习方法。开发可变形视觉Transformer模型、对比掩码自监督模型和数据鲁棒自监督模型，以及视觉-文本双指代统一大模型。

关键观点5: 生成式AI落地对架构带来的挑战与机遇

生成式AI落地关注最大化机会和选择任务。根据“颗粒度”和“责任度”划分应用场景，并探索硅谷成功AI初创企业的共同特征，包括领域知识、数据积累、快速上市和基础设施。

关键观点6: 大模型推理性能提升实践

大模型推理面临高计算成本，通过优化KV Cache、Prefill和Decode阶段，以及引入Paged Attention和Radix Attention技术，提升推理速度和效率。

关键观点7: 腾讯混元多模态技术实践与思考

腾讯混元团队专注于文本、图像、视频、音频四个模态生成技术的研发，采用多阶段预训练策略，提升模型性能。开发高效自动化数据获取和处理链路，以及统一的多模态模型架构。

正文

请到「今天看啥」查看全文

点击上方“ 图灵人工智能 ”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

编辑 | 屠敏

出品 | CSDN（ID：CSDNnews）

随着大模型在人工智能领域的广泛应用，其背后的技术体系正变得愈发复杂与精细。从 Transformer 架构的性能优化，到多模态模型的交互设计，再到软硬件协同的高效实现，大模型系统的构建已不仅是单一技术的堆叠，而是跨越算法、硬件和系统架构的全方位整合。

11 月 14-15 日，由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的“2024 全球机器学习技术大会”特设了“大语言模型技术演进”分论坛，以这一复杂生态为切入点，深度探讨了从模型设计到实际落地的核心技术实践。

论坛上，来自百川智能、中国科学院自动化研究所、腾讯、智源、智谱、得物、快手、CodePlay、Lepton AI 等机构与企业的多位重量级嘉宾带来了 Transformer 效率优化、合成指令优化、多模态跨模态对齐等技术的最新研究成果，并深入剖析了提升推理效率的创新实践，为行业提供了全新的思路与方向。

王炳宁：Transformer 效率优化

在生成式 AI 浪潮中，Transformer 架构被广泛认为是这一技术发展的基石。针对这一主题，百川智能预训练负责人王炳宁在其分享中，以《Transformer 效率优化》为题，深入剖析了 Transformer 技术的核心与优化路径。

王炳宁百川智能预训练负责人

2017 年，Google 团队提出了 Transformer 架构，凭借多头注意力机制（Multi-Head Attention，MHA）和全局上下文建模能力，迅速成为自然语言处理（NLP）领域的主流选择。相比 RNN，Transformer 在并行性和扩展性上展现出显著优势，推动了诸如 GPT、LLama 和百川智能语言模型等大规模预训练模型的发展。

王炳宁表示，Transformer 的核心机制是 Attention，通过全局关注所有输入序列，实现了显著的效果提升。然而，Transformer 在引入全 Attention 机制的同时，也面临以下挑战：

计算复杂度高：随着序列长度增加，计算复杂度呈平方级增长，导致速度变慢。
内存需求高：需要大量显存存储上下文数据，频繁的 I/O 操作成为瓶颈。
显式位置编码：需要通过显式方法标记位置关系，无法像 RNN 自动扩展序列位置。

王炳宁指出，Transformer 的效率优化需要从 Prefilling 阶段和 Decoding 阶段两个方面进行。Prefilling 阶段是指模型对输入序列进行处理并生成特征表示，Decoding 是模型根据上下文逐步生成输出。

在解码阶段，缓存（KV Cache）的作用尤为重要。它存储了 Key 和 Value 矩阵，用于避免重复计算。然而，随着序列长度增加，缓存数据频繁在显存和计算单元之间传递，导致显著的 I/O 瓶颈（“IO-bound”问题）。这一瓶颈成为限制 Transformer 推理速度的核心问题。

针对 KV Cache 的 I/O 瓶颈，王炳宁分享了两种优化策略——GQA（Grouped Query Attention）和 MQA（Multi-Query Attention）。

GQA：通过减少缓存头数，例如将原始 32 个多头减少为 4 个，大幅降低缓存大小（约 8 倍），提升 I/O 效率。
MQA：进一步简化，仅使用一个头存储 Key 和 Value，同时支持多个查询操作，显著降低解码阶段的计算复杂度。

虽然 GQA 和 MQA 显著加快了解码速度，但它们或多或少会影响模型的效果。尤其是减少多头数量后，注意力机制的表达能力下降，特别是在处理复杂上下文时，模型的预测精度可能会有所降低。为平衡缓存大小和任务效果，王炳宁表示 MLA（Multi-Latent Attention）提供了一种折中方案。在缓存阶段，将 Key 和 Value 矩阵压缩为单头表示，减少显存占用与 I/O 需求。在推理阶段，动态扩展为多头表示，恢复多头注意力的表达能力，提升任务效果。

然而，MLA 对训练速度造成了一定影响，并且无法降低 Prefilling 阶段的时间成本。王炳宁特别指出，尽管 MLA 等方法可以显著优化解码阶段，但在处理长序列输入的Prefilling阶段仍需更有效的解决方案。

在 Prefilling 阶段，Transformer 需要对完整输入序列进行全局建模，其计算复杂度呈平方级增长。为此，王炳宁分享了以下两种优化方法，一种是稀疏注意力（Sparse Attention），仅保留部分单词间的交互，例如 BigBird 和 LongFormer 通过跳跃采样或随机选择来降低计算量，二是局部注意力（Local Attention），限制模型只关注相邻的 K 个单词，减少无关上下文的计算开销。

最后，王炳宁总结道，Transformer 的核心设计经过七年的发展，仍是当前最优的自然语言处理架构。不过，所有的优化都是有代价的，需要对效果和效率进行折中。

Michael Wong——释放 AI 的潜能：应对变幻莫测的 AI 硬件和软件

释放 AI 潜能不仅依赖技术的突破，也离不开工具、框架和编程语言的有效使用。在 CodePlay 副总裁 Michael Wong 的《释放 AI 的潜能：应对变幻莫测的 AI 硬件和软件》演讲中，他深入剖析了这一主题，阐述了 AI 领域的发展现状和未来方向。

Michael Wong CodePlay 副总裁

Michael 提到，当前 AI 领域正经历前所未有的计算需求增长，全球硬件创新频繁涌现，特别是 GPU、TPU 和 FPGA 等专用 AI 硬件的大量普及，这些加速器正在推动 AI 性能的极大提升。尽管 NVIDIA 的硬件主导市场，但 Google、AMD、Intel、华为、百度、阿里等许多 AI 厂商正在开发自己的专用硬件，以摆脱对 NVIDIA 的依赖。这种竞争不仅带来了硬件的多样化，也促使软件框架不断进化。像 PyTorch、TensorFlow、JAX 和 PaddlePaddle 等框架，通过 CUDA 或 XLA 等底层库，与不同硬件高效协作，为 AI 开发提供了强大支持。

在此背景下，AI 加速器的定义也被重新诠释。Michael 表示，GPU 和 TPU 等硬件不再仅用于图形处理，而是成为专门加速矩阵运算的利器，用于高效完成 AI 任务中的线性代数计算。性能优化的实现则依赖于框架级工具，例如 XLA、IREE 等，它们通过高级编译技术优化 AI 模型，并支持跨平台部署。

Michael 特别强调了 Python 作为 AI 开发语言的重要性。Python 因其易用性和广泛的库支持，成为 AI 研究的“普通话”。然而，由于 Python 的运行速度较慢，许多计算密集型任务被转移到 C++ 等底层语言中执行。种种原因驱使下，这导致 Chris Lattner 创建了新的 AI 语言 Mojo，结合 Python 的解释性和 C++ 的性能优化，并基于 MLIR 构建，能够调度多种硬件设备。Mojo 结合了一些类似 Rust 的安全特性，例如默认不可变性和更高的代码安全性。Mojo 不仅仅是为 AI 设计的一种语言，Michael 认为它甚至可能成为下一代系统语言，潜在取代 C++ 的地位。

随后，Michael 进一步探讨了边缘 AI 的框架及其优化。例如，ExecuTorch 和 TensorFlow Lite分别针对移动设备和嵌入式系统进行了特别设计，用以满足资源受限场景的需求。同时，他指出，框架的互操作性至关重要，例如 ONNX 支持 AI 模型的互操作性和跨平台部署。PolyBlocks 和 TVM 等编译器也在优化高维数据处理和端到端部署方面表现出色。

他还提到，硬件加速语言如 CUDA、ROCm 和 SYCL，以及图形 API 如 Vulkan 和 OpenVX，在提升 AI 计算性能方面发挥了重要作用。新兴技术如 Triton、IREE 和 MLIR 则通过增强跨平台兼容性和优化能力，正在塑造 AI 的未来。

Michael 展望了 AI 未来发展的几个方向，包括量子加速、神经形态计算、绿色计算和边缘 AI等。他指出，AI 生态系统的标准化和互操作性将是推动创新的关键，而开发更易用的 AI 语言和生态系统，将为研究者和开发者带来更多机遇。最后，他鼓励开发者采用最佳实践，如结合多种优化技术、利用硬件特定库，以及在框架级和运行时层面进行性能调优。

刘广：Infinity Instruct: 合成指令技术的探索

本次大会上，智源基础数据研究组负责人刘广发表了《Infinity Instruct: 合成指令技术的探索》的主题演讲。他指出，指令数据集的发展与模型技术相比进展相对滞后。研究表明，大模型性能的提升高度依赖于高质量的数据。然而，人类生成数据可能会在 2028 年前达到“数据墙”的瓶颈，尤其是高质量指令数据在生成速度和存量上都面临严峻的限制。

刘广智源基础数据研究组负责人

刘广强调，Infinity Instruct 项目正是为了解决这一难题而启动。团队整合了超过1亿条现有开源数据，构建了一套两级标签体系，用于全面刻画指令数据的深度与广度。一级标签覆盖 26 个大类能力，例如数学计算、编程能力和自然语言处理；二级标签则细化为超过 1.5 万个任务类别，精准描述完成各类指令所需的知识与技能。这一标签体系不仅提升了数据筛选的效率，还为数据分析与优化提供了科学的依据。

在数据筛选过程中，Infinity Instruct 团队通过统一格式、去重和质量过滤等步骤，从 1 亿多条数据中筛选出 740 万条高质量基础能力指令数据。此外，他们还基于模型能力缺陷的诊断，补充生成了约 150 万条复杂对话指令数据。这些数据涵盖数学、代码和通用知识领域，成为支持多任务模型训练的重要基础。

Infinity Instruct 当前也对指令数据的质量提出了明确的定义，强调广度和深度的重要性。广度要求数据能够覆盖用户可能提出的所有问题，包括日常对话、学术推理和复杂问题解决等不同场景；深度则指数据在知识和能力上的综合性，尤其是应对多维度复杂任务的能力。刘广表示，相比现有仅基于数据来源或任务类型分类的局限，Infinity Instruct 通过两级标签体系实现了对数据的系统优化，不仅能够更全面地覆盖长尾任务，还能确保模型能够应对复杂问题的挑战。

在提升模型能力方面，Infinity Instruct 采用了先进的合成技术。团队以高质量的种子数据为基础，通过进化算法优化模型的泛化能力，并针对小规模测试中发现的能力缺陷生成相应数据。合成过程经过多轮迭代，每轮结合验证结果对生成策略进行调整，从而确保数据的多样性和精准性。

数学推理领域的 Infinity Math 项目进一步推动了合成技术的发展。该团队通过形式化表达，将自然语言描述的数学问题转化为通用模板，并利用程序化解法生成数值精确的数据。这种方式允许在固定模板下，通过变量替换生成无限扩展的数据，大幅丰富了模型训练所需的数据池。

刘广还提到，高质量数据不仅在知识广度和任务复杂性上提出了挑战，同时涉及与人类偏好的对齐问题。现有偏好体系通常使用固定权重评分，忽略了不同任务在偏好权重上的差异。例如，在数学推理任务中，“正确性”的权重远高于“连贯性”，而在创意写作中，“连贯性”或“冗余性”的权重则更为重要。针对这一问题，Infinity Instruct 提出了任务粒度的偏好建模方法，为不同任务分配不同的权重分布，帮助模型更好地理解人类偏好的复杂性。通过奖励模型和任务权重学习，该方法显著提升了模型在多任务场景下的表现。

现如今，随着多模态任务需求的增长，单一模态数据难以满足模型在图片、视频和文本多形态融合上的需求。为此，团队开发了 Infinity-MM 数据集，这一千万级规模的数据集整合了图片与文本指令数据，并通过先进的合成技术生成了大约800K条多轮对话训练指令。这些数据显著提升了多模态模型的推理能力，使其在多个任务评测中超越了现有开源数据集的表现。

吴凌翔：多模态大模型的实践与思考

自 ChatGPT 问世以来，对话系统发生了巨大变革。在当今智能算法的支持下，机器不仅能理解人类语言的意图，还能通过高效的人机交互完成特定任务或给出回应。人类的学习和交流过程涉及丰富的多模态信息，如何有效利用这些信息，中国科学院自动化研究所副研究员、武汉人工智能研究院算法总监吴凌翔以“紫东太初多模态大模型”为例进行了深入分享。

吴凌翔中国科学院自动化研究所副研究员、武汉人工智能研究院算法总监

吴凌翔表示，于 2021 年发布的紫东太初 1.0 多模态大模型首次引入了多任务多模态自监督学习框架，涵盖从 Token 级、模态级到样本级的学习方法，成功打造了一个能够处理文本、图像和声音的三模态大模型。随着技术的演进，紫东太初 2.0 版进一步发展了全模态多任务统一生成式学习架构，采用全模态分组对齐、分组解码及联合解码的技术，实现了全模态的低成本协同优化学习，此版本还新增了信号、3D、视频等模态，增强了模型处理和解析信息的能力。

除此之外，吴凌翔分享了团队在多模态大模型方面的几项创新成果：

首先是可变形视觉 Transformer 模型，它通过预测每个局部块的空间位置和大小，克服了传统固定滑块导致的语义结构不完整的问题。
其次是对比掩码自监督模型，该模型对图像进行动态掩码，突破学习性能弱表征单一的瓶颈，并大幅度提升收敛效率。
此外，还有数据鲁棒自监督模型，它通过对图像提取目标框，挖掘场景-目标之间的潜在关系，摆脱以单目标为中心的图像束缚，突破学习算法通用性差的问题。
在视觉与语言结合的研究方面，该团队致力于语言引导的多任务统一编码，旨在通过语言指导提升模型对多模态信息的局部感知能力。
同时，还开发了视觉-文本双指代统一大模型，该模型具备定位、分割、计数和区域描述等能力，能够高效压缩高分辨率视觉编码，减少计算复杂度，并通过设计视觉提示分支增强模型的视觉查询功能。

如今“紫东太初多模态大模型”在智慧政务、智能客服、智慧交通、智慧金融等多个领域得到广泛应用。

不过，吴凌翔指出，尽管当前多任务泛化型 AI 系统已在多个任务上表现优异，但要实现真正的通用 AI 仍需克服诸多挑战，比如提高能效比、解决实际应用场景中的复杂问题等。未来，吴凌翔表示，具身智能、脑科学与 AI 的融合以及跨学科合作等方向都具有探索的机会。

鱼哲：生成式 AI 落地对架构带来的挑战与机遇

在《生成式 AI 落地对架构带来的挑战与机遇》的演讲中，Lepton AI 创始成员鱼哲深入探讨了生成式 AI 的核心目标和挑战。他指出，AI 可以被视为一种旨在模仿和增强人类智能的技术体系，使机器能够完成通常需要人类智慧才能完成的任务，包括但不限于学习、推理、问题解决、知识表示和规划等。

鱼哲 Lepton AI 创始成员

在生成式 AI 的落地过程中，有两个关键点值得特别关注：一是最大化机会（Maximize the chances），通过多种方法提升机器完成任务的可能性。在此过程中，鱼哲引入“颗粒度”（Granularity）的概念，用来衡量操作模型的细致程度。例如，高颗粒度场景需要高度精细的指导，如代码生成；而低颗粒度场景对细节的要求较低。二是选择任务（Choose the goal），为 AI 分配适合的任务时必须考虑“责任度”（Accountability）。在高责任度场景下（如医疗诊断或金融咨询），准确性至关重要，任何错误都可能带来严重后果。

基于“颗粒度”和“责任度”两个维度，鱼哲将 AI 的应用场景划分为四个象限，揭示了不同应用场景的需求和挑战：

1. 第一象限：高颗粒度 + 高责任度

典型应用：医疗诊断、企业生产中的关键任务。

这些场景中，任何错误都可能导致严重后果。客户关注的首要因素是模型的选择（Choice of Models），他们往往希望尽快尝试各种不同模型以应对模型更新迭代的快速变化。其次是生成速度（Speed of Generation），因为速度直接影响应用效果；最后才是生成成本（Cost of Generation），这通常在高责任度场景中不是首要考虑。

2. 第二象限：低颗粒度 + 高责任度

典型应用：通用搜索、语音生成、语音识别等比较标准化的场景。

在这些场景中，AI 应用的操作复杂度较低，但对结果可靠性的要求极高。生成速度和生成成本是客户最为关注的因素。鱼哲提到，例如 Eleven Labs 的语音生成，其生成成本在市场中备受关注，尤其是在需要实时响应的场景中。

3. 第三象限：低颗粒度 + 低责任度

典型应用：艺术创作、娱乐内容生成。

这类应用对结果准确性要求较低，用户对偏差具有较高容忍度。AI 在此主要用于提升娱乐性和创造力。企业在这一象限往往处于尝试不同模型的阶段，其次才会关注生成成本和速度。

4. 第四象限：高颗粒度 + 低责任度

典型应用：虚拟角色互动。

这些场景需要频繁交互和调整，但对结果的精准度要求较低。例如，与游戏中的虚拟角色互动，用户可以多次尝试直到获得满意的结果。客户关注的重点依次是模型选择、生成速度和生成成本。在这个象限中，模型仍处于快速推陈出新的阶段。

结合以上生成式 AI 落地的机遇与挑战，鱼哲总结了硅谷许多成功 AI 初创企业的共同特征：

1. 领域知识（Domain Know-how）：对应用场景和用户需求有深刻理解。

2. 数据积累（Data）：拥有丰富的行业数据，为模型训练和优化提供基础。

3. 快速上市（Time to Market）：能够迅速响应市场需求并快速迭代产品。

4. 基础设施（Infrastructure）：以稳健的基础设施支撑产品扩展和升级。

鱼哲认为，这些要素是生成式 AI 在激烈竞争中取得成功的关键，也是推动技术落地和行业变革的重要动力。

孟令公：大模型推理性能提升实践

随着大模型规模的不断增大，如何高效进行推理成为亟待解决的问题。得物机器学习高级专家孟令公在《大模型推理性能优化与实践》主题演讲中指出，许多公司在训练并部署大模型后，需要专用的大模型推理引擎来加速推理过程。用户发送请求时，首先传递给应用程序，而应用程序会调用大模型推理引擎触发推理逻辑。推理引擎的核心目标是提升推理速度和吞吐量，同时兼容多种大模型（如 Llama 系列、千问系列等）和硬件（如 GPU、CPU、NPU）。

孟令公得物机器学习高级专家

孟令公分享道，大模型推理引擎的核心模块包括调度器、KV Cache管理、Prefill阶段和Decode阶段，这些模块是性能优化的关键。

KV Cache的引入使得每个推理请求能够维护历史Key-Value缓存，以支持前向传播和自回归生成。通过缓存先前时间步的键和值，可以避免在每个时间步重复计算先前的注意力内容，从而大幅提升生成效率。然而，随着生成 Token 数量的增加，KV Cache 的显存占用不断增大。孟令公指出，频繁的申请与释放可能导致显存碎片化，这类似于传统内存管理中的问题。

为了解决这一问题，VLLM推理引擎在实践中引入了Paged Attention技术作为解决方案。Paged Attention是一种受操作系统虚拟内存和分页启发的算法，通过将注意力的键和值缓存分成固定大小的页，并以非连续方式存储，从而高效管理显存，减少碎片，提高吞吐量。此外，该技术支持多序列共享内存，例如在并行采样时共享提示词缓存，进一步降低显存开销并提升性能。由于采用了Paged Attention，vLLM的吞吐量比 Hugging Face高8.5倍至15倍。

此外，孟令公表示，在多轮对话场景中，大模型推理常面临上下文高重复性的问题。用户的每次请求中往往包含大量重复的 Prompt 内容，而这些重复部分的重复计算会导致资源浪费和响应延迟的增加。为了解决这个问题，SGLang推理引擎还引入了一种名为Radix Attention的方法来优化显存管理。Radix Attention通过对重复Prompt 部分的高效缓存管理，在高并发场景下保持了更低的响应延迟。这种优化特别适合多轮对话、少样本学习等场景，因为这些场景中输入内容的重复性较高，通过缓存复用可以极大提升GPU资源的利用效率。

推理引擎的优化不仅依赖于缓存管理，还需要在推理过程中的两个关键阶段——Prefill和Decode——进行优化。

Prefill阶段： 引擎对输入Prompt进行批量计算，该阶段具有并行计算的特点，能够充分利用GPU资源。通过Chunk Prefill技术，将长Prompt拆分为若干固定长度的小块（如512个Token）逐块处理，可以避免GPU 资源长时间被单个请求占用。此外，Prefill阶段与Decode阶段可以并行处理，从而进一步提高QPS。
Decode 阶段： 自回归地逐个生成新的Token。由于生成的每个Token依赖于之前的输出，因此Decode阶段通常是串行的，效率受限。优化Decode的关键在于Batching和Speculative Decoding。通过Batching将多个Decode 请求合并成批次提交GPU进行处理，可以提高利用率，避免单个请求导致的资源闲置。Speculative Decoding 则通过引入较小的草稿模型快速生成候选Token序列，再利用目标大模型验证其准确性，从而降低响应延迟。

在部署大模型时，多业务场景下的资源消耗也是一个挑战。孟令公提到，得物采用了多LoRA技术以节省大模型部署成本。LoRA方法将大模型的参数矩阵拆分为两个低秩矩阵，仅对其进行微调生成参数文件。在实际部署中，可以加载多个 LoRA文件并复用基础大模型，从而在一块显卡上同时支持多个业务场景，对推理速度和吞吐量的影响几乎可以忽略。

此外，模型层的优化也是性能提升的重要方向。例如，通过 AWQ（Accurate Weight Quantization）和 GPTQ（Generalized Post-training Quantization）对模型进行量化，可以在保持性能的同时减少模型体积和计算量。而底层库的优化，如使用 PyTorch2.0 的 Torch Compile 和 NVIDIA 的 CUDA Graph 技术，则进一步提升了 GPU 性能。

彭厚文：腾讯混元多模态技术实践与思考

多模态技术已成为生成式 AI 中不可避开的重要领域，其核心在于通过对不同模态数据的理解和协同处理，实现跨模态信息的融合与生成。在本次大会上，腾讯混元多模态模型技术专家彭厚文带来了《腾讯混元多模态大模型技术实践与思考》的主题演讲。彭厚文透露，腾讯混元团队目前正专注于文本、图像、视频、音频四个模态生成技术的研发。

腾讯混元多模态模型负责人彭厚文

其中，彭厚文以图视生文为例，详细介绍了腾讯混元团队在这一维度的最新进展与技术细节。他表示，腾讯混元的多模态图视生文模型主要包括三大的部分：

视觉编码器：采用 Vision Transformer (ViT)，不仅能处理图片，还能处理视频，通过参数复用来理解多张图片或多帧视频。
视觉 - 语言适配器：作为连接视觉和语言模型的桥梁，帮助模型理解不同模态间的关系。
大语言模型：作为信息处理的中枢，采用 MoE 架构，以增强模型的扩展性和处理多模态数据的能力。

在整个预训练阶段，彭厚文指出，腾讯混元大模型的数据来源非常丰富，包含图片、文本、视频、多图及网页端等多种数据源。同时，采用多阶段预训练策略，针对不同模态，采用不同数据进行训练，逐步提升模型性能。

在后训练阶段，主要涉及精调，构建高质量的指令数据，涵盖基础识别、OCR、图表、数学、代码等多个领域，通过细致分类确保模型覆盖广泛的应用场景。在数据处理维度，则主要使用包括预处理、筛选、去重、泛化等步骤，以确保数据的质量和多样性。

在研发多模态大模型的过程中，彭厚文结合腾讯混元的实践经验，分享了几个维度的技术思考：

数据。数据的质量比数量更重要，数据的多样性也至关重要。然而，高质量的数据难以获取，因此需要合成大量高质量的数据，包括对真实数据的改写、扩充和思维链的合成。为了覆盖更多复杂的指令，通过合成方法使指令数据分布更接近用户的真实需求。在整个研发过程中，还需要构建高效的自动化数据获取和处理链路，提升研发效率。
模型结构。腾讯混元团队主要采用了 MoE 架构作为多模态的基座，其中主要原因是，在相同的训练成本下， MoE 性能优于稠密模型，且具有更好的扩展性，能够融合多种模态。
模型训练：目前多模态大模型的训练大多是分阶段训练，即不同模块分阶段训练，从低分辨率到高分辨率，从较高质量数据到更高质量数据，提高训练效率。
模型推理。彭厚文表示，模型推理最重要的目标是减少延时，增加并发。在推理优化方面，为了提高多模态模型的推理效率，引入了 KV Cache 压缩。同时，还采用引入量化技术、Prefilling 等技术，来提升推理速度和效率，缩短用户体感的首次响应时间。
强化学习中的偏好对齐：在强化学习中，目前有两种主要的方法，一种是离线的强化学习，一种是在线的强化学习。离线的强化学习训练更加稳定，但方法泛化性较弱；在线的强化学习泛化性更强，因此大多数情况下会采用在线的强化学习。彭厚文表示，在线的强化学习中，准确、及时、精确的奖励反馈对于驱动大模型能力的提升非常关键。
模型评测：如今行业广泛关注并使用公开 Benchmar k 进行评测，但 Benchmark 评测存在一定程度的偏差，与真实用户场景不同。因此，混元大模型不仅关注 Benchmark 评测，还会采用真实用户进行 AB 测试，覆盖不同场景和维度，确保模型对齐真实用户需求。

目前，腾讯混元多模态大模型已在腾讯内部 700 多个业务场景中广泛应用，包括广告理解、短视频多模态理解、搜索、内容审核等领域。面向未来，彭厚文表示，腾讯混元团队将从两个维度进一步推进多模态大模型的发展：

广度：继续研发全模态大模型，覆盖更多模态，设计统一的多模态模型架构。
深度：提升模型的智能和可靠性，探索智能的边界，实现模型自我进化。

圆桌对话：大模型系统技术实践

在最后的圆桌对话环节中，智源基础数据研究组负责人刘广、智谱 AI CodeGeeX 高级算法工程师张少博、快手科技快意大模型知识增强研发负责人毛航宇、Dify 首席架构师姜勇，在 Boolan 首席咨询师李沫南的主持下，围绕“大模型系统技术实践”展开了深入分享，涵盖了系统能力划分、开发工具链的不足以及大模型的实际应用方向等核心议题。

张少博在分享中提到，大模型系统能力的设计应注重功能的可重复性与工程化特质。那些不需要频繁调整、不会对系统或数据造成不可逆影响的操作，适合被集成到系统底层，以此提升效率和稳定性。与此同时，用户的自定义需求则应交由开发者灵活处理。例如，在智谱清言平台，涉及到内容生成、定制化操作以及代码插件（如代码生成或解释功能）的场景，可以将这些操作封装成标准化的工程模块。这种方法不仅能优化开发流程，还能确保操作的统一性和可靠性，为系统建设提供了可行的方向。

刘广则从数据处理的角度分析了大模型现有开发工具链中面临的痛点。他指出，大模型开发正在经历从以人为中心向以模型为中心转变的过程，数据标注逐渐由人工向自动化过渡。然而，目前缺乏系统化的解决方案来高效管理大规模数据标注和模型验证。尽管一些基于工作流的工具能够辅助完成初步任务，但当这些工具需要与数据库、工作流、大模型和多模态模型结合进行多集群部署和推理时，数据处理流程的复杂性显著增加。这种系统化的缺失，不仅对效率造成影响，还在数据一致性管理上形成了阻碍。

毛航宇围绕大模型的应用场景提出了深入见解。他认为，大模型虽在多个领域表现出强大潜力，但应用场景的选择应基于模型当前的实际能力，如理解、生成、推理和决策等。在此基础上，可以按照 ToC（面向消费者）和 ToB（面向企业）的方向进一步细分应用领域，明确大模型适合覆盖的场景。不过，他指出，尽管近年来关于大模型编程的讨论备受关注，但能够实际落地的商业编程工具并不多，主要原因在于编程任务超出了当前模型的能力范围，譬如定义变量时可以选择无数个名称（如a、b、ab等），这导致代码非常容易出现幻觉时，倘若代码量达到数千行，找到潜在的 Bug 将变得极其困难。相比之下，AI Agent 具备较高的适配性，因为任务中的参数和 API 使用通常是事先明确的，具有较高的结构化特点，是大语言模型最有潜力的应用方式之一。

姜勇则持有不同的看法。他表示，在现代编程实践中，代码自动补全等工具已成为开发者的重要助手，而大模型可以在已有代码基础上，根据明确需求生成代码片段，大幅提升开发效率。同时，大模型也可以进一步在企业知识库管理方面具有独特优势。例如，会议记录的自动整理和归档可以显著提升企业的信息管理效率，帮助企业在数字化转型过程中更高效地管理大量文档。此外，他还指出，人们对大模型的期望有时过于苛刻，追求其输出的绝对正确性。事实上，许多应用场景并不需要 100% 准确率。如果大模型能将工作量减少 60%，已是非常有价值的突破。大模型的真正意义在于提升效率，即使不能完全解决问题，显著减轻人工负担也是一个巨大的进步。

版权属于原作者，仅用于学术分享