专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

LLM被推翻？Meta重磅开源LCM：大概念模型！引爆全部生成任务！

计算机视觉工坊 · 公众号 · · 2024-12-16 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Large Concept Models: Language Modeling in a Sentence Representation Space

作者：The LCM team, Loïc Barrault, Paul-Ambroise Duquenne, Maha Elbayad, Artyom Kozhevnikov, Belen Alastruey, Pierre Andrews, Mariano Coria, Guillaume Couairon, Marta R. Costa-jussà, David Dale, Hady Elsahar, Kevin Heffernan, João Maria Janeiro, Tuan Tran, Christophe Ropers, Eduardo Sánchez, Robin San Roman, Alexandre Mourachko, Safiyyah Saleem, Holger Schwenk

机构：FAIR at Meta

原文链接：https://arxiv.org/abs/2412.08821

代码链接：https://github.com/facebookresearch/large_concept_model

1. 导读

LLM已经彻底改变了人工智能领域，并且已经成为许多任务的事实上的工具。LLMs的现有技术是在令牌级别处理输入并生成输出。这与人类形成了鲜明的对比，人类在多个抽象层次上操作，远远超出了单个单词，以分析信息和生成创造性内容。在这篇文章中，我们提出了一种基于明确的高级语义表示的体系结构，我们称之为概念。概念是语言和模态不可知的，代表了流程中更高层次的想法或行为。因此，我们建立了一个“大概念模型”。在这项研究中，作为可行性的证明，我们假设一个概念对应一个句子，并使用现有的句子嵌入空间SONAR，它支持多达200种语言的文本和语音模态。大概念模型被训练以在嵌入空间中执行自回归句子预测。我们探索了多种方法，即MSE回归，基于扩散的生成的变体，以及在量化声纳空间中操作的模型。这些探索是使用1.6B参数模型和1.3T数量级的训练数据来执行的。然后，我们将一个架构扩展到7B参数的模型大小和大约2.7T令牌的训练数据。我们对几个生成性任务进行了实验评估，即摘要和一个新的摘要扩展任务。最后，我们展示了我们的模型对许多语言表现出令人印象深刻的零镜头泛化性能，优于相同大小的现有LLM。我们模型的训练代码是免费提供的。

2. 引言

大型语言模型（LLMs）正主导当前自然语言处理领域的研究，并且随着它们最近向更多模态（即图像、视频和语音）的扩展，它们似乎已成为通向人工智能的公认技术。LLMs在大量任务上确实取得了令人瞩目的表现，例如为常识性问题提供详细答案、辅助进行长文档分析、起草不同类型的消息、编写或调试代码。从零开始构建LLM需要访问巨大的计算资源来处理越来越多的数据并训练模型，这些模型的规模现已超过4000亿参数。LLMs中的知识获取高度依赖数据驱动，并且将它们扩展到更多语言或模态通常需要通过注入额外的（合成）数据来实现覆盖。推荐课程：彻底搞懂大模型数学基础剖析、原理与代码讲解

现有的LLMs格局可以分为两大类：一类是开放模型，如Llama、Mistral、Bloom或Falcon；另一类是封闭模型，如Gemini、GPT或Claude。值得注意的是，所有这些模型都基于相同的底层架构：基于Transformer的仅解码器语言模型，该模型经过预训练，可根据长段落的先前标记来预测下一个标记。尽管LLMs取得了不可否认的成功并持续进步，但目前所有的LLMs都缺少人类智能的一个关键特征：在多个抽象层次上进行明确的推理和规划。人类大脑不仅仅在单词层面运作。我们通常通过自上而下的过程来解决复杂任务或撰写长文档：首先，我们在更高层次上规划整体结构，然后，逐步在低层次的抽象上添加细节。有人可能会争辩说，LLMs正在隐式地学习层次结构表示，但我们主张具有明确层次结构的模型更适合创建连贯的长篇输出。

想象一位研究人员正在进行15分钟的演讲。在这种情况下，研究人员通常不会通过写出将要发出的每一个单词来准备详细的演讲稿。相反，他们会概述想要传达的高层想法的流程。如果他们多次进行相同的演讲，实际说出的单词可能会有所不同，演讲甚至可以用不同的语言进行，但高层抽象想法的流程将保持不变。同样，当撰写关于特定主题的研究论文或文章时，人类通常首先准备一个大纲，将整篇文档划分为各个部分，然后迭代地进行完善。人类还会在抽象层面上检测和记住较长文档中不同部分之间的依赖关系。如果我们扩展之前提到的研究写作示例，那么跟踪依赖关系就意味着我们需要为引言中提到的每个实验提供结果。最后，在处理和分析信息时，人类很少会考虑大型文档中的每一个单词。相反，我们使用层次化的方法：我们记住应该在长篇文档的哪一部分搜索以找到特定的信息。

据我们所知，这种在抽象层面上处理和生成信息的明确层次结构，与任何特定语言或模态的实例化无关，在当前所有的LLMs中都找不到。在本文中，我们提出了一种新方法，该方法不再局限于标记级别的处理，而是更接近在抽象嵌入空间中进行（层次化）推理。这个抽象嵌入空间旨在独立于内容表达所使用的语言或模态；换句话说，我们的目标是纯粹在语义层面上对底层推理过程进行建模，而不是它在特定语言中的实例化。为了验证我们的方法，我们将研究限制在两个抽象层次上：子词标记和概念。我们将概念定义为抽象的原子思想。在实践中，概念通常对应于文本文档中的一个句子，或等效的语音表述。我们认为，与单个单词相比，句子是实现语言独立性的合适单位。这与当前严重依赖英语和标记的LLMs技术形成了鲜明对比。

我们的基本思想可以基于任何具有可用编码器和解码器的固定大小句子嵌入空间。特别是，我们可以尝试训练一个新的嵌入空间，该空间专门针对我们的推理架构进行了优化。在本文中，我们选择了现有且可免费获得的句子嵌入SONAR。SONAR支持200种语言的文本输入和输出，76种语言的语音输入，以及英语的语音输出。

图1-左以摘要任务为例，可视化了在嵌入空间中的推理，该任务通过嵌入空间上的一个函数来实现，该函数将五个概念表示映射为两个。图1-右总结了整体架构和处理流程。输入首先被分割成句子，每个句子使用SONAR进行编码，以获得一系列概念，即句子嵌入。然后，这个概念序列由大型概念模型（LCM）处理，以在输出端生成一个新的概念序列。最后，生成的概念由SONAR解码为一系列子词。编码器和解码器是固定的，并且未经训练。需要强调的是，LCM输出的未更改概念序列可以被解码成其他语言或模态，而无需再次执行整个推理过程。同样地，由于它仅对概念进行操作，因此可以在零样本设置下对任何语言或模态的输入执行特定的推理操作，如摘要。总而言之，LCM既不知道输入的语言或模态，也不会以特定语言或模态生成输出。我们探索了多种架构来训练LCM，特别是扩散模型的几种变体。最后，我们设想了一个在概念之上的额外抽象层次，它可能对应于对段落或小节的简短描述。

在一定程度上，LCM架构类似于Jepa方法，后者也旨在预测嵌入空间中下一个观测值的表示。然而，与Jepa更注重以自监督方式学习表示空间不同，LCM侧重于在现有嵌入空间中进行准确预测。

3. 主要贡献

我们通用的大型概念模型方法的主要特点如下：

• 在超越标记的抽象、语言和模态无关层面上进行推理：

– 我们对底层推理过程进行建模，而不是它在特定语言中的实例化。

– LCM可以同时对所有语言和模态进行训练和知识获取，有望以无偏见的方式实现可扩展性。

• 明确的层次结构：

– 提高长篇输出对人类的可读性。

– 方便用户进行局部交互式编辑。

• 处理长上下文和长篇输出：

– Vanilla Transformer模型的复杂性随着序列长度的增加而二次增加。这使得处理大上下文窗口具有挑战性，并且已经开发了几种技术来缓解这个问题，例如稀疏注意力或LSH注意力。我们的LCM在至少短一个数量级的序列上运行。

• 无与伦比的零样本泛化能力：

– 无论LCM是在哪种语言或模态上进行预训练和微调，它都可以应用于SONAR编码器支持的所有语言和模态，而无需额外的数据或微调。我们报告了文本模态下多种语言的结果。

• 模块化和可扩展性：

– 与可能遭受模态竞争影响的多模态LLMs不同，概念编码器和解码器可以独立开发和优化，而不会相互竞争或干扰。

– 可以轻松地为现有系统添加新的语言或模态。

为了促进该领域的研究，我们将LCM训练代码以及支持多达200种语言和多种模态的SONAR编码器和解码器免费提供。

4. 设计原则

这项工作的动机是在比标记更高的概念层次上进行推理。这需要一个高度语义化的嵌入空间。我们选择SONAR，因为它在xsim或xsim++等多个语义相似性指标上表现最佳，并且已在翻译的大规模双语文本挖掘中成功应用

SONAR文本嵌入空间是作为编码器/解码器架构进行训练的，具有固定大小的瓶颈层，而不是交叉注意力（见图2）。训练标准结合了200种语言与英语之间的机器翻译目标、去噪自编码以及在嵌入瓶颈层的显式均方误差（MSE）损失。一旦训练好文本嵌入空间，就采用教师-学生方法来将SONAR空间扩展到语音模态。

我们的LCM（逻辑推理模块）直接在SONAR概念嵌入上操作，因此可以对所有支持的语言和模态进行推理。表1比较了几种其他大型语言模型（LLM）的语言覆盖范围。LCM支持的语言比其他模型多得多，特别是许多低资源语言。除了文本模态外，SONAR还支持76种语言的语音输入和英语语音输出。我们还为美国手语（ASL）开发了一个实验性编码器。所有这些编码器和解码器都是免费提供的。SONAR GitHub存储库中列出了所支持语言的准确列表。

为了训练和评估LCM，我们需要将原始文本数据集转换为SONAR嵌入序列，每个嵌入对应一个句子。处理大型文本语料库存在几个实际限制。首先，由于存在错误、特定格式问题或其他噪声源，文本的精确句子分割可能具有挑战性。这要求我们应用稳健的自动文本分割技术。其次，一些句子（即使结构良好）可能非常长且复杂，这可能会对编码后的SONAR嵌入质量产生负面影响。这在科学领域的文本中尤为普遍。以下，我们讨论了句子分割的策略以及它们对SONAR编码的影响。

句子分割分析 我们已确定两种潜在的句子分割技术；由于我们正在探索多语言数据，因此我们关注具有广泛语言覆盖范围的句子分割器：

SpaCy分割器（SpaCy）是一个成熟的多语言自然语言处理（NLP）工具包，它提供了一种基于规则的句子分割方法。SpaCy已在高资源语言上进行了充分测试。

Segment any Text（SaT）提供了一套模型和适配器，可以在标记级别预测句子边界。SaT旨在具有抗扰动性，特别是避免过度依赖标点符号和大写字母。这在这些传统标记经常缺失的领域很有价值。然而，SaT分割的质量取决于“适当”分割概率阈值的选择。

我们还通过加入最大句子长度（以字符为单位）限制来定制这两种方法。我们将这些扩展分别称为SpaCy Capped和SaT Capped。对于SpaCy，我们使用基于标点符号的规则方法将长句分解为更小、逻辑上连贯的片段。对于SaT，我们利用提供的分割概率估计来确定下一个最佳潜在分割点。

为了衡量给定分割器的有效性，我们使用AutoBLEU来评估重构句子的质量。它定义为BLEU分数，用于比较对一段编码后的SONAR向量进行解码后的文本与参考段落。良好的分割将产生可以编码然后解码而不会损失信号的段落，从而获得更高的AutoBLEU分数。

对于此分析，我们从预训练数据集中抽取了10,000个文档，大约代表500,000个句子。使用每个分割器处理这些文档，对句子进行编码然后解码，并计算AutoBLEU分数。我们根据原始句子的长度对结果进行分层。

如图3所示，并在200个字符的限制下，SaT Capped方法显示出相对于SpaCy Capped的轻微但一致的优势。然而，这两种现成的分割器在所有句子长度上都表现出明显的性能不足。对于超过250个字符的句子，这种性能下降尤为明显，这突显了在不设置限制的情况下使用这些分割器的局限性。

我们的下一个概念预测的基线架构是一个标准的解码器专用转换器，它将前面的概念序列(阅读句子嵌入)转换成未来的概念序列。如图4所示，Base-LCM配备了一个“PostNet”和一个“PreNet”。PreNet将输入声纳嵌入标准化，并将它们映射到模型的隐藏维dmodel。

5. 实验结果

预训练评估是在涵盖不同领域的四个语料库（ROC-stories，C4，Wikipedia-en和Gutenberg）中采样的子集上进行的。我们从每个语料库中抽取了两个不同的子集（开发集和测试集），使用开发集来调整推理超参数，并在测试集上报告结果。评估语料库的统计数据如表2所示。预训练评估的结果如表3所示。

首先，尽管基于扩散的LCM和Quant-LCM变体在学习目标上存在重要差异，但它们的ℓ2和ℓ2-r分数相似。唯一显示出明显较低ℓ2分数的模型是基础LCM（Base-LCM）。这是意料之中的，因为基础LCM在训练过程中有效地优化了ℓ2分数。然而，与其他模型相比，其ℓ2-r分数并未有所提升。这可以通过以下事实来解释：当存在许多合理的下一句延续时，基础LCM会在SONAR空间中生成它们的平均值（而不是采样其中一个合理的模式），这可能并不对应SONAR空间中的任何相关点。这一假设也通过基础LCM在一致性和互信息（MI）分数方面的较差表现得到强调。

我们没有发现扩散LCM和Quant-LCM变体在一致性（CA）分数上存在显著差异。相反，与Quant-LCM相比，基于扩散的模型的互信息（MI）分数始终更高。同时，扩散LCM倾向于在生成的嵌入中对上下文进行更多释义，这也与MI分数的增加相关。尽管如此，Quant-LCM变体在MI指标上显著优于基础LCM。现在，比较不同的变体，QuantLCM-c优于Quant-LCM-d建模变体：一个假设是，使用交叉熵损失预测码本索引比均方误差（MSE）目标更难，而Quant-LCM-c可以更容易地学习下一句嵌入的左上下文向量的组合。

对于扩散LCM，当我们查看所有指标和数据集时，并未观察到单塔（One-Tower）和双塔（TwoTower）之间存在任何一致差异。值得注意的是，总体而言，在处理SONAR空间中的下一句预测任务时，基于扩散的方法与其他所有模型相比，给出了明显更好的结果。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等