专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
湖南日报  ·  美得很!!! ·  14 小时前  
51好读  ›  专栏  ›  智驾实验室

多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !

智驾实验室  · 公众号  ·  · 2025-03-08 08:00

正文


备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群


迄今为止,大多数大规模视觉-语言模型(LVLMs)主要在英语数据上训练,这使得它们难以理解非英语输入,并且无法生成所需的目标语言输出。现有的努力通过添加多语言训练数据来减轻这些问题,但这种做法大多是临时的,缺乏对不同语言训练混合如何影响不同语言群体的洞察。在这项工作中,作者全面调查了大规模多语言LVLM的训练策略。首先,作者进行了一系列多阶段实验,涵盖13个下游视觉-语言任务和43种语言,系统地考察了:

(1)在不降低英语性能的前提下可以包含多少种训练语言;

(2)预训练和指令微调的最佳语言分布;

(3)指令微调数据。进一步地,(4)作者研究了如何提高多语言文本图像理解,并为此任务引入了一个新的基准。

令人惊讶的是,作者的分析揭示了一个事实: 可以(i)同时包含多达100种训练语言(ii)仅使用25%-50%的非英语数据,从而极大地提高多语言性能,同时保持强大的英语性能。

作者进一步发现,(ii)在预训练和指令微调中包含非英语OCR数据对于提高多语言文本图像理解至关重要。最后,作者将所有发现整合起来,训练了Centurio,一个100语言LVLM,在涵盖14个任务和56种语言的评估中提供了最先进的表现。

1. 引言

在人工智能(AI)的快速发展中,本论文旨在探讨该领域的最新进展和未来趋势。通过综合分析现有研究,本文将为读者提供一个全面的理解,包括AI技术的关键概念、应用领域以及所面临的挑战。随着研究的深入,作者将进一步阐述如何通过技术创新推动AI的发展,以及如何确保其应用的安全性和公正性。

大型视觉-语言模型(LVLMs)将大语言模型 扩展到能够原生地理解图像作为输入。这利用了最近大语言模型在语言生成和推理能力方面的惊人表现,以实现视觉-语言任务,如图像标题生成或视觉问答。

然而,大多数模型仅使用英语数据进行训练。这限制了其他语言使用者的访问权限,因为即便底层大语言模型展现出多语言能力,这些模型仍存在多个局限性:无法理解非英语指令(施奈德和西塔拉姆,2024年),难以处理图像中的非英语文本内容(唐等,2024年),并且常常无法以正确的语言回复,即它们存在语言忠诚度问题(欣克等,2024年)。为了改善这些问题,LVLMs需要使用多语言数据组合进行训练。然而,由于可用于训练的数据量总是有限的——受限于时间、计算资源、财务成本或其他约束,因此跨不同语言的有效数据分配至关重要。然而,现有的多语言LVLM研究对此关键问题——最优训练数据组合——的关注却微乎其微(例如,盖格尔等,2023a;孙等,2024a;马扎等,2024b)。

在这项研究中,作者全面调查了LVLM训练混合的语言分布空间,重点关注假设的包括语言数量与跨语言性能之间的权衡——在固定训练预算下,按可用数据量对这些语言进行分组。作者通过将高质量英语数据进行机器翻译来获取不同数据组成的多个模型,并在涵盖43种不同语言(从资源较少的伊博语到资源丰富的德语)的13个下游任务中进行基准测试。作者关注四个研究问题,每个问题都建立在先前问题的基础上,旨在确定最优的多语言训练混合:RQ1:最优的训练语言数量是多少?RQ2 & RQ3:在(RQ3)预训练数据和(RQ2)指令调整中,数据在语言间的最优分布是什么?RQ4:如何提高对图像中多语言文本的理解?为了衡量RQ4的进展,作者引入了SMPQA(合成多语言情节问答),这是一个用于测试多语言OCR能力的创新数据集,覆盖11种语言和7种书写系统。

图1:探讨多语言能力的影响因素:(1)训练数据中的语言;(2)训练数据中语言的分布;(3)整合多语言OCR样本以理解图像中的非英文文本。

作者的研究结果令人鼓舞,尽管有些出乎意料。1. 作者没有观察到臭名昭著的“多语言诅咒”(Conneau等,2020;Pfeiffer等,2022b),并发现逐渐增加语言数量只会带来微不足道的“性能税”:从7种语言扩展到100种语言,大大提升了训练数据中新加入的语言的性能,尤其是在语言忠实度方面,同时对于之前已加入的所有语言,性能水平基本保持不变。

作者发现,接触一种语言的重要性大于增加该语言的学习部分,特别是,即使大部分训练数据仍然是英语,也能降低获取其他语言训练数据的成本(例如,通过机器翻译)。具体来说,作者发现将25%至50%的训练数据转换为多语言可以带来良好的性能,有时数据量增加甚至会降低性能;在预训练阶段,拥有更多多语言数据更有益,但也超过50%后会出现饱和。在文本图像问题方面,作者得到了混合的结果:虽然将(合成的)OCR数据与每种语言5,000个样本结合可以迅速提高拉丁字母语言的性能,但对于其他语系的语言则并非如此。

最后,为了展示作者研究发现的实际影响,作者训练了Centurio,这是一个拥有100种语言的超级多语言LVLM,作者根据发现的最“优化”的语言数据分布,对训练阶段进行了调整。Centurio在14个任务上实现了最先进的结果,与Qwen2-VL(王等,2024b)、InternVL 2.5(陈等,2024d)和Pangea(岳等,2024a)等流行的多语言开放权重LVLM在英语和其他高资源语言上的性能相当,但在低(较)资源语言上超越了它们。

多语言能力驱动力分析

训练(多语言)LVLMs的设计空间十分广阔,涵盖了从选择图像编码器、图像编码器与LLM之间的对齐模块,到选择训练数据等方面。(Karamcheti等人,2024年;Laurencon等人,2024a;Tong等人,2024年)。对所有选择的笛卡尔积进行穷举搜索是不切实际的。在本研究中,作者重点评估了在预训练和指令调整阶段训练数据的语言分布。直观来看,这应该是影响LVLM多语言能力的主要因素。图1展示了作者分析的范围。作者在保持数据量不变的同时,不断将语言群组从资源最丰富到最稀缺,按照(Joshi等人,2020年)的“资源度”等级添加到训练组合中。除了语言数量,作者主要关注在英语和其他所有语言之间分配训练预算。最后,作者认为,除了在多种语言中理解指令和生成输出之外,真正多语言能力的LVLM还必须能够“理解”图像中的多语言文本。因此,作者特别关注针对多语言文本图像问题的训练适应性。

2.1 实验设置

架构。在作者的实验中,作者采用了流行的LLaVA架构(刘等,2023b,a):一个图像编码器(SigLIP S0400/384(Zhai等,2023))将图像编码成一系列视觉 Token ,这些 Token 通过一个两层的MLP映射到LLM嵌入空间;然后这些 Token 与文本 Token 拼接,并输入到LLM中。作者选择Phi 3.5(Abdin等,2024b)作为作者的LLM,因为它展现出强大的多语言性能,同时其小巧的尺寸(3.8B参数)使得实验计算更加高效。为了证明作者的发现对其他LLM也适用,作者使用Llama 3(8B)(Llama团队,2024)作为LLM Backbone ,重复进行了一部分分析实验(参见附录D.1)。

训练设置。在借鉴先前的研究成果(Liu等,2023a;Tong等,2024)的基础上,作者将训练过程分为两个阶段:1)预训练:模型仅使用密集图像字幕进行图像字幕生成训练;2)指令微调:模型在多种视觉-语言任务混合训练中使用多个公开数据集。尽管预训练有助于提升下游任务的表现,但对于LVLM在下游任务上良好表现并非严格必需(Karamcheti等,2024)。为了降低分析的计算成本(即避免将每个语言分布与预训练数据耦合,并与指令微调数据的每个语言分布耦合),作者在寻找指令微调的最优语言分布时跳过预训练。然后,在指令微调数据固定的情况下,作者寻找预训练数据的最佳语言分布。在这两个阶段中,作者冻结图像编码器,仅更新MLP和LLM(使用LoRA(Hu等,2022))的权重。更详细的说明见附录A。

训练数据。作者的控制实验需要在广泛的语言范围内具有可比性的数据。现有的多语言数据集,仅适用于某些任务,且仅限于少数几种语言,因此无法满足作者的需求。因此,作者转而使用机器翻译(MT),并采用开源的NLLB模型(Costa-jussa等人,2022)来翻译易于获取的英文数据集。尽管机器翻译会导致数据质量下降,尤其是在资源较少的语言中,但它是获取大规模多语言视觉-语言训练数据的唯一选择。此外,从“低质量”的机器翻译数据中获得的好处,可以保证通过更高质量的翻译(例如,商业机器翻译或人工翻译)达到或超过。作者的指令调整数据来自LLaVA-Next(刘等人,2024),包含0.77百万个样本。在预训练阶段,作者使用了来自ShareGPT4v(陈等人,2024b)的1.3百万个密集描述。更多细节请见附录B。

评估。作者构建了一个包含13项任务、涵盖43种语言的广泛测试集,以评估作者模型的跨语言能力。参照Joshi等人(2020)的研究,作者将测试的语言分为五个层次,其中T5包括资源丰富的语言(例如,德语、中文)和T1包括极度资源匮乏的语言(例如,毛利语、泰卢固语)。作者测试集中的任务分为两类:

(1)判别性任务,其中的问题需要二选一(“是/否”)或多项选择答案;

(2)开放式生成任务,其中模型需要以目标语言生成输出(例如,图像标题或自由形式答案)。生成任务还评估了模型的语言忠实度,即生成符合指令语言答案的能力。

2.2 研究问题1:训练语言的数量

首先,作者研究了实际需要训练的语言数量:是否如Shaham等人(2024a)、Chen等人(2024c)、Kew等人(2023)等所建议的那样,仅需在少数资源丰富的语言上进行训练,并通过(零样本)跨语言迁移到未见过的语言就足够了,还是作者需要明确包含每种目标语言?相反,使用更多语言是否会损害每种语言的性能,因为现在分配给每种语言的训练数据比例更小了?设置。作者专注于指令微调步骤:将50%的数据保留在英语中,而将剩余的50%平均分配给N种其他语言,即每种语言获得50/N%的数据预算。作者逐步增加N的值,从最高资源层(T5)开始,然后逐步包括较低资源层语言(T4到T1),每次只包括一种。这导致了以下设置:T5(N=6)、T5-T4(N=24)、T5-T3(N=52)、T5-T2(N=69)以及最终的L100(N=99)。在L100中,除了T5-T2的语言外,还包括T1语言。评分是对按语言层分组的所有任务的结果进行平均。以下任务的表现受语言准确性影响:XM3600、MaXM、MTVQA。

表1:使用不同语言集训练的模型对RQ1(第2.2节)的结果。作者强调了每列中的最佳和次佳结果。

(b)在XM3600上的平均语言保真度, 用于覆盖XM3600(Thapliyal等,2022年),其余部分随机分配以达到99种语言。

结果。表1总结了研究结果。不出所料,作者发现将一种语言(层级)纳入指令微调可以提升它们的性能(表1a,上半部分)。然而,添加新语言对先前已包含语言性能的负面影响几乎可以忽略不计,即便有影响也是微乎其微。这使得在仅带来任何给定语言轻微性能损失的情况下,大规模多语言LVLMs的训练成为可能。在语言内训练导致语言忠实度(即模型以正确语言生成输出)的显著提升,如表1b所示。有趣的是,训练越多元语言,对于训练中未包含的语言,忠实度的提升也越显著;预期之中,明确的语言内训练进一步提高了任何给定语言的忠实度(详见附录中的表27,详细展示了每种语言的性能结果)。即使排除那些语言忠实度起作用的任务(表1a下半部分),作者观察到的趋势也是一致的:语言内训练带来的持续改进,对于其他语言几乎没有(如果有的话)性能下降。附录表13中部分实验使用Llama 3(设置:英语、T5和L100)证实了与Phi 3.5观察到的趋势:实际上,当使用更多语言进行训练时,作者在所有任务上都看到了更大的提升。

表2:在不同英语与多语言数据比例下,在指令调整阶段训练的模型对于RQ2($2.3)的结果。分数为按语言层次分组的所有任务结果平均值。

2.31 研究问题2:指令微调中的语言分布

RQ1实验表明,大规模多语言指令调整数据在各个方面都具有益处。作者现在分析应该有多少训练数据是多语言的。一方面,直观上,增加训练数据预算中的非英语部分可能会带来进一步的提升。另一方面,随着多语言训练数据的增加,在某些时候,这些收益可能会因为作者在牺牲干净(英语)数据的情况下添加了噪声(机器翻译获得)数据而抵消。

实验设置。在本实验中,作者选择了100种语言的完整集合 ,因为这些语言的跨语言性能非常稳健。然而,作者调整了语言分布,将数据预算的 保留为英语,并将剩余的 平均分配给其他99种语言。作者考虑了以下六个设置:

实验结果。作者在表2中展示了实验结果。作者观察到,当训练数据中英语数据占比在 之间时,所有语言层的性能都达到峰值。对于某些任务(例如XM3600、MaXM、BINMC),随着英语数据的增加,作者观察到性能有所下降,而对于其他任务(例如MTVQA、xGQA、MaRVL),更多的多语言数据导致性能略有下降(详见F.1中的每个任务结果)。总的来说,低资源语言从更多的多语言数据中受益,而高资源语言则从更多的英语数据中受益。然而,这在一定程度上也是由于任务的语言覆盖范围:XM3600和BINMC从更广泛的多语言训练组合中获益。

表3:RQ3(S2.4)的结果,展示了不同英译多语言比例( )的预训练效果。所有变体在同时进行指令微调( ,5O% E n.)时保持一致,它们是涵盖最多低资源语言的任务。

使用Llama 3 Backbone 网络(参见附录中的表14)得到的结果呈现出相同模式:作者观察到在T1和T2阶段,当 时,性能最佳;而在T5和英语中,当 时,整体表现最佳,考虑了所有层级。作者的发现与Yue等人(2024a)的同期研究成果相一致,他们发现20%至80%的英语数据能够实现良好的全局性能。根据这些结果,作者选择 作为训练的稳健值。

2.4 研究问题3:预训练中的语言分布

根据刘等人(2023b,2024)的暗示和 Tong 等人(2024)的明确展示,在图像-描述对上进行预训练能够提升 LVLM 的性能。因此,作者在确定有效的指令微调数据分布之后,接下来探讨了不同语言预训练数据分布的影响。具体来说,作者测试了平衡英语和多语言部分是否比不平衡分布(即分别将更多的训练预算分配给英语或多语言混合)带来更好的性能。

实验设置。在这些实验中,作者将指令调整混合比固定为







请到「今天看啥」查看全文