最近 DeepSeek-R1 非常热门,我们知道在 o1-Like 模型出现之前,传统的大模型的多语言能力已经十分出色。
那么相较于传统大模型,DeepSeek-R1 这类的 o1-Like 大模型的
多语言能力
又如何呢?
在我们实际应用的时候,选择哪一个模型进行多语言任务(比如翻译/国外客服等)是一个值得探索的问题。
哈尔滨工业大学近期的一项研究发现,在多个多语言翻译任务中 o1-Like 大模型性能超过了传统的大模型,但与此同时也暴露了新的挑战。首先,o1-Like大模型的推理成本显著增加,并且在一些复杂的多语言任务中,其性能表现出现大幅下降。更为严重的是,o1-Like模型在翻译等任务中由于需要先进行“思考”再输出,导致了“漫谈”(Rambling)现象的产生。
这一发现为大模型领域的研究者提供了新的探索方向和思路,揭示了更深层次的优化潜力和应用挑战。
-
论文标题:
Evaluating o1-Like LLMs: Unlocking Reasoning for Translation through Comprehensive Analysis
-
论文链接:
https://arxiv.org/abs/2502.11544
-
论文作者:
Andong Chen (陈安东), Yuchen Song (宋宇宸), Wenxin Zhu (祝文鑫), Kehai Chen (陈科海), Muyun Yang (杨沐昀), Tiejun Zhao (赵铁军), Min zhang (张民)
-
1.背景介绍
类 o1 模型
(o1-Like LLMs,包括 OpenAI o1 模型及阿里巴巴团队的 QwQ 、微信团队的 Marco-o1 和近期火爆的 DeepSeek-R1 等模型)以其强大的推理能力而闻名,在扩展测试中表现出类似人类的深度思考,能够探索多种推理策略,并通过决策反思和迭代改进来完善答案。这使它们能够模拟人类解决问题的认知过程。
而
多语言机器翻译(MMT)
作为一项极具挑战性的任务,要求模型不仅要实现跨语言的语义一致性,还要确保在常识推理、历史和文化背景以及专用术语等方面的翻译准确性。此前大语言模型在机器翻译领域已经显示出巨大的潜力,而
类o1模型在多语言机器翻译中的能力目前还没有得到系统的研究。
本研究重点关注类o1模型在多语言机器翻译任务中的表现,解决两个关键研究问题:
1)在不同的 MMT 任务中,类o1 模型的翻译性能与其他 LLM 相比如何?
2)哪些因素可能影响类o1 模型的翻译质量?
为研究类 o1 模型在不同多语言机器翻译任务中的表现,我们选择了多个类o1模型(包括闭源模型和开源模型),并将它们与 ChatGPT 和 GPT-4o 等传统 LLM 进行比较。
为评估类 o1 模型的多语言翻译能力,我们在 Flores-200 数据集上进行了测试。测试结果见表 1 。
在多语言翻译任务中,闭源类o1模型表现最佳,尤其是 OpenAI o1,其BLEU得分最高提升了34.5。平均而言,类o1模型的BLEU分数比其他类型的模型高出11.14分。在开源模型中,DeepSeek-R1的表现最好,与其他开源LLM相比,平均BLEU得分提升约16.92。
对于参数规模相对较小的开源类o1模型,例如参数分别为7B和14B的Marco-o1和DRT-o1,它们在多个翻译方向上的COMET和BLEURT指标表现接近闭源模型。
未来,利用小参数的开源类o1模型进行多语言翻译是一个很有前景的研究方向。
此外,在实验过程中,我们发现 类o1模型在 COMET 和 BLEURT 分数上的提高比在 BLEU 分数上的提高要明显得多。在某些数据集中,类o1模型的 COMET 和 BLEURT 分数与 LLM 分数相当,甚至超过了 LLM 分数,而其 BLEU 分数却明显低于 LLM 分数。这种现象在 QwQ 中尤为明显。
对
于类 o1 模型来说,由于能够进行深度思考,因此表达方式会更加多样化,甚至会使用与参考译文不同的词汇或句子结构,但仍能保留译文的意思。COMET 和 BLEURT 并不受这种多样性的影响,而是能提供更客观的评价,因此相较于 BLEU ,它们更适合于评价类 o1 模型的翻译能力。
为评估类 o1 模型在常识推理翻译任务中的表现,我们使用 CommonsenseMT 数据集进行测试。测试结果见表 2 。
在 Lexical 任务中,OpenAI-o1 继续表现出卓越的性能,在 COMET 和 BLEURT 指标上均优于 GPT-4o,其中 COMET 指标提高了 2.00,BLEURT 指标提高了 3.89。
然而,在 Contextless 和 Contextual 任务中,传统 LLM 的表现优于类 o1 模型。
通过案例分析,我们发现源文本中上下文信息的缺乏导致类 o1 模型在思考过程中产生了带有明显幻觉的译文,而传统 LLM 则不受这种内部推理的影响,其能产生更可靠的结果。
对于常识推理翻译任务而言,设计有效的外部模块以减少模型推理过程中产生的幻觉至关重要。
为评估类 o1 模型在翻译特定文化内容时的性能,我们使用 Culture MT 数据集进行测试。测试结果如表 3 所示。
结果显示,在以英语为源语言的翻译任务中,与 GPT-4o 相比,类 o1 模型在 BLEU、COMET 和 BLEURT 方面的平均最大提升分别为 4.71、6.88 和 7.23。
在以英语为目标语言的任务中,三种类型模型的表现各不相同。开源模型 Marco-o1 虽然只有 7B 参数,但在 BLEURT 指标上表现优异,与 OpenAI-o1 相比最大提高了 1.80。
通过案例分析,我们观察到类 o1 模型在思考过程中自然而然地融入了对特定术语的恰当的本地化理解,从而实现了对特定术语更准确的翻译和对文化的地道表达。
为评估类 o1 模型翻译专有术语的能力,我们使用 RTT 数据集进行了实验。实验结果见表 4 。
在该数据集上,传统 LLM 表现强劲
,其中 ChatGPT 在两项任务中的 COMET 和 BLEURT 上分别比类 o1 模型高约 7.67 和 8.49。
我们观察到,类 o1 模型在推理过程中经常产生错误信息,这对最终的翻译结果产生了不利影响。设计外部知识结构以提高类 o1 模型的专有名词翻译性能是一个很有前景的研究方向。
3.影响类 o1 模型翻译性能的因素探究
为探究影响类 o1 模型翻译性能的可能因素,我们设计了多个分析性试验。
相较于传统 LLM ,类 o1 模型的推理过程明显延长,这不可避免地影响了模型的推理效率。为进一步评估类 o1 模型的翻译效率,我们对类 o1 模型和传统 LLM 的推理成本进行了比较分析。实验采用 CommonsenseMT 数据集中的 Lexical 任务。我们测量了每个模型生成的平均 token 数及其各自的生成速度,以表示每个模型的推理成本。详细结果见表 5 。
我们观察到,虽然类 o1 模型在常见推理任务中表现出卓越的性能,但它们的推理成本却高得多。
与传统 LLM 相比,类 o1 模型需要的输出 token 多大约 10 倍,时间成本多 8 到 40 倍
,这意味着翻译成本大幅增加。此外,思考过程需要生成更多的输出,这大大降低了推理速度。