专栏名称: Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

哈工大团队：首篇DeepSeek R1的多语言能力全面分析！

Datawhale · 公众号 · · 2025-02-21 23:02

主要观点总结

本文介绍了关于类o1模型在多语言机器翻译领域的表现及影响因素的研究。研究发现，相较于传统大模型，类o1模型在翻译能力上有所提升，但也面临推理成本增加、指令遵循能力挑战等问题。文章还探讨了影响类o1模型翻译性能的因素，包括推理成本、指令遵循能力、参数规模和温度参数等。

关键观点总结

关键观点1: 类o1模型在多语言机器翻译任务中表现出色，相较于传统大模型有所提升。

类o1模型在多个数据集上的测试结果表明，其在多语言翻译能力、常识推理类翻译能力、特定文化类翻译能力和专有术语翻译能力等方面均有所突破。尤其在参数规模较小的开源模型中，如DeepSeek-R1等，表现尤为突出。

关键观点2: 类o1模型面临推理成本增加的问题。

相较于传统LLM，类o1模型的推理过程明显延长，导致推理效率降低。实验表明，类o1模型的推理成本更高，输出token数量和时间成本均有所增加。

关键观点3: 类o1模型在指令遵循能力方面存在挑战。

实验结果显示，类o1模型在有效地遵循指令方面遇到了挑战，存在指令不遵循的概率。这可能导致推理过程变得无效，增加计算开销并降低翻译质量。

关键观点4: 参数规模和温度参数对类o1模型的翻译性能有影响。

实验表明，参数量大的模型往往性能更好，但达到一定规模后，进一步增加参数只带来边际效益。此外，温度参数对类o1模型的翻译性能也有影响，较低的温度设置有助于产生更稳定、更准确的翻译。

正文

Datawhale学术

作者：祝文鑫、陈安东、宋宇宸，哈尔滨工业大学

最近 DeepSeek-R1 非常热门，我们知道在 o1-Like 模型出现之前，传统的大模型的多语言能力已经十分出色。

那么相较于传统大模型，DeepSeek-R1 这类的 o1-Like 大模型的 多语言能力 又如何呢？在我们实际应用的时候，选择哪一个模型进行多语言任务（比如翻译/国外客服等）是一个值得探索的问题。

哈尔滨工业大学近期的一项研究发现，在多个多语言翻译任务中 o1-Like 大模型性能超过了传统的大模型，但与此同时也暴露了新的挑战。首先，o1-Like大模型的推理成本显著增加，并且在一些复杂的多语言任务中，其性能表现出现大幅下降。更为严重的是，o1-Like模型在翻译等任务中由于需要先进行“思考”再输出，导致了“漫谈”（Rambling）现象的产生。

这一发现为大模型领域的研究者提供了新的探索方向和思路，揭示了更深层次的优化潜力和应用挑战。

论文标题： Evaluating o1-Like LLMs: Unlocking Reasoning for Translation through Comprehensive Analysis
论文链接： https://arxiv.org/abs/2502.11544
论文作者： Andong Chen (陈安东), Yuchen Song (宋宇宸), Wenxin Zhu (祝文鑫), Kehai Chen (陈科海), Muyun Yang (杨沐昀), Tiejun Zhao (赵铁军), Min zhang (张民)
机构：哈尔滨工业大学

1.背景介绍

类 o1 模型 （o1-Like LLMs，包括 OpenAI o1 模型及阿里巴巴团队的 QwQ 、微信团队的 Marco-o1 和近期火爆的 DeepSeek-R1 等模型）以其强大的推理能力而闻名，在扩展测试中表现出类似人类的深度思考，能够探索多种推理策略，并通过决策反思和迭代改进来完善答案。这使它们能够模拟人类解决问题的认知过程。

而 多语言机器翻译（MMT） 作为一项极具挑战性的任务，要求模型不仅要实现跨语言的语义一致性，还要确保在常识推理、历史和文化背景以及专用术语等方面的翻译准确性。此前大语言模型在机器翻译领域已经显示出巨大的潜力，而 类o1模型在多语言机器翻译中的能力目前还没有得到系统的研究。

本研究重点关注类o1模型在多语言机器翻译任务中的表现，解决两个关键研究问题：

1）在不同的 MMT 任务中，类o1 模型的翻译性能与其他 LLM 相比如何？

2）哪些因素可能影响类o1 模型的翻译质量？

2.类 o1 模型在多语言翻译任务中的表现研究

为研究类 o1 模型在不同多语言机器翻译任务中的表现，我们选择了多个类o1模型（包括闭源模型和开源模型），并将它们与 ChatGPT 和 GPT-4o 等传统 LLM 进行比较。

2.1.多语言翻译能力

为评估类 o1 模型的多语言翻译能力，我们在 Flores-200 数据集上进行了测试。测试结果见表 1 。在多语言翻译任务中，闭源类o1模型表现最佳，尤其是 OpenAI o1，其BLEU得分最高提升了34.5。平均而言，类o1模型的BLEU分数比其他类型的模型高出11.14分。在开源模型中，DeepSeek-R1的表现最好，与其他开源LLM相比，平均BLEU得分提升约16.92。对于参数规模相对较小的开源类o1模型，例如参数分别为7B和14B的Marco-o1和DRT-o1，它们在多个翻译方向上的COMET和BLEURT指标表现接近闭源模型。 未来，利用小参数的开源类o1模型进行多语言翻译是一个很有前景的研究方向。

此外，在实验过程中，我们发现类o1模型在 COMET 和 BLEURT 分数上的提高比在 BLEU 分数上的提高要明显得多。在某些数据集中，类o1模型的 COMET 和 BLEURT 分数与 LLM 分数相当，甚至超过了 LLM 分数，而其 BLEU 分数却明显低于 LLM 分数。这种现象在 QwQ 中尤为明显。对于类 o1 模型来说，由于能够进行深度思考，因此表达方式会更加多样化，甚至会使用与参考译文不同的词汇或句子结构，但仍能保留译文的意思。COMET 和 BLEURT 并不受这种多样性的影响，而是能提供更客观的评价，因此相较于 BLEU ，它们更适合于评价类 o1 模型的翻译能力。

2.2.常识推理类翻译能力

为评估类 o1 模型在常识推理翻译任务中的表现，我们使用 CommonsenseMT 数据集进行测试。测试结果见表 2 。 在 Lexical 任务中，OpenAI-o1 继续表现出卓越的性能，在 COMET 和 BLEURT 指标上均优于 GPT-4o，其中 COMET 指标提高了 2.00，BLEURT 指标提高了 3.89。 然而，在 Contextless 和 Contextual 任务中，传统 LLM 的表现优于类 o1 模型。通过案例分析，我们发现源文本中上下文信息的缺乏导致类 o1 模型在思考过程中产生了带有明显幻觉的译文，而传统 LLM 则不受这种内部推理的影响，其能产生更可靠的结果。对于常识推理翻译任务而言，设计有效的外部模块以减少模型推理过程中产生的幻觉至关重要。

2.3.特定文化类翻译能力

为评估类 o1 模型在翻译特定文化内容时的性能，我们使用 Culture MT 数据集进行测试。测试结果如表 3 所示。 结果显示，在以英语为源语言的翻译任务中，与 GPT-4o 相比，类 o1 模型在 BLEU、COMET 和 BLEURT 方面的平均最大提升分别为 4.71、6.88 和 7.23。 在以英语为目标语言的任务中，三种类型模型的表现各不相同。开源模型 Marco-o1 虽然只有 7B 参数，但在 BLEURT 指标上表现优异，与 OpenAI-o1 相比最大提高了 1.80。通过案例分析，我们观察到类 o1 模型在思考过程中自然而然地融入了对特定术语的恰当的本地化理解，从而实现了对特定术语更准确的翻译和对文化的地道表达。

2.4.专有术语翻译能力