专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
鸡西新闻网  ·  元宵节 | 事关出行!今晚部分公交线路调整 ·  昨天  
滴滴代驾服务订阅平台  ·  限时开启|滴滴代驾司服合作伙伴招募 ·  3 天前  
惠济发布  ·  玩转元宵节,郑州交警送上观灯指南→ ·  3 天前  
惠济发布  ·  玩转元宵节,郑州交警送上观灯指南→ ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

DRT-o1:通过长链思维优化深度推理翻译

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-27 08:12

正文

24年12月来自腾讯微信的论文“DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought”。

最近,类似 O1 的模型作为代表性例子出现,说明了长思维链 (CoT) 在数学和编码任务等推理任务中的有效性。 DRT-o1,试图将长思维链的成功引入神经机器翻译 (MT)。具体而言,鉴于文学书籍可能涉及明喻和隐喻,由于文化差异,将这些文本翻译成目标语言在实践中非常困难。在这种情况下,直译往往无法有效地传达预期的含义。即使对于专业的人工翻译,也必须在整个翻译过程中仔细考虑如何保留语义。为了模拟 LLM 在机器翻译中的长时间思考能力,首先从现有文学书籍中挖掘包含明喻或隐喻的句子,然后开发一个多智体框架通过长时间思考来翻译这些句子。在多智体框架中,翻译器根据顾问的建议迭代翻译源句子。为了确保长句子的有效性,还使用评估器来判断当前轮次的翻译是否优于前一轮。通过这种方式,收集数以万计的长句子翻译数据,用于训练 DRT-o1。在文学翻译上的实验结果证明 DRT-o1 的有效性。使用 Qwen2.5-7B 和 Qwen2.5-14B 作为主干,DRT-o1 带来的改进达到 7.33∼8.26 BLEU 和 1.66∼3.36 CometScore。此外,DRT-o1-7B 的表现比 QwQ-32B-Preview 高出 7.82 BLEU 和 1.46 CometScore,证明了其有效性。


近年来,类 O1 模型在推理任务中表现出色,尤其在数学和编码任务中。在 OpenAI O1 模型 (OpenAI, 2024b) 出现后,人们在复现 OpenAI O1 方面做出了许多努力。例如,Qin (2024) 提出了旅程学习这种训练范式,以鼓励 LLM 不仅学习捷径,还学习完整的探索过程。仅用 327 个训练样本,旅程学习就增强了 LLM 的长期思考能力。Huang (2024) 探索了现有类 O1 模型的数据蒸馏,并展示了数据蒸馏的有效性。Zhang (2024) 利用蒙特卡洛树搜索 (MCTS) 合成推理增强的代码数据,并训练 O1-Coder。Marco-o1 (Zhao et al., 2024) 被提出来处理开放式文本生成。 Marco-o1 展示基于 MCTS 增强推理方法的有效性,在数学问题上取得优异的表现。此外,Marco-o1 还对机器翻译案例进行深入研究,展示 O1 类模型在处理机器翻译方面的潜力。

专注于英译中,通过三个步骤收集 DRT-o1 训练数据:(1)收集在翻译过程中需要长时间思考的英文句子;(2)通过设计的多智体框架对收集的句子进行长时间思考的翻译过程综合;(3)提高长时间思考内容的可读性和流畅性,以形成最终的长时间思考机器翻译样本(§2.3)。最后,对收集的数据进行数据统计,以便加深理解。

按照Kryscinski(2022)的方法,利用古腾堡计划公共领域图书库中的文学书籍,这些书籍通常已有50多年的历史,且版权已过期。大约有400本英文书籍用于挖掘带有明喻或隐喻的句子。

首先,从这些书中提取所有句子,过滤掉太短或太长的句子(即少于10个单词或超过100个单词),得到577.6K个文献句子。其次,对于每个句子,用Qwen2.5-72B-Instruct(Qwen Team,2024)判断该句子是否涉及明喻或隐喻,并丢弃不包含任何明喻或隐喻的句子。第三,对于剩余的句子,让Qwen2.5-72B-Instruct将它们逐字翻译成中文,然后判断翻译是否让以中文为母语的人满意。若答案是否定的,则相应的句子将被保留,并视为“适合经过长时间思考进行翻译”。这样,我们最终收集63K个(总共577.6K个)涉及明喻或隐喻且直译也存在缺陷的文献句子,称为预收集句子。

对于每个预收集的句子(记为 s),设计一个多智体框架,通过长时间思考将其从英语翻译成中文。如图所示,多智体框架包括三个智体:翻译器、顾问和评估器。


遵循Qin(2024)的方法,并利用 GPT-4o(OpenAI,2024a)将 P ′ (s) 修改和润色为自我反思描述。最后,获得 22,264 个经过长时间思考的机器翻译样本。如图给出一个示例样本来说明合成结果。


收集的 22,264 个样本分为训练集、验证集和测试集,分别包含 19,264、1,000 和 2,000 个样本。下表显示 DRT-o1 数据和之前的 O1 类数据的数据统计情况。对于 Marco-O1 CoT 数据(Zhao et al.,2024),由于尚未完全发布,用其演示数据来计算数据统计。从中可以看出,合成的思维中,平均 token 数量达到 500+,这与之前以数学为导向的 O1 类 CoT 数据类似。







请到「今天看啥」查看全文