国外网友,一觉醒来,发现o3-mini-high开始用中文思考了。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gSPHicGicgI9s0arncbzlgBz16mto4HL8ZxaPCW2VojbtwpE48BiaE2E4w/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0g5dtMYh9aKWuyjkk38oKicy5ojpB8SVZmu3ickSFkfQrTNicia7YiaMncTCQ/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0g6Itra2fVlbriaWUibibicKnnUIYqPIPITHMJDpLyiaicq2ZzgQsc9Upy8ySg/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
o3-mini-high作为美国最顶尖的模型之一,竟然在没有用户干预的情况下,如此大量地使用中文进行推理。
如此这般,不禁让网友怀疑,是不是OpenAI在「偷师」中国的DeepSeek模型。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gEw4ramr7NuPfYhicd7ScfR2dSQd4ibU33WkcLbcpE6aFllm5om5QLicew/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
更有意思的是,即便用俄语去提问,o3-mini-high也会用中文去思考。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0g7VhpP2W9WBZjKoOQrchb05KuXYnknsWKnU6XkjRes1uFHb8eDEM0ag/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gfQaXY9CfkXWE9YKDaUkxvslgYJW2E1tgwNe6Br8MbPhuicb4On1W6uA/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
对此,网友纷纷质问起了奥特曼和OpenAI:「o3-mini到底为什么要用中文进行推理」?!
网友Annalisa Fernandez则表示,或许中文才是LLM的「灵魂语言」。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gCR3y6z8w0Wjnrp2dUn4QMqh5LXibcZ5ibTMuNnvredOL5IIBZ2dyNwFA/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
经此争议,下面这张「DeepSeek/OpenAI罗生门」梗图,已经在外网迅速传开了。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gz2QxbNQ99davaIJzjR4vumX7NCC4z8bl02mfbJAYgRbQydpK9PMa3Q/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
当然了,这并不是OpenAI的模型第一次发生这种现象。
早在去年2月份,就有开发者在OpenAI开发者社区上,报道过类似的问题,不过是混合了其他语言。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gibK9FXxQg9BRvS1TYZ37b7L34eyHAsp2odicTfmhRpmbv1iaXN1u2LicDg/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gVuChRibvsTpxTUyNjpdhPActwm20IKqWu8ibcpnSwuu21pDJDOkjbHfQ/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
而在推理模型方面,OpenAI o1也存在类似的问题。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gju39dxxiadht5I3GAW1wC0mnyjCFwHKA52Wt5CNyNriayf8u4ialIyagw/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
事实上,这种「语言混杂」(language mixing)现象在其他AI模型中也有发现。
比如,谷歌的Gemini会混杂德语。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gHyzbYZO2dy9YDHaxRIb5kk1xgV0L3cqD34Kll6EvsnOJvs46QlorZQ/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
那么,究竟是为何才让o3-mini-high在推理过程中口吐中文呢?
阿尔伯塔大学助理教授、AI研究员Matthew Guzdial提出了一个切中要害的观点:
「模型并不知道什么是语言,也不知道语言之间有什么不同,因为对它来说这些都只是文本。」
事实上,模型眼中的语言,和我们理解的完全不同。模型并不直接处理单词,而是处理 tokens。以「fantastic」为例,它可以作为一个完整的token;可以拆成「fan」、「tas」、「tic」三个token;也可以完全拆散,每个字母都是一个token。
但这种拆分方式也会带来一些误会。很多分词器看到空格就认为是新词的开始,但实际上不是所有语言都用空格分词,比如中文。
Hugging Face的工程师Tiezhen Wang认同Guzdial的看法,认为推理模型语言的不一致性可能是训练期间建立了某种特殊的关联。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gY4iaN05de5WIY4H2KSRT0sGEU9ibEsgbb8k3qJ4NUiagawicTQwn3eyMcg/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
他通过类比人类的思维过程,阐述了双语能力的深层含义:掌握双语绝非仅仅局限于能够流利使用两种语言,更是一种独特的思维模式。在这种模式下,大脑会依据当下的场景,本能地挑选最为适配的语言。例如,在进行数学运算时,使用中文往往简洁高效,因为每个数字仅需一个音节;而在探讨「无意识偏见」这类概念时,大脑则会自然地切换到英文,这是由于最初接触该概念便是通过英文。
这种语言切换的过程,恰似程序员在选择编程语言时的自然反应。尽管多数编程语言都具备完成任务的能力,但我们会依据不同需求,选择用Bash编写命令行,使用Python进行机器学习,因为每种语言都有其特定的最佳适用场景。
「工具的选择需因场合而异」,这一理念对AI训练有着重要启示:让AI接触多种语言,使其能够学习不同文化所蕴含的独特思维方式。这种包容性不仅能让AI更加全面,还能使其更加公平。
在Reddit相关帖子下,不少网友表达了相似的观点,即不同的语言各有擅长的领域。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gO6MGBqTca56EehCFcPsA45HAwIqKfRKlSKSB436MGicaeUzH3Vb2uRg/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
当然,也有另外的推测观点。比如网友Someone Kong分析认为,这可能是因为中文更短,所以会在强化学习中获得更多的奖励。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb2EAlicgav9hds7rOmHQ8T0gXrJlWHSTNI0tJug8nXLJR2jnqJyhyTYGXusB9dmXWl9kK23gOIl12g/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
此外,正如网友们反复提到的,DeepSeek在论文中对这一现象进行了分析。
研究团队发现,当强化学习提示词涉及多种语言时,思维链常常出现语言混杂(language mixing)的现象。
为了减轻语言混杂的问题,DeepSeek在RL训练过程中引入了「语言一致性奖励」,计算方法是CoT中目标语言词汇的比例。