专栏名称: 大数据文摘

普及数据思维，传播数据文化

惊呆网友！微软论文意外“泄密”OpenAI模型参数引热议，GPT-4o mini仅8B？

大数据文摘 · 公众号 · 大数据 · 2025-01-03 12:00

正文

大数据文摘受权转载自头部科技

文丨丁灵波

啥？微软又泄露OpenAI商业机密了？

作为大模型领域的代表，OpenAI旗下各类大模型的参数分别有多少让大家好奇，但由于部分涉及技术机密，如果不是OpenAI官方论文自己披露，外界很难知道确切数字。

令人意想不到的是，在微软日前发表的一篇预印版论文中，被充满好奇心的网友扒到了包括ChatGPT、GPT-4、GPT-4o、GPT-4o-mini、o1-mini以及o1-preview模型的具体参数！这篇所谓的“泄密”论文细节，瞬间引起了广泛热议。

要知道，微软是Open AI最大投资方，累计砸了140亿美元，不仅拥有OpenAI一些核心技术的独家使用权，幕后也为OpenAI提供算力支持，就技术层面来讲可能对其知根知底儿。

尽管论文里强调“大多数所报道的参数数量都是估算值”，但这些参数是否具有参考性变得十分耐人寻味。

01 事情的来龙去脉

其实，这篇所谓的“泄密”论文，并没有专门针对OpenAI技术深挖什么，而只是一篇关于测试基准的论文，题为：《MEDEC：临床记录中医疗差错检测与纠正的基准》。论文作者来自微软健康与生命科学人工智能部门和华盛顿大学生物医学与健康信息学系。

众所周知，现在大型语言模型（LLM）已能够正确回答一部分专业医学问题，甚至在某些特定医学检查中测试评分超过人类。然而，业内尚未有研究评估LLM验证现有或生成式医学文本的正确性和一致性的能力。

于是呢，这篇论文里研究人员就提出了一个基准方法：MEDEC，这算是第一个公开的临床笔记医疗错误检测和纠正基准，涵盖了五种测试类型，包括诊断、管理、治疗、药物治疗和病原体等。

在论文中，研究人员描述了数据创建方法，并评估了一些热门LLM的性能，例如o1-preview、GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Flash等在检测和纠正需要医学知识和推理能力的医疗错误方面的任务。

研究结果发现，尽管这些LLM在错误检测和纠正方面大有长进，但它们在任务中的表现仍然不如人类专业医生，并对这一差距背后的潜在因素、实验见解、当前评估指标局限性和未来研究方向进行了探讨。

而估算写出OpenAI各类大模型的大概参数，可能纯粹就是技术实验需要或者作者无意为之，而且是局限在这个MEDEC基准实验中做的推算数值。

具体推测了哪些模型的参数？不只OpenAI。

微软自己的Phi-3参数7B；人工智能公司Anthropic旗下的Claude 3.5 Sonnet参数约175B；谷歌的Gemini 2.0 Flash没标出来，但是提到了谷歌专为医疗用途设计的模型Med-PaLM的参数约540B。

剩下的就是OpenAI全家桶：ChatGPT约175B、GPT-4约1.76T、GPT-4o约200B、GPT-4o mini约8B、o1-mini约100B、o1-preview约300B。

在此知识小普及一下，在大模型中，B和T是用于表示模型参数数量的量级单位，B代表十亿（Billion），T代表万亿（Trillion）。

通过不同大小的模型评测，微软团队发现Claude 3.5 Sonnet在错误标记检测方面的准确率能达到70.16%，在错误语句检测方面的准确率达到65.62%，目前表现优于其他基于大型语言模型的方法。

此外，o1-mini模型在错误标记检测方面达到了第二高的准确率为69.08%，在这套评估基准中，o1系列模型性能要领先于GPT-4模型。

不过令论文作者应该没想到的是，引发热度的不是自己创造的MEDEC基准，而是GPT-4o mini是不是真的只有8B参数？这成为网友们的一大热议点。

业内技术路线其实也在探索在模型大小和性能之间做平衡，能用较小参数的模型做出较强的性能也是一种技术能力。

例如微软在2024年12月发布的Phi-4就是这个思路，当时用了14B参数训练就能在数学推理领域胜过GPT-4o和Gemini Pro1.5，取得规模和性能之间的突破。

在8B这个段位的小模型其实也不少，例如Meta AI发布的Llama-3.1、Mistral AI推出的Ministral 8B、IBM推出的Granite 3.0等，只不过很多模型综合性能上差点意思，只在某些特定领域各有所长。

其实GPT-4o mini本身在OpenAI产品体系里也属于小模型范畴，但是不是完全只有8B这么小就不得而知了，如果是，那可真的有点厉害。

毕竟，4o mini的性能在各种评测中表现出乎意料地好，上下文窗口可达到128K，在许多任务上甚至表现出接近于GPT-4的能力，例如在MMLU测试、衡量数学推理的MGSM测试、衡量编码性能的HumanEval测试、以及MMMU多模态推理测试等，碾压了几乎所有轻量级乃至大几倍的模型。

02 网友们的讨论

微软这篇论文公布出来的参数靠不靠谱？

你要说没有参考价值吧，它们为啥出现在了这篇技术论文中，而且怎么就单单谷歌Gemini 2.0 Flash的参数没估算值，这让网友们很费解，不过考虑到谷歌使用自己TPU做计算，可能是不好做估计的原因。

网友们表示，很难相信4o-mini只有8B，如果是那就太疯狂了，也有人认为可能只是8B激活参数。

当然，不少网友对该消息持怀疑态度。因为如果是真的，现在就应该从OpenAI官方那里听说这个消息了，如果他们发表一篇技术论文证明训练4o-mini一共只需8B参数，那么创始人Sam绝对会在社交网络上吹嘘一番，但Sam目前并没有对此事做出回应。

也有网友就使用体验分析认为，4o-mini可能是一个总共拥有大约40B参数并且可能有8B个处于活动状态的MoE。

因为它比同类8B模型包含的知识多得多（当询问事实时），而且速度相当快，此外，GPT-4o是MoE，因此它们可能对4o mini采用了相同的架构。

8B个活跃参数这个解释应该是靠谱的，有网友基于API 定价、OpenAI LLM总体进展和个人观点曾做出过6.6B-8B近似的推测。

此外，人工智能顾问艾伦·汤普森 (Alan D. Thompson) 曾对各种AI模型的指标做了个对比表，在他的统计表中，给4o-mini模型标注的也是8B个参数。

或许论文里推算的数值能做个局部参考。有网友认为论文里提到的GPT-4o模型只有200B个参数也不太可能，GPT-4o同时具有原生图像输入/输出、原生视觉、原生语音、文本输出等能力，也许只是文本组件有200B而已。

03 参数结合应用才是要点

从行业发展来看，除了顶尖大模型探索AGI天花板边界，越来越多性能强悍的小语言模型（SLM）也是比较热门的发展趋势之一，因为能带来遍地开花的很多应用。

大模型和小模型的发展目前是相辅相成的，有竞争也有互补。

大模型提供了强大的基础能力，小模型则能在特定场景下展现出更高的效率和灵活性，大模型在海量数据上进行预训练获得强大的能力后，可以针对特定任务进行微调，得到更小、更快更有性价比的小规格模型。

因此，模型参数不是越大越好，也不是越小越好，需要适配具体应用情况来判断。

未来，大模型和小模型将共同推动人工智能的发展，为我们的生活带来更多便利。

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！