专栏名称: 玩转VSCode
编程开发,业界资讯,以及 VS Code 的热门文章、使用技巧、插件推荐、插件开发攻略等,全部都可以在这里找到。带你玩转 VS Code!
目录
相关文章推荐
江西宣传  ·  开售!清明小长假出行买票有学问 ·  13 小时前  
江西宣传  ·  开售!清明小长假出行买票有学问 ·  13 小时前  
李楠或kkk  ·  我说折叠屏的 3 apps 同屏体验比 ... ·  19 小时前  
海南工信微报  ·  海南省工业和信息化厅开展DeepSeek政务 ... ·  19 小时前  
海南工信微报  ·  海南省工业和信息化厅开展DeepSeek政务 ... ·  19 小时前  
科技美学官方  ·  华为发布会前瞻:手机、汽车、鸿蒙终端 ·  2 天前  
人工智能产业链union  ·  Manus平替方案二:AutoGPT ... ·  2 天前  
人工智能产业链union  ·  Manus平替方案二:AutoGPT ... ·  2 天前  
51好读  ›  专栏  ›  玩转VSCode

微软Phi-4封神,14B小模型数学击败GPT-4o!合成数据占比40%,36页技术报告出炉

玩转VSCode  · 公众号  · 科技自媒体  · 2024-12-22 14:59

主要观点总结

微软新一代小模型Phi-4发布,合成数据技术突破,数学性能超越GPT-4o,展现了强大的推理能力。Phi-4不仅在STEM问答上表现出色,而且在多个基准测试中赢得优势。

关键观点总结

关键观点1: Phi-4的特点和优势

微软新一代小模型Phi-4使用合成数据技术,实现了在数学性能上的突破,超越了GPT-4o。它展现了强大的推理能力,在STEM问答、数学竞赛等多个领域表现出色。Phi-4的成功也得益于其预训练和后训练技术的创新,以及合成数据的优势。

关键观点2: 合成数据技术的贡献

合成数据技术在Phi-4的训练中发挥了关键作用。通过生成结构化数据、规避数据污染问题,合成数据提高了模型的推理和问题解决能力。此外,合成数据还帮助模型在训练过程中更有效地学习,提高了模型的泛化性能。

关键观点3: Phi-4在基准测试中的表现

Phi-4在多项基准测试中表现出色,赢得了多个优势。在GPQA、MATH等STEM问答领域,其表现甚至超过了其教师模型GPT-4o。此外,在HumanEval和HumanEval+衡量的编码能力方面,Phi-4也比其他开源模型得分更高。


正文



新智元报道

编辑:Yh
【新智元导读】 微软下一代14B小模型Phi-4出世了!仅用了40%合成数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。

140亿参数,40%合成数据,年度SLM之王诞生!

最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、Gemini Pro 1.5。

而且,Phi-4粉碎了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。

甚至,在2024 ACM数学竞赛问题上,Phi-4取得了91.8%准确率。

Phi系列前负责人Sebastien Bubeck看到这个结果后,感到非常惊讶。

下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。

深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「合成数据」上完成了训练。

合成数据比例高达40%

除了合成数据,它共实现了三大核心技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(Pivotal Tokens Search)。

Phi-4的成功,从侧面推翻了Ilya、Alexander Wang多位大佬宣称的「数据墙」的观点。

目前,新模型在微软Azure AI Foundry上提供,下周将在HuggingFace上线。

数学击败GPT-4o,36页技术报告出炉

Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了合成数据。

虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,证明了数据生成和后训练技术比模型蒸馏更能带来能力上的提升。

论文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分核心技术构成:

- 预训练和中训练的合成数据
- 高质量有机数据的筛选和过滤

- 后训练

得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。

例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。

通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。

表1 Phi-4在经典基准测试上的表现

为了验证Phi-4是否存在过拟合和数据污染问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。

这两场竞赛中的数据均未曾在训练时被收集过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。

从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。

Phi-4在数学竞赛问题上优于许多更大的模型,包括Gemini Pro 1.5

合成数据的优势


合成数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agent prompting)、自修订工作流(self-revision workflows)和指令反转(instruction reversal)。

这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据集中的一些弱点。

合成数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接优势。

数据结构化和支持渐进式学习

在有机数据集中,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。

相比之下,由于从语言模型生成的每个token都是根据前面的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。

将训练与推理上下文对齐

合成数据可以规避掉模型从有机数据集中学习到一些并不适合后续训练的数据特性。

比如说,网络论坛往往有着自身特定的交流风格、用语习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。

此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。

而合成数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。

合成数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如拒绝采样和直接偏好优化(DPO)的新方法来优化模型的输出。

合成数据的来源


预训练和训练中数据


为此,研究团队创建了50种广泛的合成数据集类型,每个数据集都依赖于不同的种子和不同的多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。

通过以下方法,他们确保了合成数据并不被一些低质量的网络数据所污染,从而成为高质量训练数据集。

种子数据集的构建

1. 网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面分割成段落,并对每个段落的客观和推理内容进行评分。

2. 问题数据集:从网站、论坛和问答平台上收集了大量问题。然后使用投票技术对这些问题进行筛选以平衡难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致性。然后丢弃所有答案都一致(表明问题太简单)或答案完全不一致(表明问题太难或模糊)的问题。

3. 从多种来源创建问答对:利用语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验表明,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。

重写和增强







请到「今天看啥」查看全文