2024年12月,微软正式发布14B参数语言模型Phi-4。该模型在以推理为重点的基准测试上成功超越部分大语言模型,如在美国数学竞赛AMC的测试中,Phi-4得分超过Gemini Pro 1.5、GPT-4o、Claude 3.5 Sonnet、Qwen2.5等知名开源、闭源模型。
一方面,创新合成数据、筛选高质量数据、后训练等技术,提升小模型性能。(1)在预训练和中期训练中使用合成数据。
合成数据通过多智能体提示(multi-agent prompting)、自修订工作流(self-revision workflows)和指令反转(instruction reversal)等多种技术生成,可确保数据集能够促使模型具备更强推理和问题解决能力。这些数据具有结构化、确保训练和推理上下文对齐的优势,有效提升了训练效率,并确保其学习的语言风格与推理时使用的上下文语言风格相匹配。(
2)筛选高质量数据。
在创建高质量的合成数据时,需要筛选和过滤自然生成数据的来源,包括网络内容、授权书籍和代码库,提取种子数据,作为生成合成数据的基础。通过段落评分、问题难度评估、监测推理链等技术,分别创建高价值代码种子、问题数据集、问答对,从而实现种子数据关注高价值内容、问题难度平衡且关注推理过程的关键步骤。
(3)后训练阶段使用监督微调数据集和直接偏好优化(DPO)技术。
使用从公开数据集和合成数据中筛选的用户提示,再生成多个模型响应,并使用基于大模型的评估过程选择最佳响应,对模型输出结果进行微调。使用GPT-4o、GPT-4t和Phi-4模型进行两轮DPO对生成,并由人类助手对其进行评分,从而实现模型与人类偏好对齐。
另一方面,创新RAI(负责任人工智能原则),提升模型安全表现。
负责任人工智能原则是指在人工智能的开发、部署和使用过程中,遵循一系列伦理和社会原则,以确保人工智能技术的公平性、可靠性、安全性、隐私保护、包容性、透明性和问责制。其总体方法包括在后训练中进行安全对齐、红队测试以及针对数十种RAI危害类别进行自动化测试和评估。Phi-4利用有益性和无害性偏好数据集以及多个内部生成的数据集,解决后训练安全中的RAI危害类别问题,使Phi-4在安全优化上的得分超过Mistral 7B、LIama-3 8B、Gemma 7B等模型。