(本文阅读时间:10分钟)
编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。
本期,我们为大家精心挑选了4篇前沿研究论文,内容涵盖大语言模型的提示词优化、FP4 量化的高效训练方法、灵巧机器人抓取的简化策略以及视频内容高效建模的 Tokenizer,感兴趣的朋友快来看看吧!
UniGraspTransformer:用于可扩展灵巧机器人抓取的简化策略蒸馏
CFPO:内容-格式集成的提示词优化
论文链接:
https://arxiv.org/abs/2502.04295
随着大语言模型(LLMs)在各个领域的广泛应用,其性能的提升在很大程度上依赖于有效的提示词(prompt)设计。在此背景下,自动化提示词工程应运而生。如何针对特定的模型和任务,通过自动化方法找到最优的提示词,成为了一个亟待解决的关键问题。
数据显示,大语言模型对提示词的细微变化极为敏感,这种变化涵盖提示词的文本内容和结构格式。然而,以往的研究工作主要聚焦于提示词内容的优化,对提示词的结构格式却缺乏系统性研究。微软亚洲研究院的研究员们发现,提示词格式不仅会影响模型的输出质量,不同模型还存在特定的格式偏好。因此,研究员们提出了一种创新方法:内容-格式集成的提示词优化(CFPO),通过迭代优化提示词的内容和格式,高效找出最优提示词。
具体来说,研究员们首先构建了一个结构化的提示词模板,将提示词分解为内容组件和格式组件。内容组件包含任务指令、任务细节、输出格式和示例等;格式组件则包括示例格式和整体提示词格式,分别规定了示例的呈现方式,以及所有组件的组织格式,例如采用 Markdown 格式等。
接着,CFPO 采用进化搜索算法,针对提示词的内容和格式优化进行了专门设计,在每一轮进化算法迭代中分别对内容和格式进行优化。在内容优化方面,CFPO 运用大语言模型优化器,通过案例诊断和蒙特卡洛采样对内容进行优化调整。对于提示词的格式优化,CFPO 设计了一个格式池和评分系统,用于动态评估格式的性能,并引入大语言模型,依据现有格式池信息自动生成新格式。CFPO 能够平衡对已知有效格式的利用和对新格式的探索,从而在每次迭代中高效地找出最优格式。
图1:单个迭代轮次内 CFPO 流程示意图
实验结果显示,CFPO 在多个任务和多种开源大语言模型上的表现均达到了当前的最优水准。针对测试的开源模型,CFPO 使其在数学推理任务 GSM8K 的性能最高提升了16.37%,在 MATH500 上最高提升了31.60%;CFPO 在常识推理任务 ARC-Challenge 和 Big-Bench 分类任务上也有出色表现,展现出了强大的适用性和有效性。这些结果充分证明,CFPO 能够显著提升 LLMs 的性能,尤其在对提示结构敏感的推理任务中效果更为突出。
使用FP4量化优化大规模语言模型训练
论文链接:
https://arxiv.org/abs/2501.17116
大语言模型的持续发展使其训练所需的计算资源、时间和能耗也不断增加,并成为制约 LLMs 进一步发展的关键瓶颈。因此,开发更高效的训练方法迫在眉睫。模型量化作为一种通过降低数值精度来减少计算和内存成本的技术手段,近期逐渐成为研究热点。尽管 FP16/BF16 和 FP8 量化已被证明在训练中可行,但 FP4 量化由于其极低的精度和有限的动态范围,一直面临巨大挑战。
为了解决这一问题,微软亚洲研究院的研究员们提出了首个针对大语言模型的 FP4 量化训练框架。该框架的核心在于通过技术创新解决 FP4 量化中的高误差和有限表示能力问题。传统的量化方法在低精度下容易导致梯度消失或梯度爆炸,且难以处理激活张量中的异常值。对此,研究员们提出了可微分量化估计器(DGE)和异常值钳制与补偿策略(OCC)两大创新技术。
DGE 通过可微分的量化函数近似,改善了梯度估计的准确性,使得量化操作在反向传播中能够传递准确的梯度信息,从而提高权重更新的精度。OCC 则针对激活张量中的异常值问题,通过钳制异常值并引入稀疏补偿矩阵,有效减少了量化误差。此外,该框架还结合了混合精度训练和向量粒度量化技术,进一步优化了训练过程,使得 FP4 量化训练在大语言模型上成为可能,并显著降低了量化带来的精度损失。
图2:FP4 训练方案的结构图
为了全面评估该 FP4 量化训练框架的性能,研究员们在不同规模的 LLaMA 模型(1.3B、7B 和 13B 参数)上进行了实验。实验结果显示,与 BF16 基线相比,FP4 量化训练框架在训练损失和下游任务性能上均表现出色,任务完成率和模型精度几乎没有明显下降。
未来,随着支持 FP4 的下一代硬件(如 Nvidia B 系列 GPU)的推出,该框架有望显著降低 LLMs 训练的成本和能耗,推动大语言模型的广泛应用。
UniGraspTransformer:用于可扩展灵巧机器人抓取的简化策略蒸馏
论文链接:
https://arxiv.org/abs/2412.02699
近年来,灵巧机器人抓取是机器人领域的关键挑战之一,尤其在处理形状、大小和物理特性各异的物体时。现有方法(如 UniDexGrasp++)虽有进展,但在面对大规模多样化物体时,往往面临性能下降和训练流程复杂的问题。
为解决这些挑战,微软亚洲研究院的研究员们提出了一种名为 UniGraspTransformer 的通用 Transformer 网络。其核心在于简化训练流程并提升泛化能力。该方法首先为每个物体训练了一个专门的策略网络,通过强化学习生成成功的抓取轨迹。随后,这些轨迹被蒸馏到一个通用的 Transformer 网络中。这一过程避免了传统方法中复杂的多步训练流程(如几何感知聚类、课程学习和逐步蒸馏),显著提高了训练效率增强了模型的可扩展性。
图3:UniGraspTransformer 架构与训练流程图
此外,UniGraspTransformer 具备强大的泛化能力,能够处理多达12个自注意力模块,有效应对数千个物体的抓取任务,并且可以从理想化环境(如完整状态观测)泛化到现实世界环境(如观测可能不完整或不可靠),展现出了卓越的适应性。
实验结果表明,UniGraspTransformer 在不同设置下均表现出色。在状态基设置中,UniGraspTransformer 在已见物体、未见物体(但属于已见类别)和完全未见物体上的成功率分别为91.2%、89.2%和88.3%。在视觉基设置中,这些成功率分别为88.9%、87.3%和86.8%。与 UniDexGrasp++ 相比,UniGraspTransformer 在所有类别上均实现了显著提升,尤其是在完全未见物体上,成功率提升了10.1%。
不仅如此,UniGraspTransformer 还能够为各种形状和方向的物体生成更广泛的抓取姿态,从而实现更多样化的抓取策略。这一特性使得 UniGraspTransformer 在处理复杂物体时更具优势。随着更多现实世界场景的测试,UniGraspTransformer 有望在实际机器人应用中发挥重要作用。
VidTok:开源的领先视频Tokenizer
论文链接:
https://arxiv.org/abs/2412.13061
项目链接:
https://github.com/microsoft/vidtok
近年来,视频生成以及基于此的世界模型已经成为人工智能领域的热门研究方向,其目标在于高效建模视频内容。然而,由于视频像素级表示信息高度冗余,如何通过 Tokenizer 对视频数据进行高效压缩和表示成为关键课题。当下很多工作都会通过 Tokenizer 将原始的高维视频数据(如图像和视频帧)转换为更为紧凑的视觉 Token,再以视觉 Token 为目标训练生成模型。
图4:视频 Tokenizer 基础框架