新智元报道,近日UIUC等机构的研究人员提出了SelfCodeAlign方法,可以通过自对齐获得强大的代码模型,不需要人工注释或蒸馏,且效果更好。文章详细描述了SelfCodeAlign的流程,包括指令生成、筛选和实验评估等。
UIUC等机构的研究人员提出了一种新的方法SelfCodeAlign,该方法利用自对齐技术获得强大的代码模型,无需人工注释或蒸馏。
SelfCodeAlign分为三个阶段:从高质量的种子片段中提取编码概念以生成新任务;对每个任务的多个响应进行采样,选择验证通过的示例来进行指令调优;使用纯自生成的指令数据对基础代码模型进行自对齐。
实验表明,SelfCodeAlign在多种编码任务中表现出强大的性能,包括函数生成、类生成、数据科学编程和代码编辑等。与类似规模的先进开源模型相比,SelfCodeAlign在基准测试中取得了更好的成绩。
【新智元导读】
代码模型可以自己进化,利用自身生成的数据来进行指令调优,效果超越GPT-4o直接蒸馏!
LLM作为智能的基座,可以衍生出各种能力。
代码能力就是其中一种:程序补全、注释、优化、修bug、测试等等。
而想要充分发挥LLM的巨大潜力,指令调优(Instruction Tuning)是至关重要的一步。
当前,高质量指令数据主要有两个来源:人工注释和蒸馏。
前者很贵,后者则受到限制。于是,人们开始另辟蹊径。
近日,来自UIUC、伯克利等机构的研究人员提出了SelfCodeAlign。
这篇工作首次证明了,可以通过自对齐(Self-Alignment)来获得强大的代码模型,不需要人工注释或者蒸馏,而且效果更好!
论文地址:https://arxiv.org/pdf/2410.24198
SelfCodeAlign在整个数据生成过程中,使用相同的基础模型进行推理,分为三步:
首先,从高质量的种子片段中提取不同的编码概念,以生成新任务。
然后,对每个任务的多个响应进行采样,将每个响应与测试用例配对,并在沙盒环境中对其进行验证。
最后,选择验证通过的示例来进行指令调优。
SelfCodeAlign是第一个完全透明的pipeline,使用纯自生成的指令数据对基础代码模型进行自对齐。
实验表明,使用SelfCodeAlign对CodeQwen1.5-7B进行指令微调,在HumanEval+上实现了67.1 pass@1,超过了参数量大10倍的CodeLlama-70B-Instruct。
在全部的三项基准测试(代码生成、数据科学编程、代码编辑)中,SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。
此外,在HumanEval+上,SelfCodeAlign的性能超越了基于GPT-3.5-Turbo的蒸馏方法(包括 OSS-Instruct(61.6)和Evol-Instruct(59.1)),甚至打败了GPT-4o的直接输出蒸馏(65.9)!
这意味着,从模型自己的数据分布对齐中学习,可能胜于使用强大的teacher模型。
SelfCodeAlign适用于各种规模(从3B到33B)的LLM,比如StarCoder2-Struct就是以此为基础创建的(base model为StarCoder2-15B)。
下图以StarCoder2-15B的指令调优过程为例,展示了SelfCodeAlign的流程:
种子选择
SelfCodeAlign首先从The Stack V1中收集一组种子代码片段。
此步骤中,确保种子片段多样化且高质量至关重要,它们将用作生成说明和响应的起点。
为了收集种子片段,研究人员从The Stack V1中提取所有带有文档字符串的Python函数,然后应用一系列过滤规则来确保种子片段的质量。
通过运行Pyright类型检查器、删除基准项、过滤掉文档质量差的函数,以及删除几乎重复的函数,总共从5M个函数中过滤出250k个Python函数。
概念生成
收集种子函数后,开始执行Self-OSS-Instruct,对OSS-Instruct的自对齐进行修改,以生成不同的指令。
具体来说,这里采用上下文学习(In-context learning)让基础模型从给定的种子代码片段中自行生成指令。
You are an extremely intelligent AI coding assistant . Please provide an accurate and reliable response to each user instruction . After delivering your response , verify its consistency and correctness by writing a series of executable tests .
Create a series of independent coding tasks that are original , distinct , diverse , and high - quality , fostering logical thinking . Each task must adhere to specified properties :
- category : the type of task ( e . g . , function implementation , class implementation , or program implementation )
- language : the programming language to be used
- difficulty : the complexity level of the task ( e . g . , easy , medium , or hard )
- concepts : fundamental principles and techniques the task is designed to incorporate , which developers must understand to effectively solve the task
Design the tasks so that the relevant concepts emerge naturally as the most appropriate solutions , without explicitly mentioning that a particular concept should be used .
指令生成过程分为以下两个步骤:
概念提取:对于每个种子函数,提示基本模型生成函数中存在的代码概念列表。代码概念是指编程中使用的基本原则和技术,例如模式匹配和数据类型转换。
指令生成:提示基本模型根据已识别的代码概念和两个附加属性(难度和类别)自生成编码任务,随机抽样以丰富生成指令的多样性。
执行筛选
根据Self-OSS-Struct生成的指令,下一步是将每条指令与高质量teacher模型(比如GPT-4)相匹配。
不过,很多强大的商业模型不允许用蒸馏来做这种事,而且,teacher模型也不一定就更加厉害,毕竟老师也会犯错误,这时就会起到负作用。
作者建议,明确指示模型在产生与自然语言交错的响应后,生成用于自我验证的测试来自对齐基本模型。
具体来说,对于每个指令,基本模型对格式的多个输出(响应、测试)进行采样,然后过滤掉那些在沙箱环境中测试失败的响应。然后,为每个指令随机选择一个验证通过的响应,应用于最终的指令微调数据集。
实验评估
本文全面评估了SelfCodeAlign在各种编码任务中的表现,包括:
函数生成:给定自然语言描述,要求LLM生成一个自包含函数,并测试函数的正确性和效率。
类生成:给定一个包含类级和方法级信息的代码框架,要求LLM生成类及其方法。
数据科学编程:给定数据科学任务的描述和部分代码片段,要求LLM完成代码片段以通过相应的测试。
文件级代码编辑:提供文件内容后,要求模型按照自然语言指令编辑程序。
公平起见,比较对象为类似规模的最先进的开源模型,基准测试选择LiveCodeBench。
LiveCodeBench是无污染评估的基准,包含2023年5月至2024年2月期间的400项最新Python算法挑战。这些任务来自Codeforce和LeetCode等网站,每个网站平均有20多个测试用例。