22年12月华盛顿大学、微软和A2I的论文“Editing Models with Task Arithmetic”。
改变预训练模型的行为方式——例如,提高其在下游任务中的性能或减轻预训练期间学到的偏差——是开发机器学习系统时的常见做法。该文控制神经网络的行为,以任务向量为中心。任务向量指定预训练模型权重空间的方向,以便沿该方向的运动可以提高任务的性能。在对任务进行微调后,从同一模型的权重中减去预训练模型的权重来构建任务向量。这些任务向量可以通过算术运算(例如求反和加法)进行修改和组合在一起,并且相应地控制所得模型的行为。否定任务向量会降低目标任务的性能,而控制任务的模型行为几乎没有变化。此外,将任务向量添加在一起可以同时提高多个任务的性能。最后,当任务通过“A 到 B 就像 C 到 D”形式的类比关系链接时,组合来自三个任务的任务向量可以提高第四个任务的性能,即使第四个任务没有数据。任务算术是一种简单、高效且有效的模型合并方法。