专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

NeurIPS 2024 | 基于视觉-语言预训练模型的提示词微调理论分析框架

PaperWeekly · 公众号 · 科研 · 2024-12-29 22:19

正文

简介

本文介绍了上海科技大学 YesAI Lab 在 NeurIPS 2024 发表的工作——《Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method》。

该研究针对大型视觉-语言模型（如 CLIP）在联邦学习（FL）场景中的提示词微调，构建了理论分析框架。通过引入特征动力学理论，研究者设计了一个理论分析框架，并提出了 PromptFolio（提示词组合）机制，一个在联邦场景中平衡全局与个性化提示词的新方法。

PromptFolio 通过融合本地和全局提示词，既保留了任务相关特征又抑制了任务无关特征。通过严格的理论分析与实验验证，该研究展示了该方法在实际场景中的高效性。

该工作上海科技大学 2023 级博士生潘比康为第一作者，由石野教授和黄伟博士指导完成。

论文标题：

Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method

论文地址：

https://arxiv.org/pdf/2409.19610

代码地址：

https://github.com/PanBikang/PromptFolio

研究背景

随着视觉-语言基石模型（VLMs）（如 CLIP）的发展，其在联邦学习中的应用变得日益重要。提示词微调因其通信开销小和计算资源需求低，在联邦学习中得到广泛关注。然而，该方法仍面临两大难题：

理论空白：当前缺乏统一的框架来解释提示词在联邦学习场景下的机制和优化策略。
数据异构性：联邦学习中的用户数据分布往往存在高度差异，如何同时满足个性化学习和全局泛化的需求？

为了解决这些问题，作者基于特征学习理论开发了一种理论框架，并从投资组合优化的视角设计了 PromptFolio 算法，实现了全局与本地提示词的高效结合。

理论框架：从特征学习到提示词组合

为了解决这些问题，研究者基于特征学习理论（Feature Learning Theory）提出了一个全新的理论框架，并从投资组合优化的视角设计了 PromptFolio 算法，实现了全局与局部提示词的高效融合。

核心问题：提示词的优化目标是什么？如何衡量提示词的效果？

研究者从特征学习理论出发，将提示词的优化过程分解为信号学习（任务相关特征）与噪声记忆（任务无关特征）的动态平衡。他们提出，提示词的效果可以通过任务相关系数与任务无关系数的比值（signal-to-noise ratio, SNR）来评估。

1. 特征分解与学习动态

在理论中，特征被分为两部分：

任务相关特征：反映模型对任务本质的理解，如分类中的关键信息。
任务无关特征：背景噪声或无关信息，会干扰模型的泛化能力。

研究者推导出，提示词在学习过程中，其系数（coefficients）可以通过以下动态方程描述：

此外，文章中通过测试损失（test loss）的期望值来度量提示词的有效性，具体来说，测试损失可以表示为由任务相关和任务无关特征的系数控制的随机变量。

最终模型性能通过任务相关和任务无关特征系数的比值进行评价，这一比值越高，模型性能越优。

2. 投资组合视角的提示词混合

投资组合优化是一种经典的金融理论，旨在通过权衡收益和风险，找到最优的资产分配策略。启发于前面所述的性能评价方式，我们将任务相关系数看作投资组合的“收益”，任务无关系数看作投资组合的“风险”，我们提出了 PromptFolio 机制。

PromptFolio 机制将全局提示词和本地提示词视为两种投资组合资产，并将其组合问题建模为投资组合优化问题。通过结合全局提示词（泛化能力）和本地提示词（个性化能力），PromptFolio 能够最大化任务相关特征的比例，同时抑制任务无关特征的干扰。

全局提示词：提供泛化能力，适应全局数据分布。
本地提示词：增强个性化能力，优化本地数据。

提示词组合公式为：

其中作为全局和本地提示词的混合系数，用于平衡联邦学习中的泛化性与个性化。通过基于所提出的理论框架进行推导，得到了以下定理：

定理 1：PromptFolio 优势

在任意给定混合比例下，PromptFolio 的性能总是优于单独使用全局提示词或局部提示词的测试损失：

并且我们在不同数据集下的实验结果也验证了这个现象：

定理 2：最优混合系数

我们还进一步推导了最优混合系数的表达式：

其中，和表示全局和本地的任务相关与无关特征的比值，表示全局与局部特征的相关性。这个公式表明，当数据异构性较大时，最优的参数更倾向于增加局部提示词的权重，从而增强个性化性能，而我们的实验结果也验证了这个现象。

此外，我们还做了一系列比较实验，我们的方法虽然比较简单，但是在性能上也有着比较强的竞争力。

此外我们还通过测试不同的 shot 数以及不同的模型架构，验证了 PromptFolio 机制，也展示出理论分析框架的有效性。

综上所述，本文通过引入特征动力学理论，构建了一个基于视觉-语言基石模型的理论分析框架，并且以“提示词组合”机制为例，展示出了该理论分析框架的有效性。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧