专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据分析和人工智能  ·  中国最难入职的10家IT公司排行榜.. ·  2 天前  
大数据分析和人工智能  ·  45个DeepSeek操作技巧,效率翻倍 ·  2 天前  
CDA数据分析师  ·  CDA数据人才能力模型与认证体系简介​ ·  昨天  
CDA数据分析师  ·  CDA数据人才能力模型与认证体系简介​ ·  2 天前  
数据派THU  ·  DeepSeek R1 ... ·  4 天前  
51好读  ›  专栏  ›  数据派THU

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

数据派THU  · 公众号  · 大数据  · 2025-03-11 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

本文旨在通过最小化监督且无需人工干预的方式,为细粒度类别寻找具有视觉区分度的提示。


图片

视觉-语言模型(VLMs)通过大规模成对的图像-文本数据进行训练,在图像分类领域取得了显著进展。其性能在很大程度上依赖于提示(prompt)的质量。尽管最近的研究表明,由大型语言模型(LLMs)生成的视觉描述能够增强VLMs的泛化能力,但由于LLMs的“幻觉”问题,针对特定类别的提示可能不准确或缺乏区分度。本文旨在通过最小化监督且无需人工干预的方式,为细粒度类别寻找具有视觉区分度的提示。我们提出了一种基于进化的算法,逐步优化语言提示,从任务特定的模板到类别特定的描述。与优化模板不同,类别特定的候选提示搜索空间呈爆炸式增长,这增加了提示生成成本、迭代次数以及过拟合问题。为此,我们首先引入了几种简单但有效的基于编辑和进化的操作,通过一次性查询LLMs生成多样化的候选提示。接着,提出了两种采样策略,以找到更好的初始搜索点并减少遍历的类别数量,从而节省迭代成本。此外,我们应用了一种带有熵约束的新型适应度评分来缓解过拟合问题。在具有挑战性的单样本图像分类任务中,我们的方法优于现有的基于文本提示的方法,并在13个数据集上提升了LLM生成描述方法的效果。同时,我们证明了我们的最优提示能够改进基于适配器的方法,并在不同骨干网络中有效迁移。我们的代码已公开在此处。






请到「今天看啥」查看全文