专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  梯度累积的隐藏陷阱:Transformer库 ... ·  2 天前  
数据派THU  ·  独家 | 用AI打造你的竞争优势 ·  4 天前  
大数据分析和人工智能  ·  很严重了,我劝大家极限存钱吧... ·  6 天前  
国家数据局  ·  数字中国建设典型案例之二十五 | ... ·  3 天前  
软件定义世界(SDX)  ·  央国企成立数科公司底层逻辑与相关定位 ·  1 周前  
51好读  ›  专栏  ›  数据派THU

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

数据派THU  · 公众号  · 大数据  · 2024-11-01 17:24

正文

来源:专知

本文约1000字,建议阅读5分钟

本文提出了一种简单但可解释的提示优化器(IPO),它利用大型语言模型(LLM)动态生成文本提示。


预训练的视觉-语言模型(如CLIP)已经成功适应了多种下游任务。然而,它们的性能很大程度上依赖于输入文本提示的具体性,这需要精心设计提示模板。当前的提示优化方法通常通过梯度下降来学习提示,将提示视为可调参数。然而,这些方法容易导致在训练时看到的基础类别上的过拟合,并且生成的提示通常不再为人类所理解。
本文提出了一种简单但可解释的提示优化器(IPO),它利用大型语言模型(LLM)动态生成文本提示。我们引入了一个提示优化提示(Prompt Optimization Prompt),它不仅引导LLM创建有效的提示,还存储了过去提示及其性能指标,提供了丰富的上下文信息。此外,我们结合了一个大型多模态模型(LMM),通过生成图像描述,基于视觉内容进行调整,增强了文本和视觉模态之间的交互。这样可以为数据集创建特定的提示,既提高了泛化性能,又保持了人类的可理解性。**
通过在11个数据集上的广泛测试,我们发现IPO不仅提升了现有基于梯度下降的提示学习方法的准确性,还显著提高了生成提示的可解释性。通过利用LLM的优势,我们的方法确保生成的提示保持人类可理解性,从而促进了视觉-语言模型的透明度和可监督性。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU