专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  线性化注意力综述:突破Softmax二次复杂 ... ·  3 天前  
不跪的世界  ·  一大波数据来袭 ·  2 天前  
天池大数据科研平台  ·  一文揭秘|如何速成RAG+Agent框架大模 ... ·  2 天前  
人工智能与大数据技术  ·  DeepSeek 推出移动版 ... ·  5 天前  
51好读  ›  专栏  ›  数据派THU

【AAAI2025】ViPCap: 基于检索的文本视觉提示用于轻量级图像描述

数据派THU  · 公众号  · 大数据  · 2025-01-15 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

我们提出了ViPCap,一种用于轻量级图像描述的新型基于检索的文本视觉提示。


最近的轻量级图像描述模型使用检索数据,主要集中在文本提示上。然而,以往的研究仅将检索到的文本作为文本提示,视觉信息仅依赖于CLIP视觉嵌入。因此,存在一个问题,即提示中固有的图像描述未能充分反映在视觉嵌入空间中。为了解决这一问题,我们提出了ViPCap,一种用于轻量级图像描述的新型基于检索的文本视觉提示。ViPCap利用检索到的文本和图像信息作为视觉提示,增强模型捕捉相关视觉信息的能力。通过将文本提示映射到CLIP空间,并生成多个随机高斯分布,我们的方法利用采样探索随机增强的分布,并有效地检索包含图像信息的语义特征。这些检索到的特征被集成到图像中,并作为视觉提示,进而在COCO、Flickr30k和NoCaps等数据集上提高了性能。实验结果表明,ViPCap在效率和有效性上显著超越了以往的轻量级描述模型,展示了其作为即插即用解决方案的潜力。源代码可在https://github.com/taewhankim/VIPCAP找到。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU