专栏名称: 计算机视觉研究院
主要由来自于大学的研究生组成的团队,本平台从事机器学习与深度学习领域,主要在人脸检测与识别,多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌,让更多相关领域的人了解本团队,结识更多相关领域的朋友,一起来学习,共同进步!
目录
相关文章推荐
庞门正道  ·  这包装,密谋掏空你钱包! ·  17 小时前  
ZaomeDesign  ·  每日灵感丨二月二十日 ·  2 天前  
建E室内设计网  ·  璞羽设计 | 2025年春招纳新 ·  4 天前  
建E室内设计网  ·  2025春季招聘,北京、上海、广州、深圳等2 ... ·  2 天前  
51好读  ›  专栏  ›  计算机视觉研究院

视觉语言大模型新SOTA!高效微调方法性能碾压LoRA

计算机视觉研究院  · 公众号  ·  · 2024-12-06 09:45

正文

MemVP将视觉特征直接嵌入FFN参数中,实现高效的多模态微调。 与LoRA、VL-Adapter等现有方法相比,MemVP在训练和推理速度上提升了2倍,同时在下游任务中保持了更高的精度。

为了让大家更好的掌握MemVP,研梦非凡于12月11日晚(周三),邀请了多模态专家王导师,为大家独家详解 视觉语言融合新范式MemVP:基于记忆空间的多模态大模型高效微调方法》 ,从构建视觉-语言模型的发展和弊端到大型视觉语言模型的详细介绍, 重点讲解MemVP模型架构的代码实现和实验分析 ,并对未来研究方向进行详细分析,一文速通MemVP,为你的研究带来新的思路和突破!

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取200篇前沿论文(模型微调+大模型+多模态)

直播课内容预览

ICML'24 《Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning》

一、研究背景

  1. 关注问题
  • 视觉-语言模型的构建的现状
  • 输入空间的视觉提示方法存在弊端

二、相关工作

《Transformer Feed-Forward Layers Are Key-Value Memories》

  1. FF层
  2. 键值对
  3. 实验结果

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取300篇前沿论文(模型编辑+大模型+多模态)

三、大型视觉语言模型

  1. LLava
  2. InstructBLIP
  3. MemVP

四、方法:MemVP

  1. MemVP模型架构
  2. MemVP动机

五、实验

  1. 实验目的与方法
  2. 实验设置
  3. 实验结果
  4. 实验对比
  5. 训练和推理速度比较
  6. 消融实验

六、总结

  1. 问题定义
  2. MemVP方法
  3. 动机
  4. 实验验证

👇🏻扫描二维码找助教0元预约直播课!

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取200篇前沿论文(模型微调+大模型+多模态)

直播导师介绍

王导师

【学术背景】拥有丰富的深度学习研究、论文发表经验,多篇SCI论文、EI会议论文(一作)

【研究方向】大语言模型、视觉语言模型、多模态学习,以及自然语言处理、进化算法等

👇🏻扫描二维码找助教0元预约直播课!约导师meeting~

ps:研梦非凡开设的前沿论文系列直播,旨在帮助大家提升读论文技能,快速抓住重点,掌握有效方法,进而找到创新点,轻松产出科研论文成果。

研梦非凡科研论文指导

科研论文idea,并非拍脑门就能产生,需要经过一遍遍做实验、跑代码、改模型、思路修正。 研梦非凡专业论文指导,和研梦导师一起找idea,共同解决科研问题。 授之以渔——搭建论文写作框架,增删改查,针对性实验指导!哪里薄弱补哪里!

<<< 左右滑动见更多 >>>

研梦非凡部分导师介绍







请到「今天看啥」查看全文