专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
武汉大学学生会  ·  DeepSeek带你玩转武大樱花 ·  昨天  
四川大学本科招生  ·  川大来了 | ... ·  昨天  
四川大学本科招生  ·  川大来了 | ... ·  昨天  
常观  ·  常州一高校,将搬新校区! ·  2 天前  
常观  ·  常州一高校,将搬新校区! ·  2 天前  
武汉大学学生会  ·  我的耳机分你一半|聆听春日的声音 ·  2 天前  
四川大学本科招生  ·  全寝保研!川大姑娘们携手同行,奔赴梦想! ·  2 天前  
四川大学本科招生  ·  全寝保研!川大姑娘们携手同行,奔赴梦想! ·  2 天前  
51好读  ›  专栏  ›  AI算法与图像处理

顶会新方向!全新多模态大模型统一分割框架

AI算法与图像处理  · 公众号  ·  · 2024-11-07 17:00

正文

当前普遍的分割方法擅长像素级的图像和视频理解,但缺乏推理能力,且不能通过文本指令进行控制。大型视觉-语言模型虽展现出基于视觉的对话和推理能力的强大,却缺失像素级理解,且难以接受视觉提示。 昆仑天工首发提出OMG-LLaVA框架,将强大的像素级视觉理解与推理能力相结合,可以接受各种视觉和文本提示以实现灵活的用户交互, 它将图像级、目标级和像素级的推理和理解任务统一在一个模型中。

读论文是学习新知识的最快途径,研梦非凡于11月8日晚(周五),邀请了多模态专家王导师,为大家独家详解 《顶会新方向!CVPR+NeurIPS:分割大模型》 ,从 OMG-Llava框架 O MG-Seg编码器 重点讲解OMG-Llava的模型架构以及实验 包括两篇顶会论文的分析解读, 最后代码演示 ,一节课速通分割大模型,领会顶会idea!

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取200篇前沿论文(图像分割+大模型+多模态)

直播课内容预览

NeurIPS‘24 《OMG-LLaVA : Bridging Image-level,Object-level,Pixel-level Reasoning and Understanding》

一、研究背景

  1. 关注问题
  • 普遍的分割方法
  • 大型视觉-语言多模态模型
  1. 主要贡献
  • 提出OMG-LLaVA
  • 使用通用分割方法作为视觉编码器
  • 感知先验嵌入

二、相关工作

CVPR'24 《OMG-Seg : Is One Model Good Enough For All Segmentation?》

  1. 多模态大语言模型MLLMs
  • 仅具有图像级能力的MLLMs
  • 具有目标级能力的MLLMs
  • 具有像素级能力的MLLMs
  • 具有目标级和像素级能力但系统非常复杂的MLLMs
  • OMG-LLaVA的架构
  1. 视觉分割任务
  • 语义分割
  • 实例分割
  • 全景分割
  1. 分割模型的对比

三、方法:OMG-LLaVA

  1. Framework
  2. OMG Decoder
  3. 感知先验嵌入
  4. Training

四、实验

  1. 训练与测试
  2. 数据集设置
  3. 实现细节
  4. 实验结果

五、总结和未来研究方向

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取200篇前沿论文(图像分割+大模型+多模态)






请到「今天看啥」查看全文