当前普遍的分割方法擅长像素级的图像和视频理解,但缺乏推理能力,且不能通过文本指令进行控制。大型视觉-语言模型虽展现出基于视觉的对话和推理能力的强大,却缺失像素级理解,且难以接受视觉提示。
昆仑天工首发提出OMG-LLaVA框架,将强大的像素级视觉理解与推理能力相结合,可以接受各种视觉和文本提示以实现灵活的用户交互。
它将图像级、目标级和像素级的推理和理解任务统一在一个模型中。
为了让大家更好的掌握OMG-LLaVA,研梦非凡于11月8日晚(周五),邀请了多模态专家王导师,为大家独家详解
《OMG-LLaVA:像素级理解和智能分割图像全新突破》
,
从
OMG-Llava框架
到
O
MG-Seg编码器
,
重点讲解OMG-Llava的模型架构以及实验,
包括两篇顶会论文的分析解读,
最后代码演示
,一节课速通分割大模型,领会顶会idea!
👇🏻扫描二维码找助教0元预约直播课!
凡预约即可免费领取200篇前沿论文(图像分割+大模型+多模态)
直播课内容预览
NeurIPS‘24
《OMG-LLaVA : Bridging Image-level,Object-level,Pixel-level Reasoning and Understanding》
一、研究背景
-
-
二、相关工作
CVPR'24
《OMG-Seg : Is One Model Good Enough For All Segmentation?》
-
-
-
OMG-Seg:统一的框架来解决多种不同的图像和视频分割任务
👇🏻扫描二维码找助教0元预约直播课!
凡预约即可免费领取200篇前沿论文(图像分割+大模型+多模态)
三、方法:OMG-Llava
-
-
-
-
四、实验
-
-
-
-
五、总结和未来研究方向
👇🏻扫描二维码找助教0元预约直播课!
凡预约即可免费领取200篇前沿论文(图像分割+大模型+多模态)