专栏名称: 自动驾驶之心

自动驾驶开发者社区，关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

目录

相关文章推荐

福州日报 · 最新公示！福州这些乡镇、村获得省级示范！快来 ... · 昨天

知产力 · 论马库什权利要求在专利无效程序中的修改 · 2 天前

知产力 · 论马库什权利要求在专利无效程序中的修改 · 2 天前

51好读 › 专栏 › 自动驾驶之心

NeurIPS 2024 | OMG-LLaVA：全新多模态大模型统一分割框架

自动驾驶之心 · 公众号 · · 2024-11-05 07:30

正文

当前普遍的分割方法擅长像素级的图像和视频理解，但缺乏推理能力，且不能通过文本指令进行控制。大型视觉-语言模型虽展现出基于视觉的对话和推理能力的强大，却缺失像素级理解，且难以接受视觉提示。 昆仑天工首发提出OMG-LLaVA框架，将强大的像素级视觉理解与推理能力相结合，可以接受各种视觉和文本提示以实现灵活的用户交互。 它将图像级、目标级和像素级的推理和理解任务统一在一个模型中。

为了让大家更好的掌握OMG-LLaVA，研梦非凡于11月8日晚（周五），邀请了多模态专家王导师，为大家独家详解 《OMG-LLaVA：像素级理解和智能分割图像全新突破》 ，从 OMG-Llava框架 到 O MG-Seg编码器 ， 重点讲解OMG-Llava的模型架构以及实验， 包括两篇顶会论文的分析解读， 最后代码演示 ，一节课速通分割大模型，领会顶会idea！

👇🏻扫描二维码找助教0元预约直播课！

凡预约即可免费领取200篇前沿论文（图像分割+大模型+多模态）

直播课内容预览

NeurIPS‘24 《OMG-LLaVA : Bridging Image-level,Object-level,Pixel-level Reasoning and Understanding》

一、研究背景

关注问题

普遍的分割方法
大型视觉-语言多模态模型

主要贡献

提出OMG-LLaVA
使用通用分割方法作为视觉编码器
感知先验嵌入

二、相关工作

CVPR'24 《OMG-Seg : Is One Model Good Enough For All Segmentation?》

多模态大语言模型MLLMs

仅具有图像级能力的MLLMs
具有目标级能力的MLLMs
具有像素级能力的MLLMs
具有目标级和像素级能力但系统非常复杂的MLLMs
OMG-LLaVA的架构

视觉分割任务

语义分割
实例分割
全景分割

OMG-Seg：统一的框架来解决多种不同的图像和视频分割任务

👇🏻扫描二维码找助教0元预约直播课！

凡预约即可免费领取200篇前沿论文（图像分割+大模型+多模态）

三、方法：OMG-Llava

Framework
OMG Decoder
感知先验嵌入
Training

四、实验

训练与测试
数据集设置
实现细节
实验结果

五、总结和未来研究方向

👇🏻扫描二维码找助教0元预约直播课！

凡预约即可免费领取200篇前沿论文（图像分割+大模型+多模态）

请到「今天看啥」查看全文

推荐文章

福州日报 · 最新公示！福州这些乡镇、村获得省级示范！快来看看有没有你的家乡

昨天

知产力 · 论马库什权利要求在专利无效程序中的修改

2 天前

知产力 · 论马库什权利要求在专利无效程序中的修改

2 天前

哈佛商业评论 · 王石和褚时健的情谊：两个懂得“沉浮”的人对“沉浮”的解读

8 年前

每日健康知识 · 每天坚持刷牙，牙齿却一颗颗地掉…医生说这是在“自残”！

8 年前

大爱猫咪控 · 清明节过后，第一天上班时的你...

7 年前

军事纵横 · 男人和女人发生关系，到底谁更吃亏？

7 年前

上海书评 · 韦力︱欧阳修、王安石与“三苏”的祠与墓

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!