专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

极市直播预告｜CVPR2024：视觉新骨干ViT-CoMer在密集预测任务中的应用

极市平台 · 公众号 · · 2024-03-26 22:00

正文

↑ 点击蓝字关注极市平台

|极市线上分享第128期 |

一直以来，为让大家更好地了解学界业界优秀的论文和工作，极市已邀请了超过 100 位技术大咖嘉宾，并完成了 127 期极市线上直播分享。

往期分享请前往 bbs.cvmart.net/topics/149 或直接 阅读原文 ，也欢迎各位小伙伴自荐或推荐更多优秀的技术嘉宾到极市进行技术分享，与大家一起交流学习~~

本次分享我们邀请到了 百度资深算法工程师 夏春龙 ，为大家详细介绍他们中稿CVPR2024的工作：

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions

GitHub： https://github.com/Traffic-X/ViT-CoMer

论文地址： https://arxiv.org/pdf/2403.07392.pdf

“尽管 Vision Transformer 在计算机视觉中取得了显著成功，但由于缺乏局部信息交互和特征尺度多样性有限，它在密集预测任务中的表现并不理想。大多数现有研究致力于设计特定的视觉 transformer 框架来解决上述问题，这增加了额外的预训练成本。

因此，我们提出了一种简洁的、无需预训练的、卷积多尺度特征增强的 ViT 骨干网络，命名为 ViT-CoMer ，它解决了 ViT 尺度单一的问题，同时通过层级特征之间的相互交互，语义信息更加丰富。与最先进的方案相比， ViT-CoMer 能够在 COCO val2017 上达到了 64.3% AP ，在 ADE20K val 上达到了 62.1% mIoU ，均可与最先进的方法媲美。我们希望 ViT-CoMer 能成为密集预测任务的新骨干，以促进未来的研究。”

直播信息

时间

2024年3月28日（周四）： 20:00-21:00

主题

视觉新骨干 ViT-CoMer 在密集预测任务中的应用

直播

B站也将同步进行

http://live.bilibili.com/3344545

嘉宾介绍

夏春龙

西安交通大学硕士，现任百度资深算法工程师，交通感知算法负责人，研究方向有交通感知大模型、 2&3D 检测和轻量化框架设计等。

关于分享

➤分享大纲

1、概念介绍

密集预测
卷积神经网络
Transformer

2、方案动机

现有方案的优缺点
本文方案

3、方案实现

框架介绍
多感受野特征金字塔（MRFP）
CNN-Transformer特征层级交互（CTI）

4、方案结果

效果
性能
可拓展性
可视化

参与方式

往期回顾

极市平台专注分享计算机视觉前沿资讯和技术干货，特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验，目前已成功举办 127 期线上分享。近期在线分享可点击以下标题查看：

请到「今天看啥」查看全文

推荐文章

天池大数据科研平台 · DeepSeek R1 最新全面综述：R1 为什么能让 LLM 像人一样思考？

15 小时前

人工智能与大数据技术 · Meta被曝AI训练「黑幕」！下载81.7TB盗版数据“喂养”模型，CEO竟称不知情？

3 天前

遂宁新闻网 · 最新！买这些车辆能减免一笔钱

2 天前

遂宁新闻网 · 最新！买这些车辆能减免一笔钱

2 天前

数据派THU · 人工智能是不是走错了方向？

6 天前

数据派THU · 294篇文献！浸大TMLR课题组最新综述：深度学习模型反演攻击的攻防之道

4 天前

亿恩 · 干货 | 亚马逊Review政策变动后，获取好评可以这样做！

8 年前

好狗狗 · 这只常年在外流浪的猫攻下了消防局，成为消防局的特聘首席捕鼠官！

8 年前

InsDaily · 老外到底多羡慕中国?这个答案刷爆了朋友圈！

7 年前

迷彩虎 · 小说连载丨含泪告别，火星我们来了！

7 年前

海报网 · 漂亮| 头发长了高俊熙更美了，帅气的她走起可爱路线我竟然认不出！

7 年前

极市直播预告｜CVPR2024：视觉新骨干ViT-CoMer在密集预测任务中的应用

正文

CVPR'23-UniHCP：超越专才，以人体为中心的统一模型

ICCV2023-FLatten Transformer：简单高效的线性注意力模型

Meta-Transformer：一个学习框架解决十二种模态

请到「今天看啥」查看全文