专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

极市直播回放第128期丨CVPR2024：视觉新骨干ViT-CoMer在密集预测任务中的应用

极市平台 · 公众号 · · 2024-04-02 22:00

正文

↑ 点击蓝字关注极市平台

本次分享我们邀请到了 百度资深算法工程师 夏春龙 ，为大家详细介绍他们中稿CVPR2024的工作：

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions

GitHub： https://github.com/Traffic-X/ViT-CoMer

论文地址： https://arxiv.org/pdf/2403.07392.pdf

“尽管 Vision Transformer 在计算机视觉中取得了显著成功，但由于缺乏局部信息交互和特征尺度多样性有限，它在密集预测任务中的表现并不理想。大多数现有研究致力于设计特定的视觉 transformer 框架来解决上述问题，这增加了额外的预训练成本。

因此，我们提出了一种简洁的、无需预训练的、卷积多尺度特征增强的 ViT 骨干网络，命名为 ViT-CoMer ，它解决了 ViT 尺度单一的问题，同时通过层级特征之间的相互交互，语义信息更加丰富。与最先进的方案相比， ViT-CoMer 能够在 COCO val2017 上达到了 64.3% AP ，在 ADE20K val 上达到了 62.1% mIoU ，均可与最先进的方法媲美。我们希望 ViT-CoMer 能成为密集预测任务的新骨干，以促进未来的研究。”

后台回复“ 极市直播 ”或点击 阅读原文 即可获取PPT

➤详情传送门

极市直播预告｜CVPR2024：视觉新骨干ViT-CoMer在密集预测任务中的应用

➤ 回放视频在这里☟

https://www.bilibili.com/video/BV1nm421E73X/