本次分享我们邀请到了
百度资深算法工程师
夏春龙
,为大家详细
介绍他们中稿CVPR2024的工作:
ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions
GitHub:
https://github.com/Traffic-X/ViT-CoMer
论文地址:
https://arxiv.org/pdf/2403.07392.pdf
“尽
管
Vision Transformer
在计算机视觉中取得了显著成功,但由于缺乏局部信息交互和特征尺度多样性有限,它在密集预测任务中的表现并不理想。
大多数现有研究致力于设计特定的视觉
transformer
框架来解决上述问题,这增加了额外的预训练成本。
因此,我们提出了一种简洁的、无需预训练的、卷积多尺度特征增强的
ViT
骨干网络,命名为
ViT-CoMer
,
它解决了
ViT
尺度单一的问题,同时通过层级特征之间的相互交互,语义信息更加丰富
。
与最先进的方案相比,
ViT-CoMer
能够在
COCO val2017
上达到了
64.3%
AP
,在
ADE20K val
上达到了
62.1%
mIoU
,均可与最先进的方法媲美。
我们希望
ViT-CoMer
能成为密集预测任务的新骨干,以促进未来的研究。”
后台回复“
极市直播
”或点击
阅读原文
即可获取PPT
➤
回放视频在这里☟
https://www.bilibili.com/video/BV1nm421E73X/
➤
PPT内容截图
(后台回复“
极市直播
”或点击
阅读原文
即可获取PPT)
B站:
http://space.bilibili.com/85300886#!/
腾讯视频:
http://v.qq.com/vplus/8be9a676d97c74ede37163dd964d600c
往期线上分享集锦:
http://m6z.cn/6qIJzE
(或直接
阅读原文
)
如果觉得有用,就请分享到朋友圈吧!
推荐阅读
极市直播第125期丨Ponder: 通用3D预训练模型,三维神经渲染模拟人类感知
极市直播第124期丨ICLR23:真实世界中的鲁棒目标检测,简单高效的目标检测域泛化方法
极市直播第123期丨ICCV 2023-DiffRate:Vision Transformer中的可微分token压缩率
极市直播第122期丨CVPR23 冠军方案-基于单目图像的绝对深度估计与3D场景重建(ICCV2023)
极市直播第121期丨ICCV2023-FLatten Transformer:简单高效的线性注意力模型