专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
FM93交通之声  ·  刘诗诗、吴奇隆,突传消息! ·  17 小时前  
钱江晚报  ·  已确认:全部关闭!正式退出中国市场 ·  昨天  
杭州交通918  ·  重磅!杭州萧山机场公路收费方式调整 ·  昨天  
51好读  ›  专栏  ›  极市平台

极市直播回放第128期丨CVPR2024:视觉新骨干ViT-CoMer在密集预测任务中的应用

极市平台  · 公众号  ·  · 2024-04-02 22:00

正文

↑ 点击 蓝字 关注极市平台
本次分享我们邀请到了 百度资深算法工程师 夏春龙 ,为大家详细 介绍他们中稿CVPR2024的工作:

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions

GitHub: https://github.com/Traffic-X/ViT-CoMer

论文地址: https://arxiv.org/pdf/2403.07392.pdf

“尽 Vision Transformer 在计算机视觉中取得了显著成功,但由于缺乏局部信息交互和特征尺度多样性有限,它在密集预测任务中的表现并不理想。 大多数现有研究致力于设计特定的视觉 transformer 框架来解决上述问题,这增加了额外的预训练成本。
因此,我们提出了一种简洁的、无需预训练的、卷积多尺度特征增强的 ViT 骨干网络,命名为 ViT-CoMer 它解决了 ViT 尺度单一的问题,同时通过层级特征之间的相互交互,语义信息更加丰富 与最先进的方案相比, ViT-CoMer 能够在 COCO val2017 上达到了 64.3% AP ,在 ADE20K val 上达到了 62.1% mIoU ,均可与最先进的方法媲美。 我们希望 ViT-CoMer 能成为密集预测任务的新骨干,以促进未来的研究。”
后台回复“ 极市直播 ”或点击 阅读原文 即可获取PPT
➤详情传送门
极市直播预告|CVPR2024:视觉新骨干ViT-CoMer在密集预测任务中的应用


回放视频在这里☟

https://www.bilibili.com/video/BV1nm421E73X/


PPT内容截图 (后台回复“ 极市直播 ”或点击 阅读原文 即可获取PPT)

往期视频在线观看
B站: http://space.bilibili.com/85300886#!/
腾讯视频: http://v.qq.com/vplus/8be9a676d97c74ede37163dd964d600c

往期线上分享集锦: http://m6z.cn/6qIJzE (或直接 阅读原文

如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取 最新CV干货


推荐阅读

极市直播第125期丨Ponder: 通用3D预训练模型,三维神经渲染模拟人类感知

极市直播第124期丨ICLR23:真实世界中的鲁棒目标检测,简单高效的目标检测域泛化方法

极市直播第123期丨ICCV 2023-DiffRate:Vision Transformer中的可微分token压缩率

极市直播第122期丨CVPR23 冠军方案-基于单目图像的绝对深度估计与3D场景重建(ICCV2023)

极市直播第121期丨ICCV2023-FLatten Transformer:简单高效的线性注意力模型







请到「今天看啥」查看全文