专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
天池大数据科研平台  ·  DeepSeek R1 最新全面综述:R1 ... ·  15 小时前  
人工智能与大数据技术  ·  Meta被曝AI训练「黑幕」!下载81.7T ... ·  3 天前  
遂宁新闻网  ·  最新!买这些车辆能减免一笔钱 ·  2 天前  
遂宁新闻网  ·  最新!买这些车辆能减免一笔钱 ·  2 天前  
数据派THU  ·  人工智能是不是走错了方向? ·  6 天前  
数据派THU  ·  294篇文献!浸大TMLR课题组最新综述:深 ... ·  4 天前  
51好读  ›  专栏  ›  极市平台

极市直播预告|CVPR2024:视觉新骨干ViT-CoMer在密集预测任务中的应用

极市平台  · 公众号  ·  · 2024-03-26 22:00

正文

↑ 点击 蓝字 关注极市平台

|极市线上分享第128期 |

一直以来,为让大家更好地了解学界业界优秀的论文和工作,极市已邀请了超过 100 位技术大咖嘉宾,并完成了 127 期极市线上直播分享。

往期分享请前往 bbs.cvmart.net/topics/149 或直接 阅读原文 ,也欢迎各位小伙伴自荐或推荐更多优秀的技术嘉宾到极市进行技术分享,与大家一起交流学习~~

本次分享我们邀请到了 百度资深算法工程师 夏春龙 ,为大家详细 介绍他们中稿CVPR2024的工作:

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions

GitHub: https://github.com/Traffic-X/ViT-CoMer

论文地址: https://arxiv.org/pdf/2403.07392.pdf

“尽 Vision Transformer 在计算机视觉中取得了显著成功,但由于缺乏局部信息交互和特征尺度多样性有限,它在密集预测任务中的表现并不理想。 大多数现有研究致力于设计特定的视觉 transformer 框架来解决上述问题,这增加了额外的预训练成本。
因此,我们提出了一种简洁的、无需预训练的、卷积多尺度特征增强的 ViT 骨干网络,命名为 ViT-CoMer 它解决了 ViT 尺度单一的问题,同时通过层级特征之间的相互交互,语义信息更加丰富 与最先进的方案相比, ViT-CoMer 能够在 COCO val2017 上达到了 64.3% AP ,在 ADE20K val 上达到了 62.1% mIoU ,均可与最先进的方法媲美。 我们希望 ViT-CoMer 能成为密集预测任务的新骨干,以促进未来的研究。”

01

直播信息

时间

2024年3月28日(周四): 20:00-21:00


主题

视觉新骨干 ViT-CoMer 密集预测任务 中的应用
直播

B站也将同步进行

http://live.bilibili.com/3344545

02

嘉宾介绍

夏春龙

西安交通大学硕士,现任百度资深算法工程师, 交通感知算法负责人, 研究方向有交通感知大模型、 2&3D 检测和轻量化框架设计等。


03

关于分享

➤分享大纲

1、 概念介绍

  • 密集预测

  • 卷积神经网络

  • Transformer

2、 方案动机

  • 现有方案的优缺点

  • 本文方案

3、 方案实现

  • 框架介绍

  • 多感受野特征金字塔(MRFP)

  • CNN-Transformer特征层级交互(CTI)

4、 方案结果

  • 效果

  • 性能

  • 可拓展性

  • 可视化

04

参与方式

05

往期回顾

极市平台专注分享计算机视觉前沿资讯和技术干货,特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验,目前已成功举办 127 期线上分享 。近期在线分享可 点击以下标题 查看:







请到「今天看啥」查看全文