专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
财宝宝  ·  看起来,我家婆姨好温油啊-202502082 ... ·  2 天前  
记忆承载3  ·  房地产价格与你的关系,远大于和地方的关系 ·  2 天前  
财宝宝  ·  回顾一下春节-20250207221212 ·  3 天前  
财宝宝  ·  如果还不起月供了怎么办? ... ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

征稿 | CVPR 2025 Workshop 第一届像素级视觉基础模型研讨会征稿启动

我爱计算机视觉  · 公众号  ·  · 2025-01-11 22:30

正文




关注公众号,发现CV技术之美




近年来,基础模型(Foundation Models)在自然语言处理领域取得了显著进展,其中以 GPT 系列为代表。这些模型规模庞大,通过自监督学习或视觉语言建模训练于多样化的数据集上,展现了强大的适应能力和泛化性能,尤其在零样本和小样本任务中表现出色。然而,与语言基础模型已相对成熟相比,视觉领域的基础模型及其在各种任务中的应用仍处于发展的初中期阶段。

尽管如此,视觉基础模型(Vision Foundation Models, VFM)正吸引越来越多的关注并取得持续进展。一些最新的模型包括基于自监督训练的 DINO 系列,以及结合图像和文本数据的 CLIP、Flamingo 和 Llava 等。此外,像素级视觉基础模型也在近年涌现,如 OMG-LLava 和 SAM 系列。

本次研讨会旨在汇聚致力于开发和应用视觉基础模型于像素级理解任务的研究者,共同探讨这一领域的重要方向,包括图像分割、视频分割、目标追踪、动作-行为分割、深度估计及运动估计等。研讨会将重点讨论视觉基础模型在像素级理解任务中的潜在应用机会,特别是在低资源环境下可能带来的社会积极影响。例如,这些模型能够为缺乏大规模标注数据集的边缘化社区提供支持。同时,我们将探讨这些模型可能带来的风险及其缓解方法。

研讨会将包括7场主题报告,涵盖新兴研究者与资深专家的多样化视角,还设有两场海报展示和精选论文报告。我们鼓励提交任何与视觉基础模型在像素级理解任务中的研究或应用相关的文章,共同推动这一领域的发展。

  • 研讨会名称:Pixel-level Vision Foundation Models
  • 研讨会时间:2025年6月12日
  • 研讨会主页:https://sites.google.com/view/pixfoundation/
  • 投稿地址:https://cmt3.research.microsoft.com/PixFoundation2025
  • 研讨会相关文档:https://docs.qq.com/pdf/DRHJYSUNQak5KUmZp

研讨会和征稿主题

我们鼓励提交符合以下主题的研究论文,同时也欢迎其他与视觉基础模型在像素级理解任务中相关的研究:

  • 视觉基础模型在像素级图像,视频和多模态理解任务中的应用,包括:像素级的定位与推理、图像分割、指示性分割及其视频对应任务、视频分割、目标追踪、动作-行为分割、深度估计、运动估计等。
  • 视觉基础模型的适应性、泛化能力及其提示工程(prompting)。
  • 视觉基础模型及其训练数据的解释性与基准测试研究。
  • 视觉基础模型在实际场景中的应用和社会影响。

投稿时间节点

  • 提交截止日期:2025年3月4日
  • 审稿结果通知日期:2025年4月1日
  • 最终版本提交日期:2025年4月7日

研讨会报告嘉宾


研讨会组织者







请到「今天看啥」查看全文