近年来,基础模型(Foundation Models)在自然语言处理领域取得了显著进展,其中以 GPT 系列为代表。这些模型规模庞大,通过自监督学习或视觉语言建模训练于多样化的数据集上,展现了强大的适应能力和泛化性能,尤其在零样本和小样本任务中表现出色。然而,与语言基础模型已相对成熟相比,视觉领域的基础模型及其在各种任务中的应用仍处于发展的初中期阶段。
尽管如此,视觉基础模型(Vision Foundation Models, VFM)正吸引越来越多的关注并取得持续进展。一些最新的模型包括基于自监督训练的 DINO 系列,以及结合图像和文本数据的 CLIP、Flamingo 和 Llava 等。此外,像素级视觉基础模型也在近年涌现,如 OMG-LLava 和 SAM 系列。
本次研讨会旨在汇聚致力于开发和应用视觉基础模型于像素级理解任务的研究者,共同探讨这一领域的重要方向,包括图像分割、视频分割、目标追踪、动作-行为分割、深度估计及运动估计等。研讨会将重点讨论视觉基础模型在像素级理解任务中的潜在应用机会,特别是在低资源环境下可能带来的社会积极影响。例如,这些模型能够为缺乏大规模标注数据集的边缘化社区提供支持。同时,我们将探讨这些模型可能带来的风险及其缓解方法。
研讨会将包括7场主题报告,涵盖新兴研究者与资深专家的多样化视角,还设有两场海报展示和精选论文报告。我们鼓励提交任何与视觉基础模型在像素级理解任务中的研究或应用相关的文章,共同推动这一领域的发展。
-
研讨会名称:Pixel-level Vision Foundation Models
-
-
研讨会主页:https://sites.google.com/view/pixfoundation/
-
投稿地址:https://cmt3.research.microsoft.com/PixFoundation2025
-
研讨会相关文档:https://docs.qq.com/pdf/DRHJYSUNQak5KUmZp
研讨会和征稿主题
我们鼓励提交符合以下主题的研究论文,同时也欢迎其他与视觉基础模型在像素级理解任务中相关的研究:
-
视觉基础模型在像素级图像,视频和多模态理解任务中的应用,包括:像素级的定位与推理、图像分割、指示性分割及其视频对应任务、视频分割、目标追踪、动作-行为分割、深度估计、运动估计等。
-
视觉基础模型的适应性、泛化能力及其提示工程(prompting)。
-
-
投稿时间节点
研讨会报告嘉宾
研讨会组织者