专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
超级数学建模  ·  不会做PPT没关系,只要你努力的找一个... ·  昨天  
超级数学建模  ·  懂中式美学的人,真不简单! ·  昨天  
超级数学建模  ·  这也太香了!一口酥脆,根本停不下来! ·  昨天  
超级数学建模  ·  全球限量7777件,这可能是最浪漫的情人节! ·  2 天前  
超级数学建模  ·  甩货,超强清仓!华熙生物胶原贵妇精华,99元 ... ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

ECCV'24 | 真假难辨!自动驾驶场景语义图像合成新方案

3D视觉工坊  · 公众号  ·  · 2024-09-03 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

本次分享我们邀请到了清华大学智能产业研究院&计算机系 一年级 博士生 高焕昂 为大家详细介绍他的工作。如果您有相关工作需要分享,欢迎文末联系我们。

SCP-Diff: Spatial-Categorical Joint Prior for Diffusion Based Semantic Image Synthesis
论文 https://arxiv.org/pdf/2403.09638
主页 https://air-discover.github.io/SCP-Diff/

语义图像合成任务在自动驾驶传感器模拟中展现出良好的前景。然而,该领域目前最佳做法基于GAN,尚未达到期望的质量水平。随着潜在扩散模型在图像生成领域取得重大进展,我们评估了ControlNet,一种以其密集控制能力而著称的方法。我们的调查发现其结果存在两个主要问题:在大型语义区域内存在奇怪的子结构,以及内容与语义掩码不对齐。通过实证研究,我们发现这些问题的根源在于训练数据分布中的噪声与推理阶段应用的标准正态先验之间存在差异。为了解决这一挑战,我们为 SIS 开发了特定的噪声先验,包括空间先验、类别先验以及一种新颖的空间-类别联合先验用于推理。我们将这种方法命名为 SCP-Diff,它取得了出色的结果,在 Cityscapes 数据集上达到10.53的FID分数,在 ADE20K 数据集上达到12.66。

直播信息

时间

2024年 9月3日 (周二) 19:00

主题

ECCV'24|真假难辨!自动驾驶场景语义图像合成新方案

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3DCV视频号 也将同步直播

嘉宾介绍

高焕昂

清华大学智能产业研究院 & 计算机系博士一年级。研究方向为生成式仿真在具身智能中的应用。曾获清华大学特等奖学金(本科生)、商汤奖学金。

个人主页 https://c7w.tech/about/







请到「今天看啥」查看全文