专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
读特新闻  ·  时隔3年,周杰伦要发新专辑了 ·  13 小时前  
读特新闻  ·  时隔3年,周杰伦要发新专辑了 ·  13 小时前  
湖北经视  ·  国乒甜蜜官宣! ·  昨天  
湖北经视  ·  大S代言广告被撤下,品牌回应 ·  昨天  
51好读  ›  专栏  ›  计算机视觉工坊

行业新标准!NCsoft新作CaPa:高效的4K纹理网格生成!

计算机视觉工坊  · 公众号  ·  · 2025-01-19 00:03

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation

作者:Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn

机构:Graphics AI Lab, NCSOFT Research

原文链接:https://arxiv.org/abs/2501.09433

代码链接:https://ncsoft.github.io/CaPa/

1. 导读

从文本或视觉输入合成高质量的3D资产已经成为现代生成建模的中心目标。尽管3D生成算法激增,但它们经常面临多视图不一致、生成时间慢、保真度低和表面重建问题等挑战。虽然一些研究已经解决了其中的一些问题,但全面的解决方案仍然遥不可及。在本文中,我们介绍了textbf{CaPa},这是一个可以高效生成高保真3D资产的雕琢框架。CaPa采用两阶段过程,将几何图形生成与纹理合成分离。最初,3D潜在扩散模型生成由多视图输入引导的几何图形,确保跨视角的结构一致性。随后,利用一种新颖的、模型不可知的空间解耦注意力,该框架为给定的几何图形合成高分辨率纹理(直到4K)。此外,我们提出了一种3D感知的遮挡修复算法,该算法填充未纹理化的区域,从而在整个模型上产生内聚的结果。该管道在不到30秒的时间内生成高质量的3D资产,为商业应用提供现成的输出。实验结果表明,CaPa在纹理保真度和几何稳定性方面表现出色,为实用、可扩展的3D资产生成建立了新的标准。

2. 效果展示

我们提出了CaPa,这是一种新方法,可以在仅30秒内生成高质量的4K纹理网格,为游戏、电影和VR/AR等商业应用提供3D资产。

我们将CaPa与最先进的图像到3D方法进行比较。在这里,所有资产都使用其官方代码转换为多边形网格。CaPa在几何稳定性和视觉保真度方面都显著优于其他方法,尤其是在背面和侧面视图上。

PBR感知3D资源生成

3. 方法

**1.几何生成:**首先,我们使用3D潜在扩散模型生成几何(多边形网格)。使用ShapeVAE学习的3D潜在空间,我们训练一个3D潜在扩散模型,该模型在多视图扩散模型的多视图图像的引导下生成3D几何,以确保生成的形状和纹理对齐。

**2.纹理生成:**第二,我们渲染网格的四个正交视图,这些视图作为纹理生成的输入。为了在防止Janus问题的同时生成高质量的纹理,我们设计了一种新颖的、模型无关的、空间解耦的注意力机制:

这种机制确保每个空间区域独立地关注其对应的视图,保留特定视图的细节并增强多视图的一致性。 推荐课程: 基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

OLTS的模型无关性使其可以与任何扩散模型集成,从而实现由 SDXL 驱动的不可思议的纹理质量,从而优于通常仅限于 SD1.5 的其他 3D 生成或纹理化方法。

**最终输出:**通过反向投影和3D感知遮挡填充算法获得超高质量的纹理网格,整个3D资产生成过程使用完全前馈方法在不到30秒内完成。

4. 总结

在这项研究中,我们提出了CaPa,一个高效的高质量3D资产生成框架,它将3D几何与2D纹理合成分离。使用多视图引导的3D占用场隐式扩散,可以最小化网格提取过程中的质量损失。对于纹理合成,空间解耦的交又注意力解决了Janus问题无需额外训练。这种模型无关的解决方案可以与大型生成模型(如SDXL)集成。最后,我们提出了一种新颖的3D感知遮挡填充算法,捕捉UV空间中的3D局部性,以便2D基于扩散的填充有效地填充遮挡。所有这些阶段都是完全前馈的,使得整个生成过程在不到30秒内完成。总之,CaPa以高保真度在实用速度下提供3D合成,使其能够立即用于下游应用。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结 最新顶会论文&代码







请到「今天看啥」查看全文