专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
军武次位面  ·  瞬间清思维敏捷!美式黑咖啡,选它就对了! ·  3 天前  
环球资讯+  ·  寒风跨大西洋吹来 美欧关系温度骤降 ·  2 天前  
51好读  ›  专栏  ›  3DCV

MeshAnything V2来了!30秒生成建模师级Mesh,,最大可生成面数提升至1600

3DCV  · 公众号  ·  · 2024-10-08 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉之心

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

GitHub已揽星1.9k的MeshAnything项目上新了V2版本,由来自南洋理工大学、清华大学、帝国理工学院、西湖大学等研究人员完成。

MeshAnything V2相比V1,使用了最新提出的Adjacent Mesh Tokenization(AMT)算法,将最大可生成面数从800提升到了1600。

只需30秒,AI就能像3D建模师一样,在各种指示下生成高质量人造Mesh。

NeRF、3D Gaussian Splatting生成的三维重建图像Mesh效果如下:

亮点直击

  1. 文章引入了一种相邻网格标记(AMT)网格标记方法,AMT 只需一半的标记序列长度来表示相同的网格,从而从根本上减少了网格生成的计算负担。

  2. MeshAnything 配备了 AMT,并推出了 MeshAnything V2。V2 将可生成的最大面数增加了一倍,同时实现了更高的准确性和效率。

  3. 大量实验表明,AMT 显著提高了网格生成的效率和性能。

相关链接

项目主页:https://buaacyw.github.io/meshanything-v2/

论文地址:https://buaacyw.github.io/meshanything-v2/MeshAnything_V2_Arxiv.pdf

论文阅读

摘要

我们推出了 MeshAnything V2,这是一种自回归转换器,可生成与给定形状对齐的艺术家创建的网格 (AM)。它可以与各种 3D 资产生产流程集成,以实现高质量、高度可控的 AM 生成。使用相同大小的模型,MeshAnything V2 在效率和性能方面都超越了以前的方法。

这些改进归功于我们新提出的网格标记化方法:相邻网格标记化 (AMT)。与之前用三个顶点表示每个面的方法不同,AMT 尽可能使用单个顶点。与之前的方法相比,AMT 平均需要大约一半的标记序列长度来表示相同的网格。此外,AMT 的标记序列更紧凑、结构更好,从根本上有利于网格生成。我们大量的实验表明,AMT 显著提高了网格生成的效率和性能。

方法

相邻网格标记化说明

与之前使用三个顶点表示一个面的方法不同,AMT 尽可能使用单个顶点。当无法做到这一点时,AMT 会添加一个特殊标记 & 并重新启动。AMT 平均将 token 序列长度减少了一半。其紧凑且结构良好的序列表示增强了序列学习,从而显著提高了网格生成的效率和性能。

实验

结论

在这项工作中,我们提出了 MeshAnything V2,这是一种形状条件化的艺术家创建的网格 (AM) 生成模型,可生成与给定形状对齐的 AM。凭借我们新提出的相邻网格标记化 (AMT),V2 在性能和效率方面都明显优于 MeshAnything V1。与以前使用三个顶点表示面的方法不同,AMT 尽可能使用单个顶点。我们的实验表明,AMT 平均将标记序列长度减少了一半。来自 AMT 的紧凑且结构良好的标记序列大大增强了序列学习,从而显著提高了 AM 生成的效率和性能。

限制。 虽然与 V1 相比有很大改进,但 MeshAnything V2 的准确性仍然不足以满足工业应用。需要付出更多努力来提高模型的稳定性和准确性。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文