专栏名称: 映维网Nweon
映维网是一个始于2014年10月的增强现实(AR)、虚拟现实(VR)产业信息数据平台,专注于AR/VR产业发展及市场教育培养,致力于引导全球AR/VR产业发展,服务于全球各地的AR/VR创业者。
目录
相关文章推荐
重庆共青团  ·  破90亿!网友开始“百亿补贴”,《哪吒3》又 ... ·  23 小时前  
重庆共青团  ·  破90亿!网友开始“百亿补贴”,《哪吒3》又 ... ·  23 小时前  
企业专利观察  ·  汤森路透的胜利,是否为“AI版权化”开了绿灯 ·  昨天  
企业专利观察  ·  汤森路透的胜利,是否为“AI版权化”开了绿灯 ·  昨天  
正观新闻  ·  喜茶:拒绝门店规模内卷,将暂停加盟 ·  2 天前  
云头版  ·  全球排名第1企业引入DeepSeek! ·  3 天前  
云头版  ·  全球排名第1企业引入DeepSeek! ·  3 天前  
51好读  ›  专栏  ›  映维网Nweon

台湾交通大学提出新的360°图像深度估计框架,有效利用未标记360°数据

映维网Nweon  · 公众号  · 科技自媒体  · 2024-12-28 11:19

正文

训练最先进深度估计模型的新方法

映维网Nweon 2024年12月26日 )准确估计360度图像的深度对于虚拟现和沉浸式媒体应用至关重要。现有的视角图像深度估计方法由于camera投影和畸变的不同而无法应用于360度图像,而360度图像深度估计方法由于缺乏标记数据对而性能较差。

针对所述问题,台湾交通大学的研究人员提出了一个新的深度估计框架,以有效地利用未标记的360度数据。

所述方法使用最先进的视角深度估计模型作为teacher模型,通过六面立方体投影技术生成伪标签,从而有效地标记360度图像的深度。这种方法利用了不断增加的大型数据集的可用性。

相关解决方案包括两个主要阶段:无效区域的离线掩码生成和在线半监督联合训练机制。团队在Matterport3D和Stanford2D3D等基准数据集测试了方法,并显示出深度估计精度的显著提高,特别是在zero-shot场景。

他们表示,所提出的训练管道可以增强任何360单目深度估计器,并在不同的camera投影和数据类型之间展示有效的knowledge转移。

近年来,计算机视觉领域的研究激增,重点包括解决与处理360度图像相关的挑战。全景图像在虚拟现实和沉浸式媒体等各个领域的广泛使用强调了对专门为360度图像量身定制的精确深度估计技术的需求。

然而,由于camera投影和畸变的差异,现有的透视图像深度估计方法在直接应用于360度数据时遇到了很大的困难。尽管许多方法旨在解决camera投影的深度估计问题,但由于标记数据集的可用性有限,它们经常遇到困难。

为了克服挑战,台湾交通大学提出了一种在360度图像训练最先进深度估计模型的新方法。

随着可用数据量的显著增加,数据数量和质量的重要性已经变得明显。视角感知模型的研究工作越来越多地集中在增加数据量和开发跨各种类型数据的基础模型。

团队的方法利用SOTA透视深度估计基础模型作为teacher模型,并使用六面立方体投影方法为未标记的360度图像生成伪标签。

通过这样做,研究人员通过利用视角模型和大量未标记数据有效地解决了360度图像中标记深度的挑战。所述方法包括两个关键阶段:离线掩码生成和在线联合训练。

在离线阶段,采用检测和分割模型的组合来生成无效区域的掩码,例如未标记数据中的天空和水印。

对于随后的在线阶段,采用半监督学习策略,将批数据的一半加载标记数据,另一半加载伪标记数据。通过标记和伪标记数据的联合训练,所述方法在360度图像实现了鲁棒的深度估计性能。

为了方法的有效性,他们在基准数据集(如Matterport3D和Stanford2D3D)进行了广泛的实验。结果证明了深度估计精度的显著提高,特别是在zero shot场景中。

另外,团队用不同的SOTA 360度深度模型和各种未标记的数据集展示了训练技术的有效性,展示了在解决360度图像带来的独特挑战方面的多功能性和有效性。

相关论文 :Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

https://paper.nweon.com/16120

总的来说,研究人员提出了一种全新的360度单目深度估计模型训练方法,利用透视深度估计模型作为teacher,并使用六面立方体投影为未标记的360度图像生成伪标签。







请到「今天看啥」查看全文