专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

CVPR 2024｜如何给 NeRF 开透视眼？

极市平台 · 公众号 · · 2024-06-13 22:00

正文

↑ 点击蓝字关注极市平台

作者丨phantom@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/702702109

编辑丨极市平台

极市导读

本文提出了一套全新的能够同时做 X 光新视角合成与 CT 成像的 NeRF 框架，名为 SAX-NeRF。该框架的训练不需要用的 CT 作为监督信号，只使用 X 光片即可。

>> 本周六 15 :00 极市直播特别栏目- CVPR2024论文分享会，7位中稿工作作者分享，多篇ora l 和hightlig ht工作！点击预约直播，欢迎大家一起来交流学习！

本文介绍我们在 CVPR 2024 上的新工作

《Structure-Aware Sparse-View X-ray 3D Reconstruction》

本文提出了一种用于稀疏视角下 X 光三维重建（如下边的 GIF 所示）的 NeRF 方法。具体而言，主要做两个任务。一是 X 光的新视角合成 (Novel View Synthesis, NVS)，二是 CT 重建，可以简单理解为体密度的重建。后边会详细介绍。

X 光三维重建动态 demo

paper: https://arxiv.org/abs/2311.10959

code: https://github.com/caiyuanhao1998/SAX-NeRF

video: https://www.youtube.com/watch?v=oVVUaBY61eo

先给大家看一个在新视角合成任务上的性能对比图：

图1 我们的方法与 SOTA 方法在医学、生物、安检、工业场景上的新视角合成性能对比

目前所有的训练测试代码、预训练权重、训练日志、数据、测试结果均已开源。我们还将 github repo 拓展成了一个支持 9 类算法的工具包方便大家的科研工作。除此之外，我还把数据可视化的代码，和造数据的代码也一起公开了，以方便有条件的可以接触到CT数据的朋友可以在自己搜集的数据上开展研究。欢迎来用 :)

1. X 光三维重建任务介绍

众所周知，X 光由于有着十分强大的穿透力而被广泛地应用于医疗、安检、考古、生物、工业检测等场景的透射成像。然而，X 光的辐射作用对人体是有害的，受试者与测试者都会或多或少地收到影响。为了减少 X 光对人体的伤害，人们开始研究稀疏视角下的 X 光重建从而降低在 X 光中的暴露时间。这主要包含了两个子任务：（1）新视角合成，即从一个被扫描物体的一些已拍摄的视角来合成出新的没有被拍摄过的视角下该物体的投影。（2）CT 重建。即从多视角的 X 光投影中恢复出密集的三维 CT 体辐射密度 (volume radiodensity)。

辐射密度刻画的是当 X 光穿透物体时，X 光被吸收或者阻挡的程度大小。如图 2 所示，自然光成像主要靠的是光线在物体表面的反射。而 X 光成像主要依靠的是 X 光穿透物体后被吸收或阻挡。换句话说，自然光成像关注并捕获的是物体表面的信息如纹理颜色等，而 X 光成像关注的更多的是物体内部的结构和材质。

也正是因为自然光成像和 X 光成像之间的显著差异，自然光下的 NeRF 方法以及对应的公式并不适用于 X 光。本文针对 X 光的三维重建问题展开研究，做出了以下四点贡献：

本文提出了一套全新的能够同时做 X 光新视角合成与 CT 成像的 NeRF 框架，名为 SAX-NeRF。该框架的训练不需要用的 CT 作为监督信号，只使用 X 光片即可。
本文设计了一种新的分段式 Transformer，名为 Lineformer，可以捕获成像物体在三维空间中的复杂的内部结构。据我们所指，我们的 Lineformer 是首个将 Transformer 应用于 X 光渲染的 Transformer。
本文提出了一种新型的射线采样策略，名为 MLG sampling，可以从 X 光片上提取出局部和全局的信息。
本文搜集了首个大规模的 X 光三维重建数据集，涵盖医疗、生物、安检、工业领域。同时，我们设计的算法在这个数据集上取得了当前最好效果，在 X 光新视角合成和 CT 重建两大任务上比之前的最好方法要高出 12.56 和 2.49 dB。

2. 空间坐标系的转换

我们在圆形扫描轨迹锥形 X 光束扫描（circular cone-beam X-ray scanning）场景下研究三维重建问题。空间坐标系的变换关系如图 3 所示。被扫描物体的中心 O 为世界坐标系的原点。扫描仪的中心 S 为相机坐标系的中心。探测器 D 的左上角为图像坐标系的原点。整个空间坐标系的变换遵循 OpenCV 三维视觉的标准。

3. 本文方法

3.1 NeRF 从自然光成像到 X 光成像

在自然光成像中, NeRF采用一个 MLP 来拟合的是空间中点的位置和视角到该点的颜色和体密度的隐式映射:

而在 X 光成像中，并不关注颜色信息，只需要重建出辐射密度。同时我们注意到辐射密度属性与观测的视角无关。因此，我们指出，X 光下的 NeRF 公式应当为：

其中的表示我们 Lineformer 的可学习参数。根据 Beer-Lambert 规则，一条 X 光射线的强度会沿着它所穿过的物体的辐射密度的积分而呈指数型衰减。如下公式所示：

将公式（3）中的积分离散化, 同时将其中的用我们 Lineformer 预测的替代便可得到预测的光强度, 如公式 (4) 所示:

我们的训练监督目标是预测的 X 光强度与真实的 X 光强度之间的均方误差：

3.2 Lineformer — 分段式 Transformer

我们注意到 X 光的成像过程是沿着穿透物体被吸收或者阻挡，成像物体不同部分的结构和材质存在差异，因此 X 光被吸收的程度也不一致。然而之前的 NeRF 类方法大都使用很常规的 MLP 网络平等地对待沿着射线上的采样点。如果直接采用 MLP 来拟合公式（3）的话，那 X 光成像的重要性质便被忽略了，难以取得很好的效果。基于此，我们提出了一种新型的分段式 Transformer （Line Segment-based Transformer，简称 Lineformer）来拟合 X 光在穿透不同结构时的衰减。

我们的算法框架如图 4 所示。我们首先采用 MLP sampling 策略采样出一个 batch 的光射线。对每一条射线，我们采出一组三维点的位置。将通过一个哈希编码器得到点特征。然后经过 4 个分段式注意力块（Line Segment-based Attention Block, 简称为 LSAB）与两层全连接层便可得到这些点的辐射密度。

LSAB 中最核心的模块是分段式的多头自注意力机制（Line Segment-based Multi-head Self-Attention，LS-MSA），其结构如图 4 （c）所示。将输入的点特征记为，将其分为 M 段：

其中的。然后会被线性地投影到 :

然后将沿着通道维度均匀地分成个头:

然后在每一个头内计算自相似注意力如下：

然后将计算结果拼接起来，通过一个全连接层后与一个位置编码