众所周知,X 光由于有着十分强大的穿透力而被广泛地应用于医疗、安检、考古、生物、工业检测等场景的透射成像。然而,X 光的辐射作用对人体是有害的,受试者与测试者都会或多或少地收到影响。为了减少 X 光对人体的伤害,人们开始研究稀疏视角下的 X 光重建从而降低在 X 光中的暴露时间。这主要包含了两个子任务:(1)新视角合成,即从一个被扫描物体的一些已拍摄的视角来合成出新的没有被拍摄过的视角下该物体的投影。(2)CT 重建。即从多视角的 X 光投影中恢复出密集的三维 CT 体辐射密度 (volume radiodensity)。
辐射密度刻画的是当 X 光穿透物体时,X 光被吸收或者阻挡的程度大小。如图 2 所示,自然光成像主要靠的是光线在物体表面的反射。而 X 光成像主要依靠的是 X 光穿透物体后被吸收或阻挡。换句话说,自然光成像关注并捕获的是物体表面的信息如纹理颜色等,而 X 光成像关注的更多的是物体内部的结构和材质。
图2 自然光成像原理对比 X 光成像原理
也正是因为自然光成像和 X 光成像之间的显著差异,自然光下的 NeRF 方法以及对应的公式并不适用于 X 光。本文针对 X 光的三维重建问题展开研究,做出了以下四点贡献:
本文提出了一套全新的能够同时做 X 光新视角合成与 CT 成像的 NeRF 框架,名为 SAX-NeRF。该框架的训练不需要用的 CT 作为监督信号,只使用 X 光片即可。
本文设计了一种新的分段式 Transformer,名为 Lineformer,可以捕获成像物体在三维空间中的复杂的内部结构。据我们所指,我们的 Lineformer 是首个将 Transformer 应用于 X 光渲染的 Transformer。
本文提出了一种新型的射线采样策略,名为 MLG sampling,可以从 X 光片上提取出局部和全局的信息。
本文搜集了首个大规模的 X 光三维重建数据集,涵盖医疗、生物、安检、工业领域。同时,我们设计的算法在这个数据集上取得了当前最好效果,在 X 光新视角合成和 CT 重建两大任务上比之前的最好方法要高出 12.56 和 2.49 dB。
2. 空间坐标系的转换
我们在圆形扫描轨迹锥形 X 光束扫描(circular cone-beam X-ray scanning)场景下研究三维重建问题。空间坐标系的变换关系如图 3 所示。被扫描物体的中心 O 为世界坐标系的原点。扫描仪的中心 S 为相机坐标系的中心。探测器 D 的左上角为图像坐标系的原点。整个空间坐标系的变换遵循 OpenCV 三维视觉的标准。
我们注意到 X 光的成像过程是沿着穿透物体被吸收或者阻挡,成像物体不同部分的结构和材质存在差异,因此 X 光被吸收的程度也不一致。然而之前的 NeRF 类方法大都使用很常规的 MLP 网络平等地对待沿着射线上的采样点。如果直接采用 MLP 来拟合公式(3)的话,那 X 光成像的重要性质便被忽略了,难以取得很好的效果。基于此,我们提出了一种新型的分段式 Transformer (Line Segment-based Transformer,简称 Lineformer)来拟合 X 光在穿透不同结构时的衰减。