专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
BioArt  ·  Mol Cell | ... ·  昨天  
生信宝典  ·  专家点评Cell | ... ·  2 天前  
生物制品圈  ·  盘点 | ... ·  3 天前  
生信人  ·  Cell ... ·  4 天前  
51好读  ›  专栏  ›  极市平台

国防科大最新|SceneTracker:在4D时空中追踪万物

极市平台  · 公众号  ·  · 2024-05-16 22:14

正文

↑ 点击 蓝字 关注极市平台
编辑丨极市平台

极市导读

本研究提出的Scene Tracker,是第一个公开的有效解决在线3D点跟踪问题或长时场景流估计问题(LSFE)的工作。其能够快速且精确地捕捉4D时空(RGB-D视频)中任意目标点的3D轨迹,从而使计算机深入了解物体在特定环境中的移动规律和交互方式。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

Part1 论文信息

标题:SceneTracker: Long-term Scene Flow Estimation Network

作者:Bo Wang,Jian Li,Yang Yu,Li Liu,Zhenping Sun,Dewen Hu

机构:国防科技大学

原文链接: https://arxiv.org/abs/2403.19924

代码链接: https://github.com/wwsource/SceneTracker

Part2 论文简介

在时间与空间组成的4D时空中,精确、在线地捕捉和分析长时且细粒度的物体运动,对 机器人 自动驾驶 元宇宙 具身智能 等领域更高水平的场景理解起到至关重要的作用。

本研究提出的 SceneTracker ,是 第一个公开的(2024.03) 有效解决在线3D点跟踪问题或长时场景流估计问题(LSFE)的工作。其能够快速且精确地捕捉4D时空(RGB-D视频)中任意目标点的3D轨迹,从而使计算机深入了解物体在特定环境中的移动规律和交互方式。

SceneTracker是一种新颖的基于学习的LSFE网络,它采用迭代方法来逼近最优轨迹。同时其动态索引和构建表观和深度相关性特征,并利用Transformer挖掘和利用轨迹内部和轨迹之间的远程联系。通过详细的实验,SceneTracker在处理3D空间遮挡和深度噪声干扰方面显示出卓越的能力,高度符合LSFE任务的需求。

最后,本研究构建了 第一个真实世界 的评估数据集 LSFDriving ,进一步证实了SceneTracker值得称赞的泛化能力。

Part3 所提方法介绍

我们的目标是跟踪一个3D视频中的3D点。我们形式化该问题如下:一个3D视频是一个 帧的RGB-D序列。估计长时场景流旨在生成已知初始位置的 个查询点的相机坐标系下的3D轨迹 。默认的,所有跟踪都开始于视频的第一帧。值得注意的是,我们方法可以灵活地从任意一帧开启跟踪。我们方法的整体架构如图1所示。

图1

1 轨迹初始化

初始化的第一步是将整个视频划分为若干滑动窗口。我们以长度 、滑动步长 进行划分。如图1左侧所示,我们需要跟踪 个查询点,以红色、绿色和蓝色点为例。对于第一个滑动窗口,位置会被初始化为查询点的初始位置。对于其他滑动窗口,其前 帧会根据前一个滑动窗口的后 帧的估计结果进行初始化,而其后 帧会根据前一个滑动窗口的最后一帧估计结果进行初始化。以任意一个滑动窗口 为例,我们得到初始化的轨迹

2 特征编码和下采样

我们网络推理在 的分辨率上。这里 是一个下采样系数。首先我们使用一个Feature Encoder网络来提取图像特征。Feature Encoder网络是一个卷积神经网络,包括8个残差块和5个下采样层。不像处理RGB图像,我们直接对 帧的原始深度图进行间隔为 的等间隔采样。此外我们利用相机内参 从相机坐标系转换到一个由图像 平面和深度维度组成的 坐标系下。转换公式如下:

进一步地,我们对该初始化轨迹进行下采样得到

3 模板特征和轨迹的更新

在Flow Iteration模块,我们迭代式地更新查询点的模板特征和3D轨迹。当处理第一个滑动窗口的第一帧时,我们使用查询点的 坐标在特征图上进行双线性采样,从而获得第一帧的模板特征。然后我们将该特征在时间维度上复制 次,获得所有后续滑动窗口的初始模板特征 。所有滑动窗口都有一个统一的 和不同的 。经过 次相同的Transformer Predictor模块,它们会被更新为

4 轨迹输出

我们首先上采样 ,以匹配原始输入分辨率。然后,我们结合相机内参 ,将 坐标系转换到相机坐标系,得到 。最后,我们链接所有滑动窗口的 。相邻窗口中重叠部分采用后一个窗口的结果。

Part4 所提数据集介绍

给定一个自动驾驶数据的序列,我们的目标是构建一个 帧的RGB-D视频以及第一帧中感兴趣点的3D轨迹。具体地说,我们会分别从静态背景、移动的刚性车辆以及移动的非刚性行人上采样感兴趣点。

1 背景上的标注

首先,我们利用相机内参和外参来提取第一帧的LiDAR点,这些点可以被正确地投影到图像上。然后我们使用2D目标检测中的包围框来过滤掉所有前景LiDAR点。以一个LiDAR点 为例,我们根据车辆位姿将其投影到剩余的







请到「今天看啥」查看全文