专栏名称: 泡泡机器人SLAM
SLAM的最新资讯,干货内容。
目录
相关文章推荐
51好读  ›  专栏  ›  泡泡机器人SLAM

【泡泡机器人翻译专栏】 单目语义SLAM(下)

泡泡机器人SLAM  · 公众号  · 机器人  · 2017-06-16 07:26

正文

泡泡机器人翻译作品

原文:Towards Semantic SLAM using a Monocular Camera

作者:Civera J, Gálvez-López D, Riazuelo L, et al

翻译:赵博欣

审核:姜莽

编辑:张一

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

上一篇【泡泡机器人翻译专栏】 单目语义SLAM(上)

下面我们继续~

VII. 实验结果

论文利用同一个的摄像头进行两次实验,摄像头是廉价的黑白Unibrain摄像头,分辨率为320X240。目标模型则是从一个标准的商业数字摄像头拍摄的图像中构建的。在本文的两个实验中Unibrain摄像头的采样频率是30Hz/s,采用本文提出的方法进行处理,由于提出的算法的计算耗时对于所用的地图大小而言计算耗时会高于33ms,因此一些帧会被语义SLAM算法跳过。

A. 桌面环境

这个实验中,我们手持摄像头在实验室的桌面上方运动,采集了5分钟约8951帧图像。这些图像采集过程中,照明条件非常不好,从图4中就可以看出。桌面上放了四个目标物体—一个果汁包装,一个大众货车的模型,一盒口香糖和一个泰迪熊—还有两个平面物体—两张明信片。每张明信片的平面模型已经通过单幅图像构建完成,其他四个三维物体也分别从多帧图像中获取(分别用了5帧、14帧、15帧和20帧),模型构建方法在本文第IV部分中已描述过。


这六个物体共同组成了我们的数据集,并在摄像头运动过程中进行检测,一旦目标识别成功,则插入到SLAM构建的三维地图中,并在后续图像帧中进行跟踪。图3显示了目标识别线程在特定几帧中的输出结果,六个物体都能成功检测到。图3第一行的图片是表示这些物体是在哪些图像中检测到的,中间一行表示被识别的目标表面,彩色的线条表示二者之间的对应关系。最下面一行表示通过对图像进行重投影,得到的目标密集点云模型。


图3 目标检测线程结果,每一列显示了实验中六个目标被检测到的图像。最上面一行是输入到单目语义SLAM算法中的图像序列,中间一行是目标模型的表面,彩色的线条表示特征点的匹配情况。基于这些匹配点对,目标会被插入到SLAM地图中。最下面一行显示了目标的密集点云。


图4总结了本次实验多步运行的结果,每一步中都显示了当前帧和估计的三维场景。在三维场景中用椭圆表示地图上的每个点的不确定性,目标密集点云模型和用黄色线表示的摄像头运动轨迹。被跟踪的特征点显示在当前帧图像上—椭圆表示搜索区域,方块表示实际匹配区域—在这里我们用不同的颜色标注:红色表示成功跟踪上的特征点,蓝色表示由于较低的区域互相关而排除的点,品红色表示由1-点RANSAC算法排除的点,白色表示跟踪已知目标成功的点,橘红色表示跟踪已知目标失败的点。


图4.a显示了在第610步时候的估计结果,这时还没有目标插入地图。图4.b显示了在第1359步的估计结果,此时已经检测到果汁包装,并插入地图。图4.c,图4.d和图4.e也相应显示了大众车模型、口香糖包装盒和明信片被插入地图并被跟踪的过程,而对应的帧序列是第2764帧、第4062帧和第4725帧。图4.f显示了第7102帧的结果,最后两个物体——泰迪熊和明信片被插入时的瞬间。图4.g是摄像头又运动回初始点(对应帧是第8538帧),图像又拍摄到了果汁包装盒大众车模型。图4的最后一幅图表示图像序列的最后一帧,显示了SLAM地图中的物体。我们强烈推荐大家能够观看本文附带的视频,以更好的理解本文。


最后,图5显示了算法的计算时间(粗的蓝色线条)以及状态向量的尺度(细的红色线条)。实验在Intel Core i7, 2.66GHz的处理器上运行。最差情况下,提出的算法能够成功实现7Hz的运行速度,这是在状态尺度达到了600,而摄像头被手持运动的情况下得到的。


图4 在桌面实验中具有代表性的图片(上面一行)和它们的三维估计(下面一行)。(a)初始地图,没有识别目标。(b)识别果汁包装,并插入到地图中进行跟踪。(c),(d)和(e):大众模型车,口香糖包装盒和明信片被插入地图中。(f)剩下的目标——明信片和泰迪熊被插入。(g)摄像头运动回到初始位置,重新拍摄其之前看到的目标。(h)图像序列的最后一帧图像和目标在共同坐标系下的三维显示。


图5 实验中的计算耗时(蓝色粗线)和状态向量尺度(红色细线)。注意算法在最坏的情况下,在状态向量尺度达到600的时候运行速度约7Hz。

B. 医院病房环境—RoboEarth项目

在深入分析语义单目SLAM算法的性能之前,我们先说下这个实验的目的。这次实验是针对RoboEarth项目[27]进行的,项目需要构建一个大型的网络和数据库,使机器人能够通过上传下载行动序列和传感器数据来分享资源。在这个特殊的实验中,机器人在医院病房中,从RoboEarth上下载:1)病房中可能遇到的需要识别的目标模型,2)行动序列,比如为在病床上的病人送果汁。本文提出的语义单目SLAM算法,就是通过下载果汁包装识别模型以及其他目标模型,来构建局部标注地图,使机器人能够成功的抓取果汁并送给病人。


这部分实验总共有6003帧图像,实验中用到的目标模型有橱柜、床、果汁包装。果汁和实验一中用到的一样。柜子和床则通过物体表面大概的建模。图6显示了从本次实验中抽取的几帧图像。图6.a(上)显示的是第34帧图像,对柜子的识别与插入,通过模型重投影和真实柜子之间的重叠区域来反应观测精度。图6.a(下)能够看到三维地图:椭圆表示特征点的不确定区域,带颜色的立体表示柜体模型。实验中的每个目标都由平面表面组成;都由带颜色的立体表示,而不是像实验一中用点云来表示。


图6中的后面几幅图表示采集图像序列中的其他几帧。要注意在图6.c中,检测到了果汁包装并插入到地图,在图6.d中检测到了病床并插入地图。最后,图6.e是图像帧序列中最后一幅图像,也是最后的估计结果。为了更好的可视化,我们在图7中显示了最终得到的地图和摄像头的运动轨迹。值得注意的是,在图7.b.中,果汁包装能够准确的标注在柜子上。


图6 在医院病房实验中的代表性图片(上面一行)和它们的三维估计(下面一行)。图中用圆圈表示被跟踪的特征点,用彩色的立方体表示被插入的物体,并重投影到图片上。三维场景中我们用黄色的线条表示摄像头的运动轨迹,椭圆表示特征点的不确定性。(a)第34帧,识别柜子并插入地图。(b)第241帧,机器人往前运动。要注意的是,在这个时候摄像头已经拍不到柜子了,但它的三维位置依然有标注。(c)第912帧,机器人左转并面对柜子和果汁包装盒,检测并标注。(d)机器人转弯,识别和标注病床。(e)机器人在本实验中的最后定位。


图7 SLAM算法在医院病房实验中的最终结果。(a)上面的图片中可以看到摄像头的运动轨迹,检测到的特征点和被识别的物体。(b)从侧面看摄像头运动轨迹和识别到的目标:左边是果汁包装和柜子,可以看到果汁包装在柜子上;右边是病床。


VIII. 小结与未来展望

本文融合了最前沿的单目SLAM、从运动到结构和目标识别方法,用以将一些事先计算好的已知的物体插入到标准的单目SLAM点云地图中。本文唯一的输入是视觉信息:EKF SLAM算法的输入是单目图像序列;从一些稀疏图像中获取目标的表面以及集合模型;目标识别所需要的则是视觉特征。实验结果显示算法能够用于在房间大小的环境下实时作业。


本文描述的方法是首次在SLAM地图中引入了一般的三维目标物体,且算法可实时运行。但是我们仍然相信本文的主要价值是其背后的思想。一方面,最近在视觉目标识别方面的研究,能够实现对大部分目标的稳定识别。另一方面,单目SLAM和从运动到结构,目前已经可以支撑摄像头实时运动以及三位场景估计,但是却缺少了语义信息。通过将上述几方面融合,提出一个局部标注构图和机器人位置估计方法,将在机器人执行像目标抓取这类任务的时候能够更有用(正如在RoboEarth实验中证明的一样)。


考虑到本文使用的摄像头:只有SLAM摄像头需要标定,而用于模型构建的摄像头和SLAM用的可以是不同的摄像头。任何机器人安装一个标定好的摄像头,以及一些用于系统交互所需的预先计算好的目标模块后,就可以运行本算法。一般情况下,随着机器人和目标物体的交互完成,算法终止(The robot ends up with the location of the object it is supposed to interact with under quite general circunstantes)。最后,仅通过识别目标表面,地图就能够合并目标观测不到的其他区域的信息。这对于机器人导航将非常有用。


基于本文将来可以开展一些有趣的工作。首先,可以增加语义标注的质量和密度,比如,典型目标识别算法模块能够升级到最近的类别识别算法[10]。这使得算法能够识别一般目标种类(比如:椅子类等),而不是识别具体目标(比如:是某一把椅子)。基于文本的目标识别[20]或者图像分割[13]可以用于增加标注物体的密度。其次,单目SLAM方法可以构建更加密集的几何地图,文献[21],[25]的算法能够用于帮助机器人完成导航或路径规划任务。

IX. 致谢

本文研究受到基金248942 RoboEarth下的European Union Seventh Framework Programme FP7/2007-2013的资助,受到DPI2009-13710 and DPI2009-07130项目下的Direcci´on General de Investigaci´on of Spain的资助,受到Ministerio de Educaci´on (scholarship FPU-AP2008-02272)的资助。作者感谢University of Oxford的(Brian Williams and Ian Reid)和Imperial College London(Andrew J. Davison)的软件合作以及RoboEarth团队的成员。


参考文献

(蓝色区域滑动浏览全部文献)

[1] H. Bay, A. Ess, T. Tuytelaars, and L. V. Gool. Surf: Speeded up robust features. Computer Vision and Image Understanding, 110(3):346–359, 2008.

[2] C. Cadena, D. Gálvez-López, F. Ramos, J. Tardós, and J. Neira.Robust place recognition with stereo cameras.In Proceedings of the IEEE/RSJ Conference on Intelligent Robots and Systems, Taipei, Taiwan, October 2010.

[3] R. Castle, G. Klein, and D. Murray. Combining monoSLAM with object recognition for scene augmentation using a wearable camera. Image and Vision Computing, 28(11):1548–1556, 2010.

[4] R. O. Castle, D. J. Gawley, G. Klein, and D. W. Murray. Towards simultaneous recognition, localization and mapping for hand-held and wearable cameras. In Proceedings of the IEEE International Conference on Robotics and Automation, pages 4102–4107, 2007.

[5] J. Civera, A. J. Davison, and J. M. M. Montiel.Inverse depth parametrization for monocular SLAM. IEEE Transactions on Robotics, 24(5):932–945, October 2008.

[6] J. Civera, O. G. Grasa, A. J. Davison, and J. M. M. Montiel. 1-point ransac for EKF filtering: Application to real-time structure from motion and visual odometry. Journal of Field Robotics, 27(5):609–631, October 2010.

[7] M. Cummins and P. Newman. FAB-MAP: Probabilistic localization and mapping in the space of appearance. The International Journal of Robotics Research, 27(6):647, 2008.

[8] H. Durrant-Whyte and T. Bailey. Simultaneous localisation and mapping (SLAM): Part I the essential algorithms. Robotics and Automation Magazine, 13(2):99–110, 2006.

[9] S. Ekvall, P. Jensfelt, and D. Kragic. Integrating active mobile robot object recognition and slam in natural environments. In 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 5792–5797, 2006.

[10] V. Ferrari, F. Jurie, and C. Schmid.From images to shape models for object detection. International journal of computer vision, 87(3):284–303, 2010.

[11] Y. Furukawa and J. Ponce.Accurate, dense, and robust multiview stereopsis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(8):1362–1376, 2010.

[12] C. Galindo, A. Saffiotti, S. Coradeschi, P. Buschka, J. Fernandez-Madrigal, and J. Gonzalez.Multi-hierarchical semantic maps for mobile robotics.In Intelligent Robots and Systems, 2005.(IROS 2005). 2005 IEEE/RSJ International Conference on, pages 2278 – 2283, aug.2005.

[13] S. Gould, R. Fulton, and D. Koller.Decomposing a scene into geometric and semantically consistent regions. In Computer Vision, 2009 IEEE 12th International Conference on, pages 1–8. IEEE, 2010.

[14] R. I. Hartley and A. Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press, ISBN: 0521540518, 2004.

[15] S. Hinterstoisser, V. Lepetit, S. Ilic, P. Fua, and N. Navab. Dominant orientation templates for real-time detection of texture-less objects.In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 2257 –2264, jun. 2010.

[16] M. Martinez, A. Collet, and S. Srinivasa. Moped: A scalable and low latency object recognition and pose estimation system. In Robotics and Automation (ICRA), 2010 IEEE International Conference on, pages 2043 –2049, may. 2010.

[17] D. Meger, P. Forssén, K. Lai, S. Helmer, S. McCann, T. Southey, M. Baumann, J. Little, and D. Lowe. Curious George: An attentive semantic robot. Robotics and Autonomous Systems, 56(6):503–511, 2008.

[18] F. Moreno-Noguer, V. Lepetit, and P. Fua. Accurate non-iterative o(n) solution to the pnp problem. Computer Vision, IEEE International Conference on, 0:1–8, 2007.

[19] M. Muja and D. G. Lowe. Fast approximate nearest neighbors with automatic algorithm configuration. In International Conference on Computer Vision Theory and Application VISSAPP’09), pages 331–340.INSTICC Press, 2009.

[20] K. Murphy, A. Torralba, and W. Freeman.Using the forest to see the trees: a graphical model relating features, objects and scenes.Advances in Neural Information Processing Systems, 16, 2003.

[21] R. Newcombe and A. Davison. Live dense reconstruction with a single moving camera. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 1498–1505.IEEE, 2010.

[22] A. Pronobis, O. Martinez Mozos, B. Caputo, and P. Jensfelt.Multimodal semantic place classification. The International Journal of Robotics Research, 29(2-3):298, 2010.

[23] A. Ranganathan and F. Dellaert.Semantic modeling of places using objects. In Robotics: Science and Systems, 2007.

[24] N. Snavely, S. Seitz, and R. Szeliski.Modeling the world from internet photo collections. International Journal of Computer Vision, 80(2):189–210, 2008.

[25] H. Strasdat, J. Montiel, and A. Davison. Scale drift-aware large scale monocular SLAM. In Proceedings of Robotics: Science and Systems (RSS), 2010.

[26] S. Vasudevan, S. Gächter, V. Nguyen, and R. Siegwart. Cognitive maps for mobile robots-an object based approach. Robot.Auton. Syst., 55:359–371, May 2007.

[27] M. Waibel, M. Beetz, R. D’Andrea, R. Janssen, M. Tenorth, J. Civera, J. Elfring, D. G´alvez-L´opez, K. Haussermann, J. Montiel, A. Perzylo, B. Schiele, O. Zweigle, and R. van de Molengraft. Roboearth – a world wide web for robots. IEEE Robotics and Automation Magazine, 18(2):69–82, june 2011.

[28] B. Williams, G. Klein, and I. Reid.Real-time SLAM relocalisation. In IEEE 11th International Conference on Computer Vision, page 1:8, 2007.

[29] H. Zender, O. MartínezMozos, P. Jensfelt, G. Kruijff, and W. Burgard.Conceptual spatial representations for indoor mobile robots. Robotics and Autonomous Systems, 56(6):493–502, 2008.


备注

文章的高清视频可参见网站

http://webdiis.unizar.es/˜jcivera/videos/iros11_desktop.avi

http://www.youtube.com/watch?v=RUJrZJyqftU

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系[email protected]