点击下方
卡片
,关注“
3D视觉之心
”公众号
>>
点击进入→
3D视觉之心技术交流群
按照刘老师的部署,我与大家分享一下关于时空智能、智能导航的最新思考与建议。时空智能是自然界生命体为了寻找生存资源而长期演进出来的,与时空位置相关的一种感知和认知智能。这份报告将从时空智能的本质出发,探讨了大模型、端对端自动驾驶、SLAM技术革新、具身智能等前沿方向,最终指向一个核心关切:在人工智能颠覆性变革的今天,传统导航技术如何破局?具体包括四个核心问题:(1)大模型中是否具有时空智能;(2)智能导航比自主导航有哪些技术差异;(3)如何在导航任务上运用大模型;(4)如何构建智能导航的专业大模型。
世界知识指的是大模型通过大数据训练后所掌握的各种信息,涵盖广泛的主题,如历史、科学、文化、地理等。这其中也包括相当程度的专业知识,尤其是对空间的基本认知。经过合适的实验以及精准的提示,现有的大模型就能够开展导航任务规划。当然,相比于在视觉感知、语言理解和时间序列处理方面所展现的惊人效果,目前大模型的空间推理能力明显不足。要想让智能体具有类人的空间推理能力,还需要在现有大模型的基础上开展技术创新。
自动驾驶是智能导航的重要体现。下面主要回顾自动驾驶发展的几个代表性技术阶段,包括分模块自动驾驶阶段、分网络自动驾驶阶段、分阶段端对端阶段和生成式端对端阶段。端对端驾驶将传感器数据与非传感器数据统一接入,通过大模型直接生成最终的路径预测、驾驶决策与控制指令,并能基于大模型开展驾驶评估,已经成为当前自动驾驶主流且必然的方案。从中我们可以看到几个主要的技术趋势,即(1)语言变成了一种传感器;(2)多模态数据统一感知与统一表示;(3)隐式的地图;(4)面向任务的评价。
在端对端技术的进逼下,SLAM何去何从成为一个非常值得关注的问题。从导航任务的角度看,传统仅提供自身位姿和简单地图信息的SLAM,已无法满足智能导航需求。SLAM作为一个感知器,要在场景感知与理解方面朝着越来越精准、精细、高效且可解释的方向发展,要更加积极主动地感知动态环境和动态目标,感知物体级和场景级的语义。SLAM和大模型现在也结合且互相促进,体现出很多新的发展趋势。SLAM作为一个感知器需要和其他规划模块组合,才能最终服务于导航,这就与端对端方案形成了明显的技术路线差异。虽然在自动驾驶领域已经普遍认为“SLAM已死”,但这两种技术真正的决战还未开始,最终的战场将在具身智能领域。