点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:BRAIN实验室
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
按照刘老师的部署,我与大家分享一下关于时空智能、智能导航的最新思考与建议。时空智能是自然界生命体为了寻找生存资源而长期演进出来的,与时空位置相关的一种感知和认知智能。这份报告将从时空智能的本质出发,探讨了大模型、端对端自动驾驶、SLAM技术革新、具身智能等前沿方向,最终指向一个核心关切:在人工智能颠覆性变革的今天,传统导航技术如何破局?具体包括四个核心问题:(1)大模型中是否具有时空智能;(2)智能导航比自主导航有哪些技术差异;(3)如何在导航任务上运用大模型;(4)如何构建智能导航的专业大模型。
世界知识指的是大模型通过大数据训练后所掌握的各种信息,涵盖广泛的主题,如历史、科学、文化、地理等。这其中也包括相当程度的专业知识,尤其是对空间的基本认知。经过合适的实验以及精准的提示,现有的大模型就能够开展导航任务规划。当然,相比于在视觉感知、语言理解和时间序列处理方面所展现的惊人效果,目前大模型的空间推理能力明显不足。要想让智能体具有类人的空间推理能力,还需要在现有大模型的基础上开展技术创新。
自动驾驶是智能导航的重要体现。下面主要回顾自动驾驶发展的几个代表性技术阶段,包括分模块自动驾驶阶段、分网络自动驾驶阶段、分阶段端对端阶段和生成式端对端阶段。端对端驾驶将传感器数据与非传感器数据统一接入,通过大模型直接生成最终的路径预测、驾驶决策与控制指令,并能基于大模型开展驾驶评估,已经成为当前自动驾驶主流且必然的方案。从中我们可以看到几个主要的技术趋势,即(1)语言变成了一种传感器;(2)多模态数据统一感知与统一表示;(3)隐式的地图;(4)面向任务的评价。
在端对端技术的进逼下,SLAM何去何从成为一个非常值得关注的问题。从导航任务的角度看,传统仅提供自身位姿和简单地图信息的SLAM,已无法满足智能导航需求。SLAM作为一个感知器,要在场景感知与理解方面朝着越来越精准、精细、高效且可解释的方向发展,要更加积极主动地感知动态环境和动态目标,感知物体级和场景级的语义。SLAM和大模型现在也结合且互相促进,体现出很多新的发展趋势。SLAM作为一个感知器需要和其他规划模块组合,才能最终服务于导航,这就与端对端方案形成了明显的技术路线差异。虽然在自动驾驶领域已经普遍认为“SLAM已死”,但这两种技术真正的决战还未开始,最终的战场将在具身智能领域。
具身智能是指智能体(如机器人)通过其身体与环境的交互来获取知识、学习和解决问题的智能。时空智能是具身智能的基础。大模型在具身智能导航中发挥重要作用,进而支撑了一些新型的导航技术形态如视觉导航VN、视觉语言导航VLN以及视觉语言动作VLA。VLA尤其值得关注。比如要求一个机器人“到冰箱拿瓶水给我”,不能把“走到冰箱”和“拿水”做成导航和抓取两个模块或者两套技术方案。事实上在VLA中,能“走到冰箱前”就能“拿出水” ,反之能“拿水”就能“导航到冰箱” ,用到的是同一个技术框架。这是一个非常依赖大模型的技术,将给智能导航带来很多启发。
自此,我们再回到今天报告的话题“DeepSeek”。作为一个现象级的超级AI,我们要在导航问题的研究上,尤其是导航路径规划与导航动作生成方面借助这些大模型的推理能力。为此,仿照王国维的“读书三境界”,我提一个“使用DeepSeek做导航三境界”,'我看青山多妩媚,料青山看我应如是',此第一境也;'好风凭借力,扶我上青云',此第二境也;'问渠那得清如许,为有源头活水来',此第三境也。这其实也是三种技术框架,供各位参考。我们认为,智能导航大模型应该具备常识和记忆,必然是多模态深度融合,具有很好的场景适应和泛化能力,能够生成长周期的任务规划并在Sim2Real方面能够落地的模型。