点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
编辑:3D视觉工坊
来源:https://zhuanlan.zhihu.com/p/14914009949
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
先说个人的结论:SLAM 技术没有被淘汰,在特定场景尤其是低算力平台上仍然有长期需求,但职位需求是萎缩的,且存量人才过于饱和,不建议再入坑,积极拥抱AI 时代吧!
没落的技术栈
这里讨论的是以状态估计为核心的经典SLAM技术,NeRF/GS重建和VLN这些方向是经典SLAM场景的延伸,但是和经典SLAM的技术栈已经差别比较大,不在这里的讨论范围内。
SLAM其实本身是一个比较小众的方向,它深度地和机器人以及XR行业绑定,XR行业一直处于不温不火的状态,智驾行业的繁荣提供了大量的SLAM技术职位,且吸引了更多人选择这个技术方向。目前智驾行业已经进入后期存量竞争阶段,不仅没有新的玩家进场,甚至也不断有车企和智驾供应商没有经受住商业市场的残酷考验倒闭,在这种情况下,市场的总体需求是萎缩的。
过去几年,智驾的地图定位以及感知后处理是对SLAM技术背景工程师有大量需求的两个主要业务方向,在感知模型能力不足的情况下,采用堆叠人力题海战术的方式设计了大量规则保证智驾功能的上线。但是很不幸,这两个方向都是被端到端革命的对象,今年很多智驾公司的组织架构改革,都基本取消了地图定位团队,变为数据生产等支撑性部门,其重要性式微是显而易见的。端到端一阶段模型,也打破了传统感知和规控模块的边界,不再需要很重的感知后处理模块。以上不仅导致行业上对SLAM技术没有太多增量的需求,也导致存量人才饱和,这是笔者认为不适合再入坑的主要原因。同时,确实还是存在一些业务方向对SLAM技术是有长期需求,比如4D label,标定,XR/扫地机等低算力平台,以及智驾的AVP等,但想象力相对有限,技术方案已经很多年基本没什么变化了,不会再有明显的增量机会。
今年自动驾驶端到端技术以及具身智能的快速迭代,本质上是这波AI技术跃迁在泛机器人(汽车,各类机器人等)这个垂直领域的体现,是数据驱动范式的胜利。所以,笔者认为,基于数据驱动的范式解决工程问题,以后会是算法工程师的基本功!
技术转型
技术方向转型:比较新的技术方向其实是适合转型的,因为它意味着有很多新增的职位需求,同时也没有太多存量深耕多年的竞争者,比如AIGC,VLX(VLM,VLA,VLN)等。同时也要考虑技术的生命周期和适用范围。
AIGC 极大的降低了内容生产的成本,文生视频,文生3D,机器人和自动驾驶里的生成式仿真/世界模型,这些方向的底层技术相通,目前主流的方案都是conditional diffusion模型,所以我把它们都归属于AIGC技术,这个技术方向就业面比较广,比较适合转型。
5~10年的时间维度,机器人和智驾的终局是VLA,即输入视觉,输出动作指令的系统,人类本身就是一个VLA系统,而现存的互联网视频中,有大量的人类行为数据可供模型学习,但如何让模型从视频里学习到物理规律,确实是一个还没解决好的问题。关于机器人和VLA,其实还可以发散性的思考下。机器人本质上是提供了新的劳动力,是生产力工具,而VLA则提供了类人大脑,为机器人提供接近人类的行动能力。两者可以类比为PC和操作系统,当技术成熟之后,以此构建的新的世界,可能会像PC和操作系统一样,深刻影响人类社会的方方面面和各行各业,这里蕴含的新的可能性,可能比做机器人本体和VLA技术更大。机器人行业目前处于设计一款可用的的PC和操作系统的阶段。
转行做产品经理:AI和泛机器人方向是一个技术门槛比较高的方向,这意味着做这个方向的产品经理,要有足够的技术认知,所以技术人员转型产品经理是比较有优势的,一个能把SLAM学好的工程师,是完全有能力短期内掌握一个新的技术领域的主干脉络,这个学习程度不能完全让你拿到一个该技术领域工程师的职位,但对于做产品经理,这样的学习能力是完全足够的。而且AI和泛机器人行业目前仍处于行业早期,探索如何将新兴的技术做到落地,也是有很大空间的。目前很多AI编程工具能力已经很强了,明显降低了一个功能需求的开发周期,将来,提出一个好的产品方案会是更重要的事情,所以不管要不要转型做产品经理,笔者都建议要不断提升这方面的能力。
曾经有人问李想如何寻找新的千亿市场,他回答说早期很难预判,但观察历史上大部分新兴行业都是由新的技术革命驱动的,这让我醍醐灌顶,关注那些能带来深刻变革的新技术,就大概率不会错过新的行业机会。很幸运,我们正在经历AI时代的前期,这会是一场可以定义为第四次工业革命的技术变革,虽然当前其落地应用还相对有限,但是很明显能感受到多方能量在快速聚集,蓄势待发。强烈建议朋友们读下《沸腾新十年》,书中对2009年,移动互联网爆发前夜的状态的描述以及很多现在大家比较熟悉的大佬当时的彷徨和摸索,与现在的AI行业和具身智能行业现状是何其相似。
最后,2024最大的感悟是信念才是人生最宝贵的东西,愿新的一年,朋友们都能在这波AI浪潮中找到自己的热爱,加油!
扩展阅读
[1] Thinking-VLN
[2] NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation
[4] General Navigation Models
[5] 李宏毅:diffusion model 课程 2023
[6] How Diffusion Models Work
[7] 扩散模型(Diffusion Model)详解:直观理解、数学原理、PyTorch 实现
[8] 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼
[9] stable diffusion
[10] Stable Diffusion 解读(一):回顾早期工作
[11] Stable Diffusion 解读(二):论文精读
[12] Stable Diffusion 解读(三):原版实现及Diffusers实现源码解读
[13] Hugging Face: Diffusers
[14] OmniRe:Omni Urban Scene Reconstruction
[15] DriveArena: A Controllable Generative Simulation Platform for Autonomous Driving
[16] A Survey on Vision-Language-Action Models for Embodied AI
[17] OpenVLA: An Open-Source Vision-Language-Action Model
[18] π0: Our First Generalist Policy
[19] 李想·产品实战16讲
[20] 梁宁·产品思维30讲
[21] 沸腾新十年(上)
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总