点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
作者:半闲居士等人 | 编辑:3DCV
链接:https://www.zhihu.com/question/425807946
添加微信:cv3d008,备注:方向+单位+昵称,拉你入群。文末附行业细分群
Q:请问科研选方向,纠结了很久,rl和slam哪个更有前景呢?尤其是在工业界的应用中,学习哪个方向更容易找工作呢?
A1:
两个方向在工作上面都还不错。SLAM这边主要是激光、视觉、多传感器几个类,背后理论都比较相通,学起来也相对轻松愉快。应用行业主要是自动驾驶、地图、机器人、无人机、AR这几块,整体前景都还行。虽然短期落地情况肯定有些争议,长期看来是肯定要做的(我很难想象突然说自动驾驶或者机器人不做了的情况)。一个公司创业了或者倒掉了都是正常的,但是一个行业不会突然间消失。
最近在杨记兴臭鳜鱼店还看到了这种送餐的机器人:
这个送的量又多,走起来比人还稳当。如果价格合适,将来肯定是越来越多的餐厅会用上,我们日常生活中也会越来越习惯这种机器人的存在。当然目前这台是用天花板的标记物的,如果slam做的好,是不是环境就不用布置,推广起来更容易?扫地车外卖车是不是也是这个套路?今后是不是越来越便宜、越来越普及?这些都是显而易见的。学术上的SLAM,在现有框架上确实有完整的解决方案,但现有框架是不是最好的?是不是满足现实应用需求?目前看来还不是。VSLAM能不能从像素、特征点进步到“空间环境理解”的层面?能不能理解到“我的家里有一张沙发、沙发前面是椅子,现有我看到一个椅子,所以我在沙发前面”这种知识?“我之前看到的椅子是黄色的,现在我看到一条黑色的柱状物,我觉得它应该是那把椅子的一条腿,而且因为我站在暗处所以看到的颜色有变化。”这种事情都实现了吗?激光SLAM那边确实相对成熟,不过工程化问题还是很多。比如这两年比较热的外卖车,能够把中关村整块地图建出来在任意两个位置送外卖吗?构建、维护这样一张地图需要多贵的设备和人力?同一个模式在全国各地是否都能走通,还是说各种道路得有自己的解决方案?有没有低成本的,大规模的,自动化的,快速的地图构建方式,而不是靠几百万的采集车来回转?你看这些问题都得解决,再怎么着也够干上好几年的事情了。RL……虽然我不懂RL,买回来的书也还没拆(对,到现在还没拆),大概知道一些复杂的场景,靠一万个if-else是很难解决的,再加一万个也很难说。一些仿生的,人型的机器人也很难用一堆if-else控制其行为(我只是听说啊,听说)。RL可以用一亿个参数换你一万个if-else,某些场景还能达到以假乱真的效果,一些激进点的人肯定是愿意接受的。所以综上所述,我觉得两边其实都可以,我自己也有兴趣去学一些RL的东西(我还想学做菜学音乐呢)。这个世界上总是投机的人多,相信的人少。投机虽然不能说错,但是长久而言容易“见胜兆则纷纷聚集,见败兆则纷纷逃散”,不利于行业发展。我认为年轻的时候,不妨想的简单一些,“相信”某些事情,大胆前进即可。反正每件事情都有看好和唱衰的,谁也说服不了谁,做了才知道,事在人为。当然“相信”不是“盲信”,理智还是需要的。
A2:
自动驾驶系统经理一枚,目前量产角度看,slam前景远优于强化学习,强化学习做个实验可以,但由于规划对于可解释性的要求远高于图像激光等感知模块,因此纯粹的强化学习由于在这方面非常薄弱,可用性很差,另外强化学习是需要负样本的,而自动驾驶除非你有非常好的(目前没见过)的仿真系统,否则这些负样本是拿不到的。因此逻辑性的规划开发是主流,可能用到的深度学习策略是参数搜索。题主如果求稳的,个人建议你还是选择slam
A4:
RL在不止在自动驾驶领域,在更广义上的现实问题都有比较大的部署障碍。以下说一些个人的理解。
-
从RL本身来说,现在的基本说RL就是DRL满天飞,大部分研究model-free的算法可解释性几乎为0,在游戏或者虚拟环境里跑倒不是什么问题,但应用在实际环境中有很大问题。
-
如果感兴趣RL在实际应用的话,可以去关注一些model-based的方法,一般实际场景中部署的机器人都是有任务模型的。
-
更学术一点讨论的话:RL解决的问题也大部分都是MDPs而且探索的也很多,有些DRL工作说是能解决POMDPs其实和解MDPs方法差别不大,比如经典DRQN里面用lstm把多个observations压缩后再输出到网络里,很多工作也都证明了和DQN差别不大甚至没有提高。深层次的原因在于对于POMDP,统计量充分的只有全部历史集合或者belief,对于历史集合(随时间指数递增)是没有办法直接喂到训练网络里的。所以现在工作都是靠RNN把多个观测压缩一下再输出,不过这和正经的belief update相去甚远,理论上不是一回事。这也是我第一条说,现在model-free的drl解释性基本为0,大家都在试各种tricks加一点看看能跑通不,跑出结果就发一点。而现实生活中,POMDPs甚至是Dec-POMDPs乃至POSG的问题都有,这些都不是现有DRL能轻易解决的,而planning在这方面的算法也局限于小规模问题不像DRL可以大规模扩展。从这方面来说可以做的工作很多。
-
slam方面了解不太多,不敢瞎白话,感觉是一个比较成熟的领域。
利益相关,也是做机器人的planning under uncertainties方向的博士生。
A5:
SLAM更有前景。
-
单纯DRL是在不断试错的基础上实现的,这现实工业应用是不能容忍的。工业应用和交通的错误成本非常高,肯定不能出现机器撞坏了或者人员受伤了,因此强化学习不适用。从这也可以得出,为什么目前强化学习应用在游戏、推荐系统中比较多,因为这些场景的试错成本低。
-
DRL的实现是靠奖励约束的,奖励条件越多,DRL实现得更快更好,但是奖励条件的构建需要引入大量的人类先验知识。可惜这种人类先验知识的迁移性较低,也就是说不同的任务,可能奖励设置是不同的,需要人为的去调试,这需要大量的时间和经验。而工业和实际应用则奖励的设置最好是一种通用的,或者稍作调整。
-
DRL算法的可迁移性低。当算法在一个域实现后,如何在另一个域也可以工作,这是一个问题。可迁移性不仅是强化学习,同时也是深度学习需要解决的事情。很多学者都致力于这方面问题的解决。
A6:
从工业界来说,两者目前两者都不是好的选择,slam可能略略略好一丢丢丢丢丢。slam在自动驾驶等领域的所占的比重微乎其微,并且(由于slam效果不够理想)有被其他方法替代的趋势,在增强现实中比重大一些,但增强现实本身目前也没有很大的市场。而且slam已经处于瓶颈期很久了,目前还看不到有价值的技术突破的可能。slam相比RL职位数量多一些。
RL的训练难度之大和泛化性之差,导致其目前在工业界大部分领域几乎无法使用,这将是长期存在的现象。RL在游戏和金融领域有些应用,可以看一下腾讯网易的招聘。总的来说相比slam职位数量少,但是待遇高一些。
从学术角度,强化远好于slam。
正如之前所说,slam已经很久没有有价值的突破了,尽管从使用角度来说还不成熟,但从研究来说可太“成熟”了 ,很难找到好的点子。另外slam入门难度也高不少,自己想法得验证难度也很大。
而RL相对来说年轻一些,可以挖掘的点子多一些,尽管目前还不实用,但是在学术界研究热情一直很高,各机器人/计算机顶会论文产出也很稳定。
本文仅做学术分享,如有侵权,请联系删文。
3DCV技术交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉技术星球
3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、
BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、
无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、
LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、
MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等
。
▲长按扫码学习3D视觉精品课程