点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:RoboX
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
1月13日,
地平线副总裁兼首席架构师苏箐
的一段坦率发言,引发了行业的关注。RoboX将此次讲话全文稍加编辑,供大家参考。
地平线副总裁&首席架构师,国内自动驾驶研发和量产的先行者,曾领导开发中国智能手机和汽车的先进处理硬件和架构,现整体负责地平线智驾系统Horizon SuperDrive的产品研发和量产落地。
自动驾驶不是什么新东西,它发源自2004年的 DARPA project,那时我们就能看到其可能性。
我自己做自动驾驶,是从2012年前后开始的。当时,我看到Google X的两个创始人坐在一辆自动驾驶的丰田的普锐斯里,就觉得这玩意儿太酷了,它代表着未来。然后就不小心做了这么多年。
可到了今天,坦白讲,凯哥(余凯)是很乐观的,但我已经快抑郁了,因为自动驾驶真的非常难。
我有很多朋友已经改行了,去做了具身智能、机器人。自动驾驶不做了,受不了了。也有不少人问我,要不要去做具身智能?
我想,咱们连自动驾驶都搞不定,有什么资格做机器人?
自动驾驶应该是第一个工作在物理世界和人交互的机器人,它处于半规则和半非规则的场景里。
如果连这种东西都搞不定的话,去做一个非结构化的机器人是不可能的。
如果我们认清自动驾驶本身的比较对象是什么,大家就会发现这个问题比较麻烦。
因为自动驾驶的比较对象不是你的竞争对手,绝对不是国内的蔚小理、华为,甚至不是特斯拉,自动驾驶的本质比较对象是
人类本身
,它的价值是一个拐点式的价值——
他比不过人的时候,其实就是高科技的玩具;当有一天比人好的时候,价值立刻就会跳上去,也就是两段式的价值。
很不幸的是,到目前为止还没有一个系统真正达到了这一拐点,我们只是看到了这个希望。
所以我有时想,干了十多年,每天看到这么多问题,全世界最聪明的人花了这么多钱干这件事情,都还没过这个拐点,我有时就会很绝望。
但是绝望归绝望,干了这么多年还是能看到希望,因为整个内核技术演进了5-6代以后,整套数据驱动范式起来以后,你会发现整个系统已经能看到曙光了。
你要说我们的优势和理念是什么,其实也很简单,我们并不打算和任何人比较。坦率地说,
我干了这么多年,对每年出现的新概念的时髦的词已经完全没有感觉了,因为我看到像这种复杂的系统,它没有银子弹,也没有什么一招制敌的方法。
你必须要有一个很Strong的工程团队,把系统和底座做得非常Solid。
你要比别人有更多的经验,要比别人愿意吃更多的苦,你要持之以恒每天面对这么多问题还不崩溃,一年又一年地运作。同时,你还要保证在新的技术出现的时候,快速把它吸收进来,而且要知道它的边界是什么。
大家都知道,一个新的方法起来以后,第一天你会觉得它很美好,能解决所有的问题;第二天又会对它引起怀疑;第三天你会发现边界就在那里。
每一个新方法都有这么一个过程,所以「正确的复杂系统」是不断在比较Solid的底座上,将新的方法集成进去,应用起来,不断地往前滚动,我觉得这是做大工程的经验之谈,我们现在也在做这方面的实践。
如果抛开和人类的比较,你一定要让我找一个对标对象,我还是会选择FSD
,因为我确确实实觉得他们整个团队的素质和创新精神是值得让人敬佩的。
我自己去试过以后,能看到他们在技术上有很多独到之处,甚至在某些地方有断代式的领先。这点不妨承认,没什么关系,我们自己从中也能学到很多新的思想和思路,至少他们已经证明了这些东西是Work,我们就要去做。
1、
中国在目前的状态下,不可能获得特斯拉的算力。
2、
中国的「基建随意性」比美国大太多:它有很多以通用的Common sense搞不定的东西,这是美国没有的。
3、
中国的大量外卖电动车,和不守规矩的开车行为,在美国也是没有的,导致大量的博弈问题需要处理,而这恰恰是现在的数据驱动不太能有效解决的。
所以我们自己选择的是一条比较务实的道路,
系统的内核完全是一段式的端到端数据驱动,
但是在数据比较稀疏,短期内用更大数据量也很难收敛的时候,我们
也会用一些有经验的工程师做的规则的东西
,可以认为是双并行的系统,目前实践下来是最有效的。
当然做Marketing宣传的时候,你可以讲得天花乱坠:例如说是端到端、数据驱动,有各种各样的新词。但是对普通消费者来说,他上车以后5分钟能不能感觉这个东西是完全与众不同的,他可以信赖的,这样的产品才能去卖。
我到现在为止最信仰的做产品的人还是Steve jobs,我觉得真正iPhone所有的细节做到位了,没有什么漏洞,这是目前这代产品人里没有看到有谁达到他那个高度,我希望地平线的产品以这种标准去做我们自己的产品,去解决真正的问题。
现阶段,自动驾驶是高科技的玩具。它逐渐地在高速上好用了,Urban里不太好用。目前就这么个状态,它的价值是起码很多时候不用看导航那么累了,只需要让它自己认路、开车,你去监督它就可以了。这个价值还不错,但这还不够。
因为中国和美国的情况不太一样,美国人通勤几乎都是走高速,中国不是,中国一年上不了几次高速,中国的Urban问题是Critical的问题。
系统的本质问题是:到底是系统依赖人,还是人依赖系统?谁给谁兜底?
你要真的想让系统有价值,就需要在天加班很累的时候,真正能安心地将系统激活,让它帮你开,这时系统才是真正有价值的,而且超越了玩具的价值,这是我们今年要做到的目标。
讲起来的话其实就是两个点,
1、将一段式端到端的类人性做上去:
其目的不是为了类人,而是要超越人
——如果车辆能在你预判之前就完成了动作,这个系统才是对的,这才是我们的努力目标。
2、把车的紧急监管安全性至少提升100倍:
这件事情非常难,但是我们正在做一些努力,也有了一些新的方法论线索。
这两件事情达到以后,我相信我们应该是和市场上所有的产品都不相同的产品。如果说让这么多人辛苦了这么多年,再去做一个和大家一样的东西,这不是我们这代人该做的事情。
我们应该去解决一些真正的问题,而不是天天活在营销里,我觉得中国这几年的氛围我是不太喜欢的,我觉得应该做一点正确的产品解决正确的问题。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云