专栏名称: 建约车评
热爱汽车,热爱自主,信奉科技,信奉市场。为你带来前瞻科技和产业深度报道。
目录
相关文章推荐
锦缎  ·  巴菲特2025年股东信千字脱水版 ·  8 小时前  
企业专利观察  ·  说明书修改超范围,专利局认定专利继续维持有效 ·  2 天前  
企业专利观察  ·  说明书修改超范围,专利局认定专利继续维持有效 ·  2 天前  
知识产权那点事  ·  关于杭州知识产权法庭、杭州破产法庭、杭州国际 ... ·  4 天前  
51好读  ›  专栏  ›  建约车评

自动驾驶成为明牌游戏

建约车评  · 公众号  ·  · 2023-01-05 21:00

正文

量产车智能驾驶,当前牌桌上的玩家有特斯拉、小鹏、理想、毫末和蔚来。

2023年最先出牌的是毫末智行。1月5日,毫末在北京举办第七届HAOMO AI DAY,向外界展示了以下进展:

技术方面,与字节旗下火山引擎合作打造智算中心“MANA OASIS”,算力达到0.67EFLOPS、存储带宽达2T/s;基于智算中心提供的基础设施,毫末推出5个全新的大模型算法,感知架构升级。

市场方面,毫末智行董事长张凯透露,搭载毫末HPilot系统的车型已接近20款;毫末自研AEB算法助力魏牌、欧拉、坦克车型获E-NCAP、ANCAP五星评级;2022年底,已有300台搭载毫末HPilot辅助驾驶系统的魏牌摩卡发运欧洲,即将交付德国用户;而预计到2024年上半年,毫末城市NOH将在全国100座城市落地。


毫末在AI DAY上发布的内容,代表了行业领先实践者对这个产业的前沿思考。


一、智算中心时代

智能驾驶深入到城市场景之后,数据量和场景复杂度呈指数级上升。要通过神经网络学习实现在城区道路上安全、高效、舒适的智能驾驶方案,需充分转化海量数据的价值。

2018年以来,Transformer及其衍生变种的大模型,不仅席卷了自然语言处理、图像识别、语音识别等多个AI领域,还在特斯拉前AI负责人Andrej Karpathy的引领下成为解决自动驾驶难题的主流方案。

大模型的特点是结构简洁、可无限堆叠基本单元得到巨大参数量,只要拥有足够规模的数据,其可提升的潜力上限极高。

要处理海量数据、训练大模型,需有超强算力作为基础设施。因此,超算中心已经成为参与自动驾驶竞争的入门配置。

2022年9月,毫末智行CEO顾维灏在第六届AI DAY上表示,毫末超算中心的目标是满足千亿参数大模型、训练数据规模100万Clips、整体训练成本降低100倍。

时隔三余月,毫末终于官宣了与字节跳动旗下云服务企业火山引擎合作搭建的智算中心——MANA OASIS。

MANA OASIS首期由2000多个高性能GPU组成,算力达到0.67EFLOPS (每秒67亿亿次浮点运算) ,存储带宽每秒2T、通信带宽每秒800G。

除解决绝对算力的需求以外,毫末在搭建NANA OASIS时还考虑并解决了以下几方面的问题:

1.高性能存储

在超算领域,计算效率的瓶颈往往不是GPU本身的计算速度,而是文件管理、存储、读取、通信等环节的延时过高,导致大量GPU在闲置状态下“等待”数据。

当模型设计得越来越大,数据的吞吐量不断上升,这时本机内的存储带宽需要达到一定要求,以确保高速的存储和高速的访问。

目前自动驾驶所用的文件形态已从单帧图片转换为Clips (可简单理解为短视频) 。每个Clip的长度若以10秒计,则包含100帧的视频信号,以及相对应的毫米波、激光雷达和超声波雷达信号。所有这些信号根据时间戳对齐,组成一个相对完整的视觉片段,最终呈现的形态是一个个小文件。

对系统而言,无数这样的小文件在系统里流动,当需要抽取某些文件进行训练时,本质上是一种随机读取动作。

为了高效管理这些文件,尽可能降低随机读取的延时,毫末组建了一套以场景库标签为索引的文件管理系统。每个Clip文件都依据场景打上一系列标签,再将这些场景标签做成这些文件的水印,训练时通过标签筛选和提取文件,实现多层级管理。

有了这样的文件管理系统,在2TB/s存储带宽支持下,MANA OASIS针对百亿规模的小文件随机读取延时小于500微秒。

2.通信带宽

大模型的显著特征,除海量数据之外,还有多机并行训练 (运算) ,多机之间的通信效率同样制约着着计算的速度。

MANA OASIS的每一台服务器有8个GPU,GPU之间通过带宽600G/s的双向NVswitch通信,而机器之间设置4个RDMA网卡,通信带宽达到800G/s。

此外,通过利用一些廉价、经淘汰的CPU做文件的预描或缓存计算,毫末还在800G/s物理带宽之外得到了更大的虚拟带宽,进一步提高通信效率。

3.训练效率

并行训练,例如,同时处理图片、点云、结构化文本等多种模态的信息,可节约开发时间、提升训练的总体效率。而并行训练中涉及到的很多方法,例如算子优化、训练框架设计,需在云厂商的支持下完成。

顾维灏介绍称,因为字节在抖音积累的对视觉、视频的理解,火山引擎在这一方面为MANA OASIS提供了很大助力。

例如在高性能算子库方面,火山引擎提供超过500个高性能算子,基本上实现对当前神经网络所能用到的算子,都有了高性能版本。在此基础上,可以快速适配超过200种神经网络结构。

而在大模型的训练框架上,火山引擎则帮助毫末实现了数据、流水、模型的并行,支持Sparse MoE混合并行,还可支持推训一体 (推理和训练) 的高性能框架,使训练效率提高了100倍。

此外,AI技术发展迅速,新的算法不断出现,智算中心还需要对这些前沿新算法有更快的响应速度和适应性,这涉及到底层云厂商对于算子的硬件底层优化等能力。

综上,经过考量技术、成本、服务等多方面的匹配度,毫末最终选择与火山引擎合作搭建智算中心。

毫末技术副总裁艾锐透露,MANA OASIS智算中心的首批机器已经交付并投入使用,毫末当前90%的大型训练任务已经迁入。


二、只能是大模型

智算中心只是基础设施,要将海量且持续增多的数据转化为价值,还须有与之匹配的大模型。

本次AI DAY上,顾维灏一口气向外界展示了五个大模型。从每个大模型发挥的作用,可以窥见毫末是如何解决开发过程中遇到的问题的。


视频自监督大模型

该模型的作用,是把单帧的数据形式转变为Clip的数据形式。

过去的单帧数据,仅能表现某一个瞬间的画面,对目标的标注也仅限于单帧。

从单帧切换至Clip之后,一个10秒时长、包含100帧的Clip中含有关键帧和非关键帧,其中关键帧就是之前已做了人工标注的“离散帧”,约占10%,而剩余90%没有标注。

视频自监督大模型的任务,是根据前一帧的标注数据推测下一帧的内容,对90%的非关键帧进行自动标注。

具体的方法是,先用无标注的数据训练出一个足够大的模型,再用启发式学习,把一些标注的数据放在大模型里作为引导,最后生成所有数据的标注结果。

完成标注后的Clip文件,是一个包含360°环视、障碍物、车道线等结果的检测跟踪环境,反映在带有时序特征的BEV上,即可直接作为车辆规划、控制的依据。


特斯拉早在2021年9月就首次分享了Clip的数据形式,而对于中国的自动驾驶厂商,将数据形式从单帧切换到Clip是一个非常大的挑战,因为Clip实质上是将行驶环境中的全品类目标一次性、多任务地完成标注,并且要完整地表达时序特征——在过去的单帧画面里,是无法表达时序特征的。

因为有了时序特征的加入、有了连续性的概念,过去一些单帧标注中的“疑难杂症”也迎刃而解,例如被遮挡的骑行者、远方的小路牌、单一视角下难以识别的物体等。

有了视频自监督大模型,毫末可以将此前积累的数千万的“离散帧”转化为Clips,并且因为是自动标注,这一过程仅消耗机械算力而无需人力。

自动标注完成后,只需花费原先2%的人工对自动标注的效果进行抽查。当标注效果得到验证通过后,意味着标注成本降低了98%。

3D重建大模型

该模型基于NeRF技术,将同一场景下的多张照片、激光雷达点云等数据进行合成,重建出三维场景。

该技术已在电商领域有广泛的应用,通常是基于商品的照片生成360度视角,并可将商品置于不同的光照、纹理条件下查看效果。

在特斯拉的技术架构中,NeRF同样被用于场景重建和仿真。

3D重建技术对自动驾驶的核心意义在于,通过对场景的重建,场景中的各个细节被完全数字化,依此可相应调整视角、纹理和光照,从而生成更多新场景,达到增添训练数据、降低感知错误率的目的。

过去一些极端场景的数据,只能依靠用户的实际驾驶慢慢收集,而这些corner case本身的发生概率极低,“守株待兔”显然不是高效的收集方式。而有了3D重建大模型,就可以主动创造小概率的困难场景,帮助模型训练。

视频自监督大模型和3D重建大模型,解决的问题都是让用于训练的数据变得更充分、更多样,本质上是数据成本的下降。

多模态互监督大模型

在将基于单帧+2D标注的感知算法升级为BEV算法之后,一个显著的问题是,BEV算法对已知物体的识别效果良好,但面对未知障碍物却有无法识别的风险。

解决这些异形物识别的思路有二:一种是扩大标注物体的“白名单”,尽可能将异形物囊括在已知标签的范畴内;另一种则是不去关心物体的语义信息,只需明确“路面上有障碍物,无法通行”即可帮助决策系统选择避让或绕行。

第一种思路治标不治本,因为实际道路上 (特别是城市道路环境中) 目标的种类和形态难以穷尽。

在第二种思路下,特斯拉推出占用网络 (Occupancy Network) ,仅靠摄像头数据生成车辆周围各个体素 (Voxel) 是否被占据的信息,从而确保车辆不撞上任何障碍物。

特斯拉的方案需要极强的视觉算法能力。而毫末基于此前让视觉、激光雷达、毫米波等不同传感器相互监督的经验,采用激光雷达点云对视觉进行验证,最终得到与占用网络相似的结果。


在用“多模态互监督大模型”解决通用障碍物的检测后,如今顾维灏也可以像马斯克那样自豪地宣称:

“即使有一架UFO停在车前,车辆也能绕过去。”

动态环境大模型

由于成本、覆盖范围、更新频度等方面的原因,依赖高精地图的城市导航辅助驾驶很难向更多城市大规模泛化。

动态环境大模型要解决的问题,是用更少量的地图、更多依靠视觉感知,实现对道路拓扑的推测。

这与人类使用导航地图的逻辑类似——人在驾驶时主要依靠眼睛观察、识别道路环境,同时将导航地图提供的路线、限速等信息作为参考。

依此思路,毫末将注意力机制从常规的空间注意力转到拓扑注意力,把BEV算法中的特征提取作为公用,用一个自回归编码器在路径过程中设置一些关键点,包括分叉、合流、继续、转弯等,再在车辆经过后回溯这些关键点,从而把道路的拓扑完整地表达出来。

在这一过程中,系统虽仍需要使用来自地图的信息,但仅限于从地图获得关键点以形成拓扑点,再与视觉识别的结果做交叉训练。

毫末介绍称,通过这一方式,目前在北京和保定85%以上的路口场景,系统对道路拓扑的预测准确率达到95%。


人驾自监督大模型

在此前两届AI DAY上毫末已经介绍过,通过学习人类驾驶员的行为,使模型的决策更像人、更加“老司机”。

去年年初第五届AI DAY时,毫末是将个别的小场景 (比如变道) 做端到端的模仿学习,直接拟合出人驾的行为。这一方式的最大问题是,训练后的模型是一个“黑盒”,无法解释其为什么会这样驾驶。

去年9月的第六届AI DAY时,毫末引入了更多大模型的数据做统一训练。之后再用Prompt (即引导式启发式的学习) ,希望使模型主动透露一些变化量,从而使其更加“白盒化”,让决策可控、可解释。

然而,人类司机的驾驶行为有好有坏,在以上方式中,模型会不加区分地拟合出所有司机的平均水平,而理想的状态是,在不需要大量人工标注的同时,能使模型“选择性”地采用那些更高水平司机的驾驶决策。

为达到这一目的,毫末借鉴了由Open AI在2022年11月底发布、已在全球爆火出圈的AI聊天机器人模型“ChatGPT”的一些方法。

ChatGPT自GPT1、GPT2、GPT3进化而来,这些大模型的参数从1.7亿、15亿迅速发展到1750亿个,相应地,它们的方法也发生了一些变化,例如ChatGPT将人工反馈强化学习融入到了模型的训练中。


基于人类对模型的反馈,分辨出模型的哪些行为质量更高、哪些质量更低,并设计出一个“奖励模型” (Reward Model) 指引模型的训练,这就形成了基于反馈的强化学习。

在驾驶场景中引入真实接管数据后,奖励模型中的奖励即是司机不干涉、让系统继续驾驶;而奖励模型中的惩罚则是司机接管。

毫末介绍称,经过引入“人驾自监督大模型”,系统在测试中的通过性、舒适性方面均有明显提升。

总结来看,五个大模型各自解决了毫末自动驾驶研发中的具体问题:「视频自监督大模型」用全自动、低成本的方法,让数据形态由单帧转变为Clips;「3D重建大模型」通过生成场景并修改视角、纹理和光照,拓宽了corner case场景数据;“多模态互监督大模型」解决了通用障碍物的识别;「动态环境大模型」在仅使用普通地图的情况下实时推断道路拓扑;「人驾自监督大模型」则进一步优化了驾驶决策的拟人性。

解决这些问题之后,毫末在整个车端的实时感知架构发生了重要的变化——在以前常规的障碍物检测、车道线检测等任务之外,如今通用障碍物检测、道路拓扑预测也都被加入进来,从而,对障碍物意图的行为预测,也被纳入到感知模块里。



三、明牌游戏

以上毫末在智算中心和大模型领域的所有更新,都是围绕城市场景智能驾驶的开发需求做出的。

2020年10月,特斯拉最早在美国向约2000名用户推送FSD Beta,这是城市导航辅助驾驶功能在全球首次推向量产车用户。

如今,毫末智行的城市NOH达到了封版交付状态。在正式向用户推送后,该功能的能力边界,大致与特斯拉FSD Beta相当,但还需更多时间向更多城市泛化。

除毫末之外,在刚过去的2022年,中国的其他智能驾驶头部玩家也已在城市场景做出了初步的成果。小鹏在搭载激光雷达的P5车型上完成了城市NGP在广州的落地;由华为提供方案的极狐阿尔法S·HI版,也分别在深圳和上海推送了城区NCA功能。

然而,小鹏与华为的方案因依赖高精地图,受到地图审批进度的制约,再加上成本高、鲜度低,难以快速适配到更多的城市。

小鹏的下一代XNGP技术架构,将不再使用高精地图,而是同样采用车端感知+普通地图的方案。

相信华为的下一代技术也是如此。

相信理想和蔚来的自研方案也是如此。

站在2023年起始,中国头部厂商对城市场景的自动驾驶技术路线是有共识的,那便是重感知轻地图、大模型、大数据+超算中心的组合。

在这一路线的语境下,数据的多寡和数据质量,是在竞争中取胜的基础。

正因为此,特斯拉深知自己拥有绝对的数据规模优势 (FSD Beta行驶里程超1亿公里) ,因而选择打一场“明牌游戏”,向全世界大量分享其自动驾驶研发细节——即使我告诉你如何做,你的进步速度也追不上我。

这也是为何,想要坐上全球自动驾驶牌桌的玩家,需要在2025年之前全力卖车、将搭载高性能感知硬件的智能车送上大道千万条。

好在,中国的智能电动车市场规模,足够支撑国内厂商在销量上追赶特斯拉,获得能与之匹敌的数据规模。

当然了,在绝对的数据规模之外,其他核心要素还包括软件成熟度、数据自动标注能力、训练的效率和成本等。

毫末智行的优势在于,顾维灏及其团队对技术趋势有着足够超前、准确的判断——早在2021年7月,毫末就在第二届AI DAY上分享Transformer在自动驾驶领域的应用;而2022年4月,毫末又提出了“重感知、轻地图”的城市NOH路径。

另一个值得提及的特点是,毫末的AI团队非常关注全球前沿技术的发展,对最新发布的重要论文如数家珍。这是他们快速尝试、迭代的基础。

基于这些优势和对技术路线的信心,毫末计划在2023年持续打磨城市NOH的性能和体验,并在2024年上半年将该功能落地全国100座城市,进而在2024-2025年打通高速、城市、泊车三域,迈向全场景NOH和完全自动驾驶HSD。



结语

作为孵化于传统车企——长城汽车——的自动驾驶初创企业,毫末智行经过三年多的发展,在技术架构、工程进展、数据处理能力、智算布局等方面,已跻身为数不多的几个争夺城市NOH战场的玩家行列。

2023年,毫末期待通过更多HPilot车型的量产上市,在数据规模方面迎头赶上。

以数据驱动的技术迭代,进步速度可能远超我们所有人的想象。




“建约EV预测系统” 定位为专业的新能源汽车产业预测系统, 为企业客户提供第三方趋势预测服务,包含: EV销量预测、产业趋势分析和产业沙龙服务 三大部分内容。


温馨提示:预售期截至2022年12月31日
预售权益咨询:
石颖   微信:13552299966
详情参考






请到「今天看啥」查看全文