专栏名称: 小米汽车
科技跨越,人车合一
目录
相关文章推荐
51好读  ›  专栏  ›  小米汽车

小米汽车「前车识别」,开启智能 “知车” 时代

小米汽车  · 公众号  · 新能源汽车  · 2025-03-20 23:56

正文

提及汽车智能功能,你的脑海中会浮现出什么画面?

全车五屏 的流畅互联协同

还是 人车家互联 一句话执行

亦或是 全场景智驾 下的一键启动......


今天,咱们要聊的是小米SU7 Ultra 发布会上一项充满趣味化与科技感的“彩蛋”功能 —— 前车识别


01

汽车学霸,一键开启云认车模式

那么,大家知道什么是前车识别吗? 简单来说,前车识别是一种借助小米自研多模态大模型,对前方车辆进行品牌、型号等信息识别的功能。
*前车识别:此功能需要打开「设置」-「智能语音」-「大模型开关」,识别内容来自小米 AI 大模型、懂车帝

举个例子,当我们驾驶着小米 SU7 行驶在路上时,前方突然出现一辆造型炫酷的跑车,你刚冒出「这是哪家新出的神车」的念头,副驾的朋友直接对小爱同学进行了询问:“小爱同学,前面黄色的是什么车?”。只见车机屏幕流光一闪,小爱同学立马答复:“这可能是小米SU7 Ultra ,上市时间为 2025 年 2 月 27 日,当前指导价 52.99 万元起”。


这样一个极具趣味性的功能,其实来源于小米汽车研发团队开展的一项特别的车主行为洞察工作。在调研过程中,他们观察到车主在车辆行驶过程中最爱「暗中观察」前后车辆,但苦于:想要拍照识车?刚拿起手机就被后车滴滴,行驶安全也有风险;等到回家搜索,苦苦回忆思索半天也描述不清,只能无奈作罢。于是让汽车自己当解说员的点子,就这样诞生了。

想法是丰富、天马行空的,那到底该如何落地呢?


02

精准锁定目标车辆,让提问有指向

研发团队想到了 小米自研多模态大模型 ,它拥有极为强大的图像理解能力,也许能够在大模型的加持下将该功能落地。

基于此, 团队探索了大模型的 Grounding 能力和车辆识别能力 ,基于小米 SU7 广角前视摄像头采集的视觉数据作为输入源进行初步性能评估,发现当前模型存在两大技术瓶颈:其一,当道路场景出现多目标车辆时,模型对用户查询指令的语义解析存在显著偏差;其二,在远距观测场景下,受限于广角摄像头的物理成像特性,目标车辆像素分辨率不足导致模型无法有效辨识车型特征。

具体而言,当我们在保持安全驾驶的情况下,想要问问“前面那辆是什么车?”,常常会遇到说不清、指不准的尴尬——是左前方还是右前方?是近处轿车还是远处 SUV?问题描述越模糊,系统越难给出准确答案。在这个看似简单的交互背后,其实隐藏着双重技术挑战:既要听懂用户的口语化表达,又要在瞬息万变的路况中锁定特定目标。

于是研发团队尝试了多模态数据融合和传感器融合的方法,将图像和语义结对进行数据标注,通过数据微调提高模型对方位的理解能力。 这样,当用户唤醒“小爱同学”提问时,就可以分析语音中的方位关键词(如“左前方”),在前方诸多车辆中,精准锁定用户询问的目标车辆。目前方位理解准确率可达 99% 。

此外,团队在车内后视镜处还创新搭载 双摄像头组合 :广角摄像头类似用户视角,可将前方车道范围内的车辆尽收眼底;长焦摄像头则像望远镜,能清晰捕捉远方 200 米处车辆的细节信息。 这对“广角+长焦”组合,既保证了视野广度,又兼顾了识别精度,即便是高速路上快速移动的车辆也能清晰成像。


03

算法赋能,智能识别全场景覆盖

精准锁定目标车辆只是第一步,如何即时拍照,如何对车辆图像进行智能识别、做出准确判断同样也是研发团队所面临的考验。现实中的车辆并不会像在展厅里那样,“摆好姿势”等你来拍。它们往往有的只露出半边车尾,有的被树荫遮挡,还有的在百米外只剩模糊轮廓。 面对这些"非标准角度"以及“有限数据”与“无限场景”的鸿沟,研发团队通过数据重采样和 loss 函数设计的方式,来解决这些难题。

在采集数据时,每款车型需采集车头、车尾、侧面等多个关键角度,拍摄 50-100 张不同光照、距离下的照片,即可实现对车型的识别。针对外观相似的车型,系统还会针对性进行强化训练,加大照片的采样量,如前代特斯拉 Model Y 和 Model 3 尾部造型很相近,对这两辆车需要采集的数据量就达到了数百张。

在现实场景的图像识别方面, 前车识别功能能够自动对目标车辆的图像进行智能裁剪 ,以聚焦车辆关键特征,屏蔽周围干扰信息,既能放大车标、车灯等细节,又能消除相邻车辆或绿化带的干扰,让识别模型专注分析核心特征。







请到「今天看啥」查看全文