专栏名称: 蔚来

蔚来官方公众账号

NOMI怎么知道你是在和TA说话？

蔚来 · 公众号 · 新能源汽车 · 2024-09-23 18:00

正文

随着蔚来智能系统「Banyan 榕 3.0.0」的到来和升级，NOMI拥有了全舱免唤醒功能，这意味着用户无需再通过特定的唤醒词（如「Hi NOMI」），就能直接向NOMI下达指令，用户与NOMI的交互变得更加自然、便捷与高效。

那么，从「Hi NOMI，打开车窗」到「打开车窗」，在不唤醒NOMI的情况下，NOMI是如何准确拿捏回应时机，判断哪些指令是下给它的，又是谁下达的？

本期Tech Talk，我们邀请到了蔚来大模型主任算法工程师Anna W，为我们一起探秘「NOMI GPT 认知中枢」中的「多模拒识」能力。

什么是「多模拒识」？

在介绍「多模拒识」之前，我们先来看一个小视频。

从这个视频中我们不难看出，在不需要唤醒NOMI的情况下，NOMI依旧能够正确响应「副驾调的更宽敞一点」这样的指令，也能清晰辨别四人同时交叠的复杂指令，而这个能力就是由「多模拒识」实现的。

「多模拒识」，顾名思义，就是利用视觉、文本、音频、压感等多种输入模态的信息，来分析和判断用户的对话指向，从而识别并拒绝响应无关话语。简单来说就是判断车内用户在自然交流状态下，哪些话是对NOMI说的（需要响应），哪些话是用户之间的闲聊（不要插嘴），以便做到精准对话：该响应的要及时响应，不该回答的别插嘴。

「多模拒识」是「NOMI GPT认知中枢」中的重要一环。其实「多模拒识」对用户来说并不陌生，自NOMI连续对话功能上线以来，「多模拒识」就一直在线上保障用户自由流畅的交互体验。目前，经过持续不断地迭代，「多模拒识」已经能在全舱免唤醒、连续对话、大模型百科对话等场景为NOMI提供拒识能力。但随着「NOMI GPT大模型」百科能力的增强， NOMI具备了更丰富的知识储备，能够回答的问题也更多，这也就意味着「多模拒识」需要对更广泛领域的问题进行聆听与识别，对它的判断能力提出了更高的要求。

「多模拒识」如何做到精确判断对话指向和用户意图的？

座舱实际场景非常复杂，既包含常规的车辆控制指令/任务型对话场景，也包含宽泛的百科问答场景，分辨用户说话对象、判断用户意图并给出正确响应是极具挑战的，这非常考验「多模拒识」系统的场景辨别能力。在「多模拒识」系统中，我们通过「大模型+多模感知」的技术方案来实现场景辨别。

自研「多模拒识」模型直接判断语音指令

蔚来自研了基于语音和文本构建的「多模拒识」模型，帮助NOMI判断哪些对话是用户指令，哪些对话是用户闲聊。我们使用「语音预训练模型 Wav2Vec 」和「文本预训练模型 TinyBert 」来建模，联合预训练NOMI「多模拒识」模型。同时，我们还会让NOMI进行多视图的对比学习，帮助NOMI识别用户对话并进行分类。

简单来说，「多模拒识」模型有左「语音预训练模型 Wav2Vec」和右「文本预训练模型 TinyBert」两颗大脑，左脑负责听，右脑负责读，两颗大脑提前学习了大量需要NOMI响应的指令。

在真实场景中，当NOMI听到用户对话，两颗大脑就会同时工作，分别处理听到的声音和内容，然后对比之前学习的内容，如果二者比较接近，则判断对话为「指令」，即建议NOMI回应用户。

所以NOMI学习的语音/文本数据越多，「多模拒识」模型判断的准确性就越高。NOMI经过了超12,000小时车载语音、超2,000万条文本的学习，让「多模拒识」在全领域的对话判断准确率达96.8%以上。

面对纷繁复杂的对话场景，如果NOMI聆听到的对话不在小字典范围内，「多模拒识」无法直接判断对话是指令还是闲聊，又该怎么办呢？这时候就需要一位「助理」来辅助它，即下文中的「REJ Agent」。

「高情商助理」：REJ Agent

在连续对话或多人对话场景中，用户可能会在闲聊对话中插入对NOMI的指令，这种指令很可能「只可意会，不可言传」。例如：「车里太热了」。面对如此情景，「多模拒识」模型便无法通过小字典直接比对判断，这时候如何判断用户的真实意图及对话指向，便尤为重要。

而大语言模型恰好可以帮忙，它很擅长理解对话，理解上下文的关系。借助它结合用户对话历史、对话上下文便可以判断用户的真实意图和对话指向性，帮助NOMI判断是否回应用户。这就是我们利用大语言模型构建的「高情商助理」：REJ Agent。

作为「多模拒识」模型的助理，我们在REJ Agent中设计了三层逻辑，辅助NOMI做出判断：

第一层逻辑：REJ Agent会先判断听到的对话是否为「人话」，对话语句是否有逻辑，是否属于正常语言。如果是「人话」，REJ Agent会给出提示，「多模拒识」模型就会倾向于通过、回复，但是否要让NOMI回应，还需要第二层逻辑的判断。

例如：

第二层逻辑：REJ Agent将继续判断，判定当前对话内容与上下文/对话历史是否有关联，这里主要依靠「大语言模型」的上下文理解能力。

如果对话与上下文关联，意味着用户可能延续上文话题继续对话，REJ Agent会给出建议，提示本轮对话可能需要NOMI回应，「多模拒识」也会给出通过和回复标识。
如无关联，意味着用户可能重新开启了新的对话，或者不是在跟NOMI对话，REJ Agent会建议忽略，「多模拒识」给出拒识标识，NOMI则无回应。

例如：

第三层逻辑：REJ Agent同时也会判断，对话是否对NOMI说。借助「大语言模型」对上下文/历史对话信息的理解，判断当前对话的指向是否和NOMI相关。如果与NOMI相关，REJ Agent会建议「多模拒识模型」给出通过和回复标识，NOMI也会回应。

例如：

综合以上三层逻辑的筛选判断，REJ Agent作为「多模拒识」模型的「助理」，接收、理解，并判断用户对话的意图和指向，帮助「多模拒识」模型更精准的判断是否需要NOMI回应。

但这还不够，为了让「多模拒识」模型拥有更加精准的判断，我们还引入了「多模感知特征」，给「多模拒识」模型叠加一层Buff，提升它在多用户对话场景下的判断精准度。

Buff加持：「多模感知特征」辅助判断对话人数和场景

「多模感知特征」基于OMS视觉检测、座椅传感器、唤醒音区占用等信息，判断车上乘客人数、所在位置以及对话场景。

判断用户位置是为了更好响应对方指令，例如针对不同座位的用户指令调节座椅通风、加热、按摩档位等，而定位对话场景则是为了更好调整拒识策略，例如在闲聊模式或者展车模式下，用户倾向更多地与朋友对话，需要更宽松的拒识策略，NOMI也会尽量保持静默。

总之，有了「多模感知特征」这一Buff，「多模拒识」模型就能够更加有效判断是否对NOMI说话，从而过滤无关对话信息。

综上可以看出，首先「多模拒识」模型通过预学习和「左右脑」可以判断用户对话是否为指令信息。在此基础上，面对更加复杂的多人对话场景，它还有REJ Agent这个「高情商助理」去辅助它做判断。同时，它还叠加了「多模感知特征」这个Buff，以提升在复杂场景下的判断准确性。正是基于这三点，NOMI GPT不仅无需唤醒，还可以高情商回应，也懂得及时保持安静，真正做到了准确「拿捏」回应时机，和你的交流更自然、更流畅。

事实上，在引入Agent多智能体架构后，NOMI已经可以实现从「单点功能」向「主动智能」的进化，例如处理更复杂的用户沟通，理解模糊意图，并预测用户需求。同时NOMI拥有的端侧多模态感知能力，即使在没有网络连接的情况下也能「看得见，认得出」，提供安全的智能体验，并保护用户隐私。未来NOMI还会不断进化，它不仅仅是一个智能助手，更是一个能够深刻理解用户需求、情感和意图的智能伙伴，为用户带来更加丰富和便捷的智能体验。

关于「NOMI GPT大模型」，或者关于NOMI的功能及原理，你还有哪些感兴趣的信息？欢迎在评论区留言，我们将继续邀请工程师就大家关心的话题继续进行分享。更多硬核知识，请持续关注Tech Talk。