专栏名称: 六合商业研选
六合咨询立足新经济,挖掘明日之星,发现价值,传播价值;国际化视野、多角度观察、深度思考、体系化研究,持续提升研究广度与深度,全面覆盖一级、新三板、二级(A股+美股+港股);深度剖析优质企业商业模式与投资价值,前瞻性洞察行业本质与发展趋势。
目录
51好读  ›  专栏  ›  六合商业研选

【智能前线】第4期:理想AI系列,理想对自动驾驶的思考与研发进展,如何玩转大模型

六合商业研选  · 公众号  ·  · 2024-04-17 06:30

正文


本期智能前线,作为理想 AI 系列合辑,选择理想汽车智能驾驶技术研发负责人贾鹏、智能空间算法首席科学家陈伟,在英伟达 GTC 2024 AI 驱动汽车科技创新发展会议演讲纪要,深入了解理想 AI 布局。

理想汽车智能驾驶技术研发负责人贾鹏,对理想汽车自动驾驶阐述了端到端模型、大语言模型、视觉语言模型等模型的应用,以及如何提升自动驾驶的安全性等方面进行详细阐述。

理想汽车智能空间算法首席科学家陈伟,介绍理想智能座舱领域人机交互方面进展。陈伟介绍理想智能座舱人机交互的技术理念,基于大模型 Mind GPT 的新型空间交互技术与产品, Mind GPT 背后 AI 工程架构是如何实现。

正文:

全文 9,038

预计阅读 18 分钟

GTC 2024 :理想汽车对自动驾驶的思考与研发进展

时间: 2024 4 1

来源:智车引擎

字数: 4,297

英伟达 GTC 2024 AI 驱动汽车科技创新发展会议上,理想汽车智能驾驶技术研发负责人贾鹏,对理想汽车自动驾驶阐述了端到端模型、大语言模型、视觉语言模型等模型的应用,以及如何提升自动驾驶的安全性等方面进行详细阐述。

代码、规则向知识驱动发展

理想汽车从 2021 年开始自动驾驶自研,我们从 L2 就是高速 NOA 开始,逐渐对自动驾驶这件事情,形成比较独特的认知。对 L2 来说,都是在固定场景,已知场景或者是封闭场景,比如高速、城快中去做辅助驾驶,人需要的时候去接管。

这一部分过去都是以 rule base 为主,只有感知部分可能做了一部分的 AI 化或者模型化,我们传统用的 2G 感知或者是 demo 3D ,其他部分还是以一些工程化代码、一些规则为主。

2023 年开始,大家卷城市 NOA 或者全场景 NOA ,这一方面,随着开城进展,大家可能都做到全国开放,这一部分我们称之为 L3 ,一部分比 L2 要困难非常多,它的场景要丰富非常多,传统的 L2 范式没办法在 L3 里用。随着特斯拉的打样,它是开发出一条新的路,让数据驱动。

比如说在所有的模块感知、规控,都逐渐做成模型化,这里大家比较熟知的 BEV 感知,做到比如说多传感器、多摄像头的前融合,它的极致就是端到端。

完整的端到端,从感知一直到跟踪、预测、决策、规划,都做到模型化。这里比较有代表性是特斯拉 V12 ,做到端到端模型,不仅是完全模型化,可以做到端到端的可虚拟。

即使做到数据驱动或者端到端,是否就可以做到 L4 ?我们自己的思考,还是没法实现。

到了 L4 ,在任何未知场景中,用户不需要做监管,我们在现实世界中,未知场景无穷多,尤其一些长尾问题,通过数据驱动,可能没办法解决,数据驱动本身,还是有了数据,我才能真正理解,去场景里使用。

L4 来说,我们逐渐认识到,可能需要新的范式,我们称之为知识驱动。

随着大语言模型过去 2 年火爆,在 L4 级别,车辆怎么应对未知场景,我们需要真正对世界进行理解,有一定的常识理解世界,我才能做到未知场景下,安全驾驶,比如说刚刷的水泥地,如果是传统的数据推广方式,这样场景非常少,我们模型没有办法理解,有了超大 LLM 或者是多模态的视觉语言模型,他有这样常识,他带着场景里,就可以安全驾驶。

理想自动驾驶开发框架

我们现在做 L3 ,以及将来做 L4 ,都是基于这个框架进行,它跟人的思维非常接近,分成快慢系统,快系统 system1 ,偏直觉,有点类似肌肉记忆或者是应激反应,看到类似场景,就执行这样的动作。这一部分是对于我们 L3 端到端的模型。很直观的就是传感器看到什么样的场景,做出什么样的决策与动作。

人的另一部分是慢思考,比如说我做思考题,我做应用题的时候,我需要一定思考时间,我们称之为 System2 ,主要是做一些逻辑思考。

刚才提到在 L4 这种未知场景或者复杂场景里,我们得具备这样常识或者要上他的能力,这一块我们是可以去使用。

认知模型,就是偏 LLM 去解决这一部分,提供了基础的一些世界知识,形成对世界的一定认知与逻辑思维,由于这个模型比较大,我们还做一些短期的知识更新,比如通过一些外部去实现认证模型的快速迭代,这两部分结合在一起,我们觉得最终能解决 L4 整体的车端框架,除了车端系统外,我们还需要巨大的云端试点模型,主要作用是训练快慢系统跟物理世界做交互,从中不断学习。

这有点类似最近比较火爆的 Sora ,是一个生成式的世界模型,有了它之后,我们可以通过闭环训练整体的车端系统,中间这些领域都是我们数据闭环,有大量数据与训练的快速迭代。

理想自动驾驶亮点介绍

我接下来从 4 个方面介绍理想汽车自动驾驶的一些亮点,第一部分我们端到端模型,落地的一些情况;第二部分是我们认知模型,我们一些预研的进展;第三部分是我们世界模型的一些进展;最后是把我们增长的数据闭环里,一些亮点介绍给大家。

第一部分,端到端部分。我们做端到端模型,已经很长一段时间,业界最早的比如说基于 BEV 3D 的一些感知、动态感知、静态感知,包括 track 模型化、前融合,都是理想汽车最早一些工作,这也是业界比较早的一些文章。

基于这些这些工作,我们 2023 年量产 AD Max3.0 ,推给我们全量用户,它的整体框架已经偏端到端,还没有完整的端到端, 2024 年会把它作为彻底的端到端。

它主要是分成三大模块:

第一个是感知模型,这是大的 BEV 感知模型,我们把所有感知任务统一到一个模型里,包括静态、动态、通用障碍物,预测、决策、规划也做到模型化,放到一个模型里,这两部分,我们会在 2024 年,把他们统一在一起,形成端到端可训练的大模型。

另一部分,在中国很挑战的是红绿灯,中国红绿灯五花八门,各地红绿灯样式不同、规则不同,以前做法是我们会把红绿灯检测出来,跟车道做一个关联匹配,才能得到本车道的红绿灯状态。

我们红绿灯部分,是把 Temporal Planner 彻底做成端到端模型,进来就是我们传感器,模型的输出是本车道红绿灯状态或者意图。同样一套框架,我们做到这个行车与泊车的一体化。

在此过程中,与英伟达的合作,比较多,主要是其中一块比较突出的工作,是在我们车端推理方面,跟用它合作,进行了一个推理加速,从我们最早 9 赫兹到现在 21 赫兹,这是我们整个模型方面,也是很感谢 NV 帮助,把这个模型推理速度提升了很大一部分。

基于之上的一些工作,我们 2023 年底推送的 AD Max3.0 ,在 4 个产品里面,多少都实现了业界顶尖水平。

第一个是全场景 NOA ,这个全场景包括高速与城区,城区里包括红绿灯路口左右转,红绿灯刹停与启停,还包括施工道路的避让,静止或者违章车绕行。

LCC 方面,跟传统 LKA 不一样的是,我们 LCC 可以做到红绿灯的启停,同时可以做到直行车道上自动超车变道,也可以实现施工路段以及违章车的绕行避让,这得益于我们软件一体化,在泊车方面也得到巨大提升。

除了传统自动泊车外,我们实现长距离 AVP ,从下车过那一刻开始,它可以自动把你带到你的停车位,这期间比如说有跟其他车的一些博弈、行人的博弈,甚至包括超载车道对其他车的倒车让行,都已经能够实现。

主动安全方面,我们实现业绩顶尖水平,现在我们基本已经可以做到 120km/h 刹停,两轮车或者是三轮车可以做到 100km/h 刹停,行人可能不做 90km/h ,除了这种正向的性能达到业界顶尖水平外,这是远超行业标准的水平。

误触发方面,我们要做到 30 万公里以上误触发,这个也是业界高水平。 2023 年时,我们把城市 NOA 推给 20 万用户,基本是中国大规模的城市 NOA 推送,整体有 20 万用户,大概 2023 年底是 110 城,现在已做到 114 城。

随着我们扩城,可能无论是在城市数量与覆盖率上,也会逐渐提高, 2024 年会把全国都开。

除了上面提到 L3 端到端一些进展,我们放了很多人在 L4 一些预研上,刚才提到第一点是认知模型,我们会撤单,会跑一个慢系统,比如说快系统中可能有 20 赫兹,慢性的可能是 5 赫兹甚至 1 赫兹,做一些关键场景决策。

我们方法是基于一个多模态的大语言模型,最近发表一篇论文 Drive-VLM ,思路是不需要任何其他输入,从多模态语言模型直接出我们规划结果,它是通过三阶段 CoT (基于推理的思想链)自动检测,自动做推理。

比如现在场景是什么?这个场景对我驾驶形成最关键的一些障碍物是什么?它跟我的交互关系是什么?

最后输出 Meta-action ,是决策,就是这个动作是什么样,最后给出一个模型,自动会给出三秒的规划结果。刚才提到这是我们慢系统,结合端到端系统,我们形成快慢系统,这个慢系统或者认知模型,给出来的决策,与快系统结合在一起,最终给出更安全应对更多未知场景的一套系统。

整体效果,我们可以整体看一下,这收视模型,无论框里也好,还是底下文字也好,都是模型自己生成,我看到这样场景,我会给出一个描述,给出 decision ,给出一个轨迹,直接一个模型,把所有事情都做完。

我们在大量这种 corner case 或者是 L3 ,或城市自动驾驶中遇到的一些问题中,都发现它对快系统提升会非常非常多。

大家可能关心的是 LLM 太大了,怎么部署在车端?我们在跟英伟达合作,一大部分工作也是在 LLM 在车上的加速,我们在 Orin 上已经部署,目前也取得不错的效果。

刚才提到除快慢系统外,还需要云端的世界模型与车端做交互训练、验证。最近 Sora 很火,是纯生成式,也看到它的一些问题,有些场景不太符合物理规律,我们整体思路跟它有些差异,我们想在静态上通过重建,静态与动态一起生成,这样在静态上更加符合物理规律,这样我们最近发表的一篇工作叫 StreetGaussians ,基本实现实时的场景重建与渲染。

这里可以看一下我们在公开数据引擎上的一些表现,有了这个之后,我们可以做很多,不仅是做重建,我们可以做很多场景支撑,比如说加入一些新的 fair 或者加入一些新的动态物体,这样就可以创造出无数场景。

刚才提到都是偏算法与偏整体的慢系统,中间串起来的,是我们庞大的数据闭环系统,基本实现从数据的可以 case 收集、自动化挖掘、自动化标注、自动化训练,以及新的模型推到车端做影子模式验证,整套闭环已经做到非常高效。

随着我们朝 L4 做,一个很困难的点, Corner Case 挖掘,尤其是长尾的挖掘,怎么实现?

传统我们做挖掘,通过一些规则手写,去挖。比如一些场景,我们想挖掘一个骑行人打的雨伞,闯红灯横穿路口,这样场景很难通过规则匹配出来,我们借鉴多模态大语言模型,做了一个 BEV-CLIP ,它也是多模态的数据检索引擎。

我们通过大语言模型能力,加入自动驾驶一些先验知识,训练了这个多模态 CLIP ,通过 CLIP ,我们可以类似刚才一些复杂场景的检索,我们可以把这个场景以文字方式描述出来,可以快速找到我们想要的场景。

对于数据闭环,云端 NV 方面帮助也很大,我们跟他们在训练与云端推理方面都做了很多加速工作,节省我们大量训练时间与推理时间,这时间就是资源与钱。

除了刚才提到数据闭环,能串起来我们整个开发流程之外,对于车厂来说,我们有很多车型,车型之间的数据复用与适配,也是很大难点,我们也在 NV NeRF 引擎之上,开发了一套数据复用开关。

比如我们 L9 一些数据,通过我们重建,加上一些动态编辑后,形成新的场景,从通过新的 Novelview projection 投影到新的视角上,比如说 Mega 传感器上,这样就形成新的标注数据,这样我们很多历史数据都可以做出。

刚才讲了数据闭环,我刚才提到我们是国内最早做,也是最大规模的,大家并没有太多概念,可以通过几个数字来看,我们现场全场景 NOA 已经达到,这是年前一个结果, 4 亿多公里。过年期间,现在已经涨到 5 亿多公里。

除了这个数据之外,计算方面,尤其训练方面,也建设一个大的智驾训练集群,现在达到 1.4 亿 FLOPS 算力,有了这些之后,才能支撑上面快慢系统的快速迭代。



今天主要内容就是这些,前面主要给大家介绍理想汽车在过去几年的交付落地过程中,形成对自动驾驶整体认知,以及我们整体大的框架,还是基于一个快慢系统。

也介绍了我们几个关键点:

一、 L3 方面,端到端的一些方案与落地情况。

二、我们在认知模型,主要是慢系统上,做了一些工作。

三、云端世界模型上,正在开展一些类似重建生成的一些工作,为快慢系统提供好的事件仿真引擎。

四、把这些串起来,是大的数据闭环系统,这里随着长尾情况挖掘,或者 L4 的一些研发进程,数据闭环作用会越来越大,数据与算法不分家。

GTC 2024 :理想汽车怎么玩转大模型

时间: 2024 4 3

来源:智车引擎

字数: 4,667

英伟达 GTC 2024 AI 驱动汽车科技创新发展会议上,理想汽车智能空间算法首席科学家陈伟,介绍理想智能座舱领域人机交互方面进展。

陈伟介绍理想智能座舱人机交互的技术理念,基于大模型 Mind GPT 的新型空间交互技术与产品, Mind GPT 背后 AI 工程架构是如何实现。

人机交互的技术理念

人机交互界面,我们认为正在从二维平面,走向物理世界三维空间。在这样三维空间下,人与机器之间交互方式,正在从人适应机器,转变为机器主动适应人,只有这样,才能让人与机器之间交互更加自然。

我们整个空间加交互的架构下面,融合语音、视觉、触控等多模态感知信息,致力为用户提供可以媲美人与人交互的自然交互体验。承载整个三维空间交互的 AI 助手,就是理想同学,我们期待理想同学能够成为每一个车主家庭的数字成员,让车内每个人都能轻松使用 AI

在理想同学背后,涵盖了从感知智能,到认知智能的多项 AI 技术,覆盖了感知、理解、表达三大能力。借助全车麦克风,以及摄像头的强大传感器,理想同学具备听、看、触摸的多模态感知能力。

在端与云强大算力加持下,理想同学能够充分理解语言、理解用户、理解世界,并给出有价值的回答。

最后借助智能空间的全景声,以及多屏显示能力,理想同学的回复信息,得到充分表达,为用户提供沉浸式交互体验,不断加强人与车的情感连接。

目前,以感知与表达代表的感知智能,已经走向成熟,理解代表的认知智能,在发展中,直到 22 年底的时候,大模型的出现,带来一次认知技术上面的变革。

AI 三要素是数据、算法、算力。

伴随互联网、移动互联网、车联网兴起,整个网络积累的海量数据,可以用于 AI 大批量学习。

截止到 2023 年时,全球已经有 55 亿移动用户,过去 10 余年中,以英伟达 GPU 为代表的 AI 处理能力,在惊人增长,令人震撼的是,过去 10 年算力已经增长 1,000 倍,这种进步,并不来自摩尔定律预测,而是来自全新的结构性变化。

AI 算法,伴随深度学习兴起,迎来新一轮技术浪潮。

2016 年, AlphaGo 战胜人类,是 AI 发展历史上里程碑事件。

2017 年, transformer 提出,奠定如今基础的神经网络架构。

OpenAI 随后陆续推出 GPT-1 一直到 GPT-3 ,模型的规模在急速扩大,一直到 2022 11 月,基于大模型 GPT-3.5 Chat GPT 震惊全世界。

大模型的兴起,变革了 AI 模型训练范式,带来新一轮认知革命,也迎来通往 AGI 的曙光。

整个 AI 在经历计算智能、感知智能的突破后,迎来认知智能技术上爆发,经历了 2023 年大模型技术井喷式发展后,行业现在逐步开始共识,基于大语言模型, Agent 技术将是走向 AGI 的关键路径之一。

大语言模型,对于理想智能空间的空间交互,非常关键,理想同学智能化水平的提升,急需借助大语言模型与 Agent 技术,来实现整个产品体验上新突破。

我们在 2023 6 月,发布多模态认知大模型 MindGPT ,结合我们多模态感知技术与大语言模型 MindGPT ,我们全面升级空间交互能力,基于多模态感知能力,我们可以充分的感知整个智能空间各种模态的信息,并且把它转化为人类语言。

我们基于自研的 Taskfomer 结构,设计了面向 Agent 的大模型 MindGPT 。基于 MindGPT ,可以更好的对人类语言进行理解、反馈,更好完成人与机器之间的交互。

接下来分别与大家介绍在空间交互体系下两个核心技术,一个是多模态感知,一个是 MindGPT

多模态感知方向上,感知技术现在已经逐渐在从小模型 + 流水线级联的方式,升级为端到端大模型。我们在内部端到端的感知类大模型,称之为 MindGPT-MP ,是 multi model perception 的简称。

为了打造面向智能空间的空间动态感知技术,我们在信号、语音、视觉这样感知领域,都实现技术的创新与突破。这里面,也列出我们过去 1 年间发表的一些论文,大家可以参考。

MindGPT—MP ,使用了海量视听数据,进行了自监督学习与多任务精调,借助整个全车麦克风,以及前后排摄像头,理想同学能够同步感知多路音频与视觉信号,经过信号分离、增强、编码、融合等前处理的技术后,可以让车内用户定位与人声分离,都更加的精准。

理想同学能像人一样,边看、边听,边听、边看,同时能够实现更强的多语种、多语言、多方言、多任务的感知能力。

理想同学在交谈过程中,能够快速准确知道谁在说、说什么内容,情绪怎么样,发生了哪些有趣的事。

我希望与大家介绍一下,我们在多模态交互上一些能力,我们陆续发布多个创新的多模态感知能力。

第一个是多模态指代,我们希望在车里,能够产生开窗、开灯,打开屏幕、控制座椅这样一些小需求的时候,不用让用户说非常冗长的话,也不用担心用户一直想不起来这个东西叫什么,而出现交互上坎坷,我们可以用更加简单省力的指代方式,用一个手指来指代,比如说这个、那个来完成。

目前指代的方向,覆盖全车各个方向,同时理想同学也能看得懂指代更多的人与物品,接入更多的空车与体验上的交互,比如说可以说把那个屏打开,理想同学就会自己学习,你是要打开那个方向上的屏幕,他会更加熟悉车里每一个地方,更好的熟悉每个家人的需求。

第二个多模态的可辨析的说,理想同学可能够读懂电影海报内容,可以随意表达。孩子即便不认识字,也可以根据海报内容描述自己想要的内容,最后快速实现对与车之间的交互。

最后就是方言自由说,在这种方言自由说的能力下面,我们现在可以用一个模型就能实现 9 种多方言的自由感知。

MindGPT 能做什么?

MindGPT 为核心,我们逐渐构建感知、规划、记忆、工具、行动的完整 Agent 能力, MindGPT 基座模型,使用了自研 Taskformer 结构,我们在整个 MindGPT 训练中进行了充分自监督学习,在整个学习世界知识的同时,我们重点在车载场景的 15 个重点领域进行知识加强。在这个基础上,基于我们整个在车载场景里面重要的三个大场景与领域,用车、出行、娱乐。

我们使用了 sft rlhf 这样一系列训练以后,能够覆盖在三大场景里面大概 110 多个领域,大概有 1,000 多种专属能力,能够让 MindGPT 具备理解生成、知识记忆、推理三大能力。

MindGPT 作为整个大模型的控制器,它可以连接外部的 Model Zoo APIZoo ,通过大模型对于用户输入的理解与思考,有条理的进行任务规划,独立的完成自己擅长的部分,同时能够调度外部 API 与专用模型,解决自己不擅长的部分,持续拓宽大模型能力的覆盖。

比如我们使用 RAG 技术,能够通过大模型连接搜索能力,通过搜索增强,能够时刻获取更新、更准确的信息。

MindGPT 建设了记忆网络,理想同学希望能够面向全家人,服务全家人,理想同学应该理解与明白,懂每一位家人。

记忆非常重要,我们可以让两个同学能够基于与之前不同的人之间的历史对话,能够记住用户偏好与习惯,同时理解每一个用户目前状态,从而让理想同学与人之间的交互更加个性化,更加理解用户。

MindGPT 在线强化学习能力,能够基于用户反馈与纠偏,不断迭代自身能力,让理想同学越用越好用。

2023 12 月,我们 MindGPT 参加了行业权威的中文大模型评测, C-Ezal CMMLU ,在这两个榜单上,取得双榜第一的成绩。

就在 2023 12 月,我们通过理想 OTA5.0 ,向用户推送全新 MindGPT

MindGPT 上线以后的理想同学,在用车、娱乐、出行等多个场景里,都展现非常强的人机交互能力。

大模型的工程化

大模型工程侧,我们主要分两部分,一部分是大模型训练,另一部分是大模型推理。

大模型的训练平台 liPTM LLM pretrain Model 的平台实现大模型密集训练,基于大模型推理引擎 LisaRT-LLM 模型,它的推理服务实现大模型的落地应用,这两部分工作,都基于英伟达 GPU 来完成。

接下来重点介绍 PTM LisaRT-LLM ,我们这两部分的工作。

首先介绍一下我们整个推理的服务,也就是 MindGPT 的云服务架构,我们针对整个大模型特点,设计了整个端云融合的 MindGPT 推理服务体系,在整个架构图里面,字底向上包括了针对业务场景优化的类似 LisaRT-LLM 的大模型推理引擎。

第二是与 LisaRT-LLM 结合的大模型调度与推进平台。这个平台整个在服务上面的设计,希望它能够做到推理服务的编排、请求的调度、模型部署这样的一些能力,能够结合模型的类型业务的场景,包括 Continuous Batching 的这样一些因素,能够实时将生成的这种请求调度,是最新的一些推理后端,实现最优的性能与吞吐。

第三部分,是 Taskformer 中控服务,这个服务实现整个目前用户所必需的一些数据库的集成检索,增强规划与记忆能力。

再往上是 SCI SDK ,有了这样 SDK 以后,能更好服务应用的集成,在这个 SDK 里面,它有本地端的 AI 能力业务,我们直接云端的能力,它实现了端云一体化模型能力的输出。

为了支撑整个百亿、千亿级 MindGPT 大模型高效迭代,你看我们自研了 TB 级吞吐的大数据的数据系统 LiARK

基于 LiARK ,就会支撑我们千亿级参数的大规模训练系统 LiPTM 。为了加速整个大模型数据集的高效生产,我们组合了像 CPU GPU 能力,构建高性能分布式数据任务的集群,处理海量原始数据。对训练来说,除了整个算力之外,数据本身、以及数据的传输,也是非常重要。

第二件事,为了加速整个千亿级大模型高效训练,我们在使用了比较领先的模型结构与高性能的训练算子,以及高效训练策略的同时,实现了 4D 并行训练模式, 4D 包括数据并行、 TCL 并行、流水线并行、序列并行这样一些训练模式,有了这些模式以后,才能有机会让我们算力设备、我们的 GPU 完成更大规模的大模型训练。

千亿级大模型训练里, PTM 在整个训练速度与效率上,目前我们达到不错的效果。目前在基座的训练阶段,训练速度,我们用像 TOKEN/ 秒或者是 sample/ 秒来评估,在适配相同模型架构以后,相同训练集下,训练过程中的速度像图中所示,是 HF transformer 5.12 倍,高于 DeepSpeed transformer 1.6 倍与 ColossalAI 的相对于 HF 3.25 倍,就是相对来说,我们对于 HF transformer 效果的相对提升来说,也是最高的。

SFT 阶段整个训练速度,在适配相同模型结构以后,在相同训练集下面,整个训练的过程也如图所示,它是这个行业里面最好开源能力 3 倍以上;在强化学习 RHF 训练速度上面是 DeepSpeed 大概 3.1 倍左右;从吞吐力上,在适配相同模型结构以后,在相同训练集下面 TFlOPS 相比 DeepSpeed 也要快一些。这是在整个训练过程中,整个对标的情况。

我觉得不管是目前开源社区,还是各个公司大家自己预训练平台上,整个进步都是非常快。我们整个迭代速度,也在持续根据我们模型结构,做更深入进行训练的优化与定制。

我们也在做大模型落地应用的推理工作,最核心的是自研 LisaRT-LLM 大模型的推理引擎,可以完成像百亿、千亿级参数量大模型落地。

首先对于 GPT 结构的模型,我们跟进了行业先进的一些推理加速方案,比如说像 Fused MHA Flash Attention 方案,把核心算子优先加速起来,同时为了提升整个吞吐力,我们使用 Continuous Batching 提升整个服务并发量,最后再通过 tppp 结合的方式,实现整个单卡或多卡的模型并行,来应对千亿级参数量的大模型最终落地。

我们结合 MindGPT 的业务场景,与英伟达 SRT-LLM 团队,我们做了非常深入合作,进一步来提升性能,降低推理成本。

我们主要做的工作,包括三部分。

第一是我们设定比较明确的优化目标,能够在产品性能要求的情况下,一般来说我们整个 Prefill 延迟,大概控制在 500 毫秒以内,我们解码速度控制在 20~30token/ 秒左右,尽量把我们服务吞吐量撑上去。

第二是我们围绕 MindGPT 业务场景,做了定制优化,比如说现在缓存通用的一些泡沫的结果,做一些像 Prefuse catch ,根据生成的文本长度与性能要求,针对不同的垂域选择对应的调度优化策略。

第三跟英伟达 SRT-LLM 团队合作,在一些核心算子,我们可以用 TRT-LLm 能力,直接来实现,这块对我们助力非常大。

通过上述 LisaRT-LLM 优化方案以后,我们在 2023 Q4 ,完成 MindGPT 推理服务的成功落地。这块也是伴随着整个 OTA 在理想同学中 MindGPT 上线来一起完成。

这块当时我们在跟业界优秀的开源 LLM 推理引擎做了性能对比,测试方法使用线上真实数据,固定 QPS 来做压测,在 Prefill 500 毫秒以内,解码速度在 20Token/ 秒以上,这样的性能要求下,大概测试一下整个推理服务最大的吞吐量。

图上的这个推理框架,大的分别是 TGI V1.1.0 vLLM 2.0 LisaRT-LLM 10 月的版本。

这三个比完以后,可以看到基于目前理想同学的场景,我们实际车载场景来看,测试结果在 a800 上面, LisaRT-LLM 吞吐率相比 vLLM 大概有 1.3 倍以上提升。

这张图可以看到这三个推理框架 Prefill 的延迟,随着 QPS 压力增大以后的变化曲线,我们可以看到 Prefill Latency 这个纵坐标,当小于 500 毫秒时,能达到最大 QPS ,超过 500 毫秒,用户能够明显感受到响应非常慢,很难达到我们产品上的需求。

从这个曲线可以看到,在这种场景下, LisaRT-LLM 具备相对较高的并发负载能力。
智能时代专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


智能时代专题报告目录


六合年度报告全库会员,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

六合商业研选付费专题报告,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买






请到「今天看啥」查看全文