张小珺:很多人认知你,觉得你是一个非常实用主义的人。大家在追求做电车的时候,你还在做增程,为什么你今天对人工智能技术这么激进?——李想有理想吗?
李想:我觉得不是有理想、没理想的问题。
是……(停顿3秒)……我第一次创业,泡泡网做的并不成功,起了个大早赶了个晚集。我后来真正明白一点,就是中国古人讲“天时、地利、人和”,非常之重要,而且这三个有清晰顺序。
排第一的是“天时”。商业社会什么是“天时”?“天时”就是技术,是我们对技术有效使用。
作为创业者,如果我做一辆燃油车,还做了10挡变速箱,我仍然卖不到奔驰、宝马任何一个品牌在中国1/10的销量。但我如果做增程车,并赋予了非常好的软件体验和部分的人工智能体验,我就可以在很短时间追上奔驰、宝马、奥迪的销量,甚至在可见的未来一两年,超越他们。这是重要技术变革点。
人类跟我们相关最重要的技术变革:一是能源,二是信息。
“天时、地利、人和”。第一重要是技术。第二重要是“地利”,在哪创业。你如果不在中国和美国,想做人工智能,太难了。因为你不是主流语种,你没有足够庞大的市场,你没有足够多的人才和这方面的投入,包括人才是否经历了上一个时代能力的积淀。第三才是“人和”,要面对什么样的用户,构建什么样的组织。
技术第一重要。进入汽车行业,很多人说,巨头们都那么厉害,几十年没有真正大厂出现,为什么觉得你有戏?——还是我说的,我比汽车厂商更知道怎么做大型软件,比互联网公司更了解汽车,因为做了10年汽车之家。
进入这行后,我们发现真的跟想的方向一致。拿汽车行业举例,这是我相信的东西:
时代演进方向:BT——IT——DT——AI。
奔驰虽然发明了汽车,但真正汽车行业进入老百姓家是福特开始。福特跟其他作坊型汽车厂一个根本差异在于,建立了流水线和生产线。它用了几分之一的价钱,就可以让普通美国老百姓拥有福特T型车。这时,它干了一件事,是把生产一辆车流程化了。我们内部把流程的简称叫BT,是流程。这是第一阶段。后来丰田又把流程发挥更加极致。美国到70年代还成立了流程协会,流程协会也诞生了后边大量软件公司。
到第二个阶段什么?是IT出现,就是软件,而且是以控制为目的的软件出现。我们在建常州第一个工厂时,还没有精力自己写这个工厂软件,我们当时就选择是SAP还是Oracle的工厂软件?当时我就问顾问公司:SAP和Oracle有什么不同?他讲,SAP呢,比较反人性,比较死,什么都不能改,但好处是,所有人不要指望从这边任何一个流程绕过去;Oracle有比较好灵活定制的能力。
我一个做互联网公司出身的,肯定觉得Oracle好。当时又问了一句:如果从汽车行业最佳实践看,是什么样的?他说,至少在中国大部分用Oracle的,最后也都切回SAP。
哦,我当时就明白了——这些软件能力和我们互联网公司构建的软件能力不一样,最主要目的是控制。包含银行上IT系统,包括制造体系、销售体系上软件系统,都是为了控制。之前流程靠人来盯着,靠纸来记。今天跑在软件里。所以,汽车上万个零部件可以标准化生产出来,甚至汽车跑在路上的质量比手机还要好,是BT和IT发挥了巨大作用。
到第三阶段非常有意思。这个时代描述最好的是,从IT时代进入到DT时代,DT指Data Technology(数据技术)。
我们做互联网公司,我做汽车之家,所有网站服务用户的软件是自己写的,所有面向客户的软件是自己写的,包括所有数据分析、流量分析的软件都是自己写的。这是中国成规模的互联网公司必须要有的能力,因为你每个月要服务上亿访问者。我们当时写这些系统后,会发现跟IT有很大不同。
所有数据必须满足三个条件:
● 第一,它必须是面向一个客户提供闭环服务。传统公司喜欢叫“端到端”,互联网公司叫“闭环”。包括他从进入一个店,到把这个车买走,这是一个“端到端”。
● 第二,我要获得原子级数据,而不是控制点的数据。它能反映出所有的起因、过程和结果,反映任何一个客户在这里发生业务的全貌。
● 第三,如果是面向一个用户,它是一个端到端或闭环,大概率会跨业务,甚至跨公司。比如支付环节到了腾讯或阿里。第三个重要点是,要把财务放进去。你获取用户的过程是成本,你变现的过程是收入。只有把财务放进去,才能避免每个专业只看自己一亩三分地。他有看全貌的能力,就有使用整体数据的能力。
所以,数据产生以后,带来三个特别好的结果:
● 第一个结果是,我们最开始做理想汽车,很多人跟我们推荐一些老专家。我们当时把专家招进来,我还是互联网思维说:你能不能把你知道的know-how写出来?发现他写不出来。
这个模型在他脑子里,但他写不出来,只有遇到问题帮你诊断才能解决问题。当时并不知道怎么使用老专家。
当我们有了DT以后,当我们写大型软件能获得完整数据,意味着什么?只要是高成功率、低成本地完成了一个业务,它就是个“最佳实践”,就是藏在老专家脑子里。哪怕我们遇到了问题,这个问题怎么被有效解决,也是“最佳实践”——所以,这些经验、知识,从老专家的脑子里变到我们系统里。这是一个巨大收益。
这给我们带来非常大一个好处。我们常州第二个厂房,产能不够的时候,生产L7、L8这两个产品。我们这个工厂,从开始生产到产能爬满,只用了15天。我们团队有来自传统汽车厂商的人,他们说如果在原来的企业,需要6到12个月。相当于我们可以把“最佳实践”有效复制。
这也是我们敢于开直营店的原因。开一家店很难,很多店从0开始要养很长时间。但我们店里人员是集中来北京或常州培训。我们只要一个店选址没问题,它从开始营业到最后达到一个月超过100辆,大概是3到6个月。会比正常一家新店启动速度快得多,甚至比你找加盟速度还要快。
这是第一大好处:把所有“最佳实践”沉淀在数据系统里。
● 第二,它产生什么好处呢?就跟我们原来做汽车之家一样,虽说我们了解用户,但了解用户并不是跟用户聊,而是认真去看用户的访问行为——他为什么走了?为什么来?他从不同渠道来了以后,是什么轨迹?他最后出现问题走的时候,那就是真因,我们怎么让他顺畅地浏览下去?
比如他看一个帖子页面,10张图片就翻一个页,翻着翻着没意思就走了,因为翻着太累。当我们把一个页面变成50张图一页,他就非常有耐心一直往下看。
我们用这种方式,一方面驱动我们怎么获取用户,让用户停留时间更长,让用户一直留存下来;另一方面驱动我们的收入,甚至包括收入怎么定价,都是拿数据决定。
所以汽车之家,我们涨价,虽然广告客户会抱怨,但也没什么可说的。因为我们完全能通过数据评估,他一个店,我们到底给他带来多少收入、多少利润。
另一点,很多时候是对人的训练。它比较像什么呢?像强化学习(RL,Reinforcement Learning),因为它是给每个使用者一个有效反馈机制。
看我们的销售团队,他们是一个月卖二三十辆车的王牌销售?还是卖十辆、卖几辆的?影响因素排在最靠前的,是他对信息、数据和工具的使用,而不是她是不是个美女,或者是内向还是外向。
● 第三是最重要的一点,数据里的“最佳实践”是人工智能后训练的全部。
很多基座模型在解决一些通用能力很好,但进入专业的时候发现,完全没有能力。这些数据不可能放在互联网公开,都是企业独有,而且是头部企业才懂得怎么去获得。
本身你得是卖智能车最好的企业,才能做自动驾驶的训练,否则你过去连传感器都没有,这些数据都没获得。
同样,用户这些驾驶数据,我们肯定也按模型看。驾驶效率最高的,和安全性最高的进行权重,这3%的人,他们的clips(数据样本)怎么放入模型里训练?就形成了端到端模型。
张小珺:听起来,预训练Scaling Law(规模效应)到达瓶颈,进入后训练Scaling Law,对你们是好事?
李想:是好事,到了物理世界对我们也是好事。
张小珺:你没有回答我刚才的问题,你觉得李想是个实用主义的人吗?李想有理想吗?
李想:(思考2秒…)实现硅基家人那一刻我真的相信,而且无比坚定,就连我都可以被它去延续。
这算不算有理想?
张小珺:所以,你信仰的是AGI的硅基家人,不是AGI?
李想:任何技术一定要赋予一个意义。增程是技术,但城市用电、长途发电,是它的意义。这是根本。
张小珺:在自动驾驶上,你们做了两个相对激进的决策:第一是用只有一个模型的端到端,其他中国车企可能还在用两个模型;第二是你们是第一个取消角毫米波雷达的中国车企,走了以纯视觉为主的技术路线。这两个决策当时是怎么做的?是你拍的板吗?
李想:我经常跟团队说:我们相比特斯拉又不缺胳膊少腿,为什么它能做的你做不到?
我们为什么还保留前面的毫米波雷达,以及前面的激光雷达?毫米波雷达和激光雷达和做端到端关系不大,因为端到端是纯视觉的。包含我们的交互,大家再看到我们下个大版本更新,可以看到端到端、VLM(视觉语言模型)怎么工作。
很多人不太理解,你为什么要保留激光雷达?是不是因为你技术不好?不是。中国和美国不一样。如果你经常在中国夜路开车,你会看到,有尾灯坏了的大货车,甚至大货车直接停在主路,也有不那么标准的半夜道路施工。一个前面的激光雷达,是为了安全。
我们在使用端到端,包括通过Transformer做BEV架构,至少今天的摄像头在深夜没有光线下看到的距离只有100米出头,但是,激光雷达在任何没有光线的情况下可以看到200米,这就帮助我们实现130公里时速的AEB(自动紧急制动系统)。我们是面向家庭的车,每个人生命安全非常重要。这是我们继续保留激光雷达根本原因所在,后面的车型会持续保留——激光雷达相当于“安全带”,帮车主解决重大事故。
我相信如果马斯克在中国,在深夜,在不同高速开过车,他也会选择把前面一颗激光雷达保留下来。因为特斯拉对于安全同样重视,只是他要在这个环境看到。
激光雷达和视觉的配合,在安全上有两个作用:一方面,最容易出的事故是钻到大车底下,产生追尾。尤其光线不好,甚至没有光线的情况下,如果可以做到,能减少90%以上重大伤亡事故。
甚至我们研发AES(自动紧急避让),哪怕他超速,刹不住我怎么躲避?包括AES的两段式,就是第一次躲避以后遇到问题怎么做第二次躲避,都是为了让车辆变得足够安全。我们想办法消除90%以上,甚至最终目标是消除所有重大伤亡事故。刮蹭还会有,但重大伤亡事故我们尽可能解决掉。
另一方面,是对于其他交通参与者的安全。他可能踩的是滑板车,骑的是单板车,也可能喝醉了坐在路上,更好的传感器对安全有巨大帮助。
张小珺:刚才说到那两个你相对激进的决定,为什么其他中国车企没有马上这么做?
李想:可能跟我们有一些比较好的外脑有关,像王兴、陆奇博士,给我们带来很多启发。
比如,用规则算法,用解决corner case(极端情况)的方法能不能解决自动驾驶?解决不了。他不一定帮你解决,但他会给你一些视角。我说服郎博(理想汽车智能驾驶研发副总裁郎咸朋)很重要的一点:你们经常解决了一个corner case,又出现三个corner case,因为你是基于这个场景解决这个corner case,场景一变化,又出现新的corner case——你们一辈子都在解决corner case!解决不完!
一次战略会,陆奇博士给我们讲,你们应该思考一下人是怎么工作的。这对我们帮助很大。
我说服郎博,是拿我爱人举例。我爱人也是正常驾校学开车,拿到驾本。但她最开始开车经常刮蹭。我给她买了一辆宝马X6,她开起来刮蹭,觉得车是不是太大?因为X6接近5米长。我又给她换了4米2、4米3的高尔夫GTI,还是刮蹭。你坐在车里说,你不要刮蹭、不要刮蹭,还是会蹭。她会蹭别的车,进小区会蹭门。
怎么解决?当时,我想了一个特别有意思的方式,因为我家有X6、X5M,我就说,你应该去学一学宝马驾驶培训学校,学初级班就可以,一天时间。宝马驾驶学校的初级班是什么?很重要的是解决你的能力问题,并不是解决corner case。
一天下来只学两件事:你开车应该看哪里,教你怎么踩刹车。我老婆后面基本跟刮蹭告别了,开车开得非常之好。但她只学了一天,学的是能力。
端到端最后体现出来的是能力,而不是去解决功能、解决corner case。
张小珺:在你看来,端到端是自动驾驶的终极手段吗?
李想:端到端只能解决L3,肯定解决不了L4。(笑)
张小珺:L4需要VLA?
李想:对,L4必须使用VLA。
端到端+VLM可以解决L3,比如实现500公里到1000公里一次接管,让你在车上相对轻松。但它想L4,泛化能力是远远不够的。