世界模型的深入研究和发展将是未来人工智能领域的重要方向。
|
自大模型浪潮以来,世界模型逐步作为更高级别的概念被推到舞台中央,它涉及到具身智能和现实世界的感知、理解和交互。
世界模型试图通过对周围环境进行建模,使人工智能系统能够像人类一样理解和预测环境,从而做出相应的行动。
这意味着,世界模型有潜力成为视频生成、自动驾驶乃至具身智能领域的基础模型。
9月5日,在中国Cloud行业的一年一度的盛会「2024 Cloud 100 China榜单发布暨CEO峰会」上,Viggle.ai创始人&CEO楚航、元戎启行副总裁&技术合伙人刘轩、美国Pika Labs全球战略与合作负责人赵云飞与靖亚资本创始合伙人何沛一起就如何定义和应用世界模型、伦理挑战、寻找场景和合作生态展开讨论。大家一致认为世界模型的深入研究和发展将是未来人工智能领域的重要方向。
元戎启行副总裁&技术合伙人刘轩指出,受限于算力等的限制,过去的模型能力有限,比如智能驾驶模型对交通之外信息的理解和逻辑推理能力相对就没有那么强,这是智驾至今没有做到大规模无人驾驶普及非常重要的原因。世界模型能够覆盖更多长尾的问题,在推动自动驾驶全无人大规模落地方面是一个必不可少的路径。
美国Pika Labs全球战略与合作负责人赵云飞分享了世界模型简单理解就像人脑一样,在整个过程中主要完成观察Observation、模拟Simulation、行动Action三个点,当下模型层面还存在物理真实性、一致性等问题。他建议创业者,可以着重关注下视频生成领域的垂直领域,切实解决一些用户的实际痛点需求。
以下是本场对话的精华内容,经过编辑整理:
探索世界模型前的经历与积累
何沛(靖亚资本):
我是靖亚资本的创始合伙人何沛,非常高兴今天有机会来组织这次论坛,在座的三位嘉宾来自不同领域的创业公司,有在做现实世界的自动驾驶,另外两家在做视频的生成、更多是在虚拟的领域创造更多、更新、更棒的内容出来。我发现现实世界和虚拟世界在我们这里的主题有了个融合,就是世界模型。三家公司都在世界模型这样一个领域里做了很多投入,是未来的发展方向。所以今天想将这样一个主题跟各位嘉宾探讨下。
刘轩(元戎启行):
大家下午好,我是来自于元戎启行的合伙人刘轩。元戎启行是2019年成立,总部在深圳,我们是从智能驾驶开始,公司的定位是面向物理世界的通用人工智能企业。
我们目前已经有业务在多地落地,包含上海、硅谷、新加坡、德国等。搭载我们智能驾驶方案的车辆今年已经面向消费者销售了,后续会有多款车型能够被消费者购买到。随着我们拿到越来越多物理世界的脱敏数据,模型可以进行迭代和进化。
我们的目标是以智驾为出发点,创造出物理世界的通用人工智能技术。结合世界模型,我们希望最终把这个能力迁移到各行各业,为人类带来新的生产力。
赵云飞(Pika Labs):
我是赵云飞,来自Pika,主要负责全球战略合作,非常荣幸和大家进行分享和交流。
Pika在2023年5月份成立于硅谷,是一家专注于多模态AI视频生成基础模型和产品发展的公司。Pika由两位来自于斯坦福大学计算机专业的博士女生创办,总部位于硅谷中心Palo Alto。在短短的一年中,Pika前后总共完成了4轮的融资,共募集了1.35亿美元的资金,在今年5月,Pika完成最近一期总量为8000万美元的B轮融资,我们总估值成功突破了4.7亿美元。
去年11月份我们发布了Pika1.0模型,就是把马斯克送上火星的模型,在国内外网络上也掀起了不小的波澜。我们现在在全力攻克 Pika2.0的技术难点,并且打造我们全新的产品和生态,希望给大家带来全新的视频生成体验,我们可以共同期待一下。谢谢!
为什么世界模型这么重要、如何应用?
何沛:
非常感谢大家的介绍,接下来我们进入正式话题的讨论。第一个问题想请问一下云飞总,你们怎么看世界模型,怎么应用它,能不能举一些例子?
赵云飞:
世界模型简单理解就像人脑一样,在整个过程中主要完成三个点:观察Observation、模拟Simulation、行动Action。
举一个例子,有一个杯子在桌角,马上要从桌子上掉下去。一个人看到这个画面会有一个观察,这是一个信号的输入,这时候大脑会模拟杯子在桌角上摇摇欲坠,会模拟各种各样的结果,这个杯子可能会掉下去,掉下去以可能把地板弄脏,它会有不同的结果。比如一个小孩进行了很多种模拟之后,意识到不去接住杯子可能会被揍一顿,所以他马上得出最优解,我应该跑过去把杯子接住,所以最后产生了动作action把杯子接住。
再举一个例子,还是这个小孩,他现在手上捏着两个形状、颜色不一样的积木,他产生了对世界的观察。这时候他大脑会模拟这两个积木有不同的搭配、拼接的方法,会在大脑中模拟这两个积木可以交叉在一起,叠在一起或者横在一起。他也会得出最优解,这两个积木怎么摆是最好看的,信号输入给手,手会完成动作把积木搭成他觉得最好看的样子。现场还有一位嘉宾是自动驾驶领域的专家,自动驾驶也是类似于这样的情况,看到路况模型会模拟出不同应对措施和结果,最后选出最佳方案控制车速和方向。
Pika在做的视频生成领域是世界模型里一个重要的主线,完成的是simulation这块工作,“在小孩的大脑里模拟出各种画面”。在视频生成的过程中,我们输入一张图,是对世界的一个观察,比如一个图里一个水杯放在桌角上摇摇欲坠,我们的模型会计算出来下一秒杯子会往下掉,会生成最后的视频。
在视频生成的领域中,视频模型可以帮助AI预测和生成场景中的动态变化,帮助理解物体是如何移动或者如何和世界互动,然后预测接下来会发生什么。比如在重力作用下物体会往下掉。比如捕捉大家比较感兴趣的动漫角色一帧动作,预测下一帧动作怎么样,给它拼接起来就是一个视频,这是一个连贯的动作。再比如拍了天上的云,这朵云之后大概怎么变,要结合天气的变化。
世界模型在视频生成领域中,我们可以生成一些路况的视频用来训练和测试汽车自动驾驶、智驾系统的反应程度。同时我们可以做一些广告和特效,这部分在目前整个行业制作里成本是非常高的。这些是我们目前比较关注的应用。
何沛:
非常详细的讲解,刚才云飞总讲里面有三个关键词,观察、模拟和行动,在刘总做的智能驾驶的领域里,你们的理解是什么?
刘轩:
对自动驾驶行业来讲,观察者其实和数字世界是不一样的。数字世界生成的模型和内容,它的观察者是以人的视角为主。但在智能驾驶行业,它的观察者是算法,这样的世界模型和人为观察者的世界模型会有一点区别。
首先,世界模型的表达是真实的,需要带上传感器各种各样的误差、噪音,甚至可能有一些传感器机电管理方面的问题在里面,因此带有一定鲁棒性的模型才是智驾领域相对比较好的模型。
另外一点,世界模型对实际信息的表征、表达在智驾里面是重要的。过去的智驾更多只关注在道路以及道路上交通参与者之间的交互和活动,这是受限于算力的限制,因而对交通之外信息的理解和逻辑推理能力相对就没有那么强。这就是智驾至今没有做到大规模普及的重要原因。
举个例子,我们智驾产品在做全国泛化的时候会碰到一些千奇百怪的场景。其中有一个路口红绿灯底下放了一行特别小的字“在保证安全的情况下红灯允许直行”。这个描述就是一行文字描述,你不可能在任何交规里找到这样一个知识。智驾系统唯一能获取到这个知识的方式是采集到这个路口对应的信息,并且需要把它进行表达、泛化出来,以后再碰到类似的情况才有可能学会处理。当然这只是一个非常小的例子,智驾里还有各种千奇百怪的例子,这些如果希望靠人把它背下来、记下来是不现实的,一定会出安全性的问题。我认为世界模型对智驾最大的贡献是能够覆盖更多长尾的问题,在最终推动全无人大规模落地方面,世界模型是一个必不可少的路径。
何沛:
追问一下,智能驾驶做好数据整合和处理是非常重要的,车有很多的地方可以获取数据,比如激光雷达、摄像头等各种各样的。世界模型怎么解析数据、创造连贯的环境理解,让智能驾驶变得更加可靠和有效?
刘轩:
在智驾行业里,传感器的处理相对比较成熟。激光雷达和摄像头的数据处理最重要的是原始数据层面的时间同步。因为不同传感器的频率以及数据的采集方式不一样,内部坐标系的表达也很不一样,需要将他们对齐,中间涉及到坐标转换、噪声处理、机电管理等等。这些处理好之后,所有的传感器就融合成一个超级传感器。有了超级传感器的数据之后,就能对整个三维世界进行建模和理解,这个理解可能包含动态障碍物的理解,比如交通参与者、自行车、行人甚至是小猫小狗。另外一些理解是静态的道路拓扑或者路标和各种交通信息,这是早期智驾领域做的事,但现在大家发现是不够的,需要将物理世界的物理规律、文化信息等都加入到新的物理世界大模型。
有了这个大模型之后,我们还需要做的事是:因为模型是持续变化的,我们需要保证它前后变化得相对符合物理规律。比如有一些是静止的事物,要保证它的约束关系、运动逻辑都比较接近于现实世界。当然这里面有一些挑战,比如一杯水倒在地上时,临界状态的瞬间变化非常快速,这对于模型来讲是最难的问题。但好处是智驾领域采集这类数据相对也比较容易,比如交通事故数据、各种天气场景数据。有了这些数据之后,我们可以拿这样的世界模型去进行更好的推理,让这个车辆在路上有更连贯、更智能、更拟人、更安全的表现。
何沛:
大家都知道生成的模型或多或少都有些幻觉的问题,无法100%按照你的想象把这些内容生成出来,在虚拟世界不会产生非常严重的影响,甚至会是好事,因为会带来很多意想不到的创意。但自动驾驶的安全性是第一位的,您怎么去解决世界模型的幻觉跟安全可靠之间的矛盾?
刘轩:幻觉这个问题一直都有,在现在的智驾车上是很普遍的情况。比如有时候推理出来的结果很离谱,输出不连贯的驾驶决策,会带来潜在的危险。为了保证它是安全的,我们的做法是会有另外一套安全兜底的策略。在实际驾驶中,若发生特殊情况,系统会启动安全模型。现阶段这个模型是比较偏规则驱动的,比如车在路上不能闯红灯、不能去碰撞、不能超速。这些东西目前没有必要让它通过模型学出来的,它是一个安全性的底线。后期随着数据的增多,世界模型的能力越来越强,这些安全性的约束可以逐渐弱化,最终完全变成一个冗余性的验证。
世界模型对视频生成的影响、伦理问题与合作生态
何沛:
我理解你的意思了,我们的世界模型要持续发展,在发展的很完美之前我们还是要给他装在一个安全的笼子里来确保我们的安全。下一个问题是问下云飞总,随着模型的不断演化,我们视频的生成不可避免碰到一些伦理的问题。咱们怎么看待这个问题,以及怎么规避和处理这个问题?
赵云飞:
在目前视频生成领域相关的探索还是比较有限的。因为整个视频生成目前的效果绝大部分可以区分出来哪些是AI生成出来的视频,哪些是实际拍摄的视频,所以目前整个行业没有暴露出特别多的伦理问题,或者已经严重困扰到用户、公司发展的伦理问题。Pika这边可以分享几个我们前瞻性的考虑到的一些观点。
首先,我们看到Deepfake的应用。视频生成如果效果做的非常好了,比如在国外留学的留学生用Deepfake把整个人脸换掉后,给国内的爸爸妈妈打电话,爸爸妈妈想难得突然来了个电话就很兴奋,就会有些电信诈骗、网络诈骗的东西出现。所以现在Pika的措施是在AI视频生成的视频里添加一些肉眼不可见、但是机器和模型可以识别的水印。视频一输入,我们的模型就知道是我们模型生成出来的视频,来防止换脸或者类似诈骗相关的问题。
其次,目前大模型公司或者视频公司经常会被问到数据来源、数据合法性等问题,这块目前没有太多法律的限制,主要涉及到隐私和版权的问题。其他的话还有数据的筛选,这块和地区的限制有关系。在美国我们会关注到种族的问题,我们需要保证训练数据的公正性来规避一些潜在的伦理上的问题。