专栏名称: 自动驾驶之心

自动驾驶开发者社区，关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

大模型/Sora/世界模型之间是什么关系，对自动驾驶的意义是什么？

自动驾驶之心 · 公众号 · · 2024-10-06 00:00

正文

作者 | 自动驾驶之心

点击下方卡片，关注“ 自动驾驶Daily ”公众号

戳我-> 领取近15个自动驾驶方向路线

>> 点击进入→ 自动驾驶Daily技术交流群

微信扫描以下二维码，加入【自动驾驶之心】知识星球，国内最专业的技术和求职交流社区，和3500人一起卷赢

什么是大模型

人工智能大模型（Artificial Intelligence Large Model，简称AI大模型）是指具有庞大的参数规模和复杂程度的机器学习模型。通常指的是参数量非常大、数据量非常大的深度学习模型。

大模型通常由数百万到数十亿的参数组成，需要大量的数据和计算资源进行训练和推理。

由于其巨大的规模，大模型具有非常强大的表示能力和泛化能力，可以在各种任务中表现出色，如语音识别、自然语言处理、计算机视觉等。

1.1 大模型的优点

1）强大的表示能力

大模型可以学习非常复杂的模式和特征，从而能够处理各种复杂的任务。

2）泛化能力强

由于大模型在大量数据上进行训练，它们可以捕捉到普遍存在的模式，因此在处理新数据时具有较好的泛化能力。

3）多任务学习

一些大模型可以同时处理多个任务，例如图像分类和目标检测，或者自然语言处理中的文本分类和情感分析。

4）预训练和迁移学习

大模型可以在大规模数据上进行预训练，然后在其他数据集上进行微调，以适应特定的任务。这种迁移学习的方法可以大大减少在新任务上的训练时间和数据需求。

通过在大量的标注和未标注的数据上进行预训练，大模型可以从中捕获通用的知识和特征，并将其存储在参数中。

然后通过对特定任务进行微调，大模型可以将预训练的知识迁移到下游任务中，极大地提高了模型的性能和泛化能力。

1.2 大模型的应用

大模型的典型代表有GPT-4、盘古、Switch Transformer等，它们的参数量都达到了千亿甚至万亿的规模。

除此之外，还有代码大模型、视觉大模型、多模态大模型等。

1）语言模型

语言模型是一种自然语言处理领域的深度学习模型，通过语言模型的应用，可以实现机器翻译、文本摘要、问答系统、情感分析等功能。

例如，谷歌的BERT模型可以用于提高搜索引擎的搜索质量和广告质量；OpenAI的GPT系列模型可以用于自动生成文章、对话和摘要等。

2）图像识别模型

图像识别模型是一种计算机视觉领域的深度学习模型，可以用于图像分类、目标检测、人脸识别等任务。

例如，在医疗领域，图像识别模型可以用于诊断疾病和辅助手术；在安防领域，图像识别模型可以用于监控和人脸识别等。

3）语音识别模型

语音识别模型是一种语音信号处理领域的深度学习模型，可以将语音转换成文本，并支持语音到文本的转换、语音搜索、语音控制等功能。

例如，谷歌助手、苹果的Siri、亚马逊的Alexa等智能助手都使用了语音识别技术。

4）推荐模型

推荐模型是一种个性化推荐领域的深度学习模型，可以根据用户的历史行为和偏好，推荐相关的内容和服务。

例如，在电商领域，推荐模型可以根据用户的购物历史和浏览行为，推荐相关的商品和优惠券；在新闻领域，推荐模型可以根据用户的阅读历史和兴趣，推荐相关的新闻和文章。

5）强化学习模型

强化学习模型是一种通过试错来学习行为的深度学习模型，可以用于游戏、自动驾驶等领域。

例如，DeepMind的AlphaGo可以用于玩围棋游戏；OpenAI的Dota2 AI可以用于玩Dota2游戏。

什么是world model

与大模型相比，世界模型是一个更高级别的概念，它涉及到具身智能和现实世界的感知、理解和交互。 世界模型试图通过对周围环境进行建模，使人工智能系统能够像人类一样理解和预测环境，从而做出相应的行动。

World Model其本质是对视频中的丰富语义以及背后的物理规律进行学习，从而对物理世界的演化产生深刻理解。

举个例子，在人类的理解中，能够评估出一杯水的重量。当我们拿起一杯水时，大脑其实已经“预测”了应该用多大的力。于是，杯子被顺利拿起。但如果杯子是不透明有盖的而碰巧没有水呢？如果延续杯子有水的理解，我们就会用过大的力去拿杯子，此时发现很轻，我们立刻感觉到不对。对世界的理解里就会加上这么一条：杯子有可能是空的。于是，下次再“预测”，就会对不同内容的杯子使用不同的力。

“不断理解，不断预测”，这种理解世界的方式，是人类理解世界的方式。这种思维模式就叫做：世界模型。

人经历的事情越多，大脑里就会形成越复杂的世界模型，用于更准确地预测这个世界。这就是人类与世界交互的方式：世界模型。

什么是Sora

OpenAI官方信息从未表示Sora是world model，而是强调它是world simulator。

Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”），于2024年2月15日（美国当地时间）正式对外发布。

Sora可以根据用户的文本提示创建最长60秒的逼真视频，该模型了解这些物体在物理世界中的存在方式，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。

Sora有别于其他AI视频模型的优势在于，既能准确呈现细节，又能理解物体在物理世界中的存在，并生成具有丰富情感的角色，甚至该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

在原理上，Sora主要通过三个步骤实现视频训练。首先是视频压缩网络，将视频或图片降维成紧凑而高效的形式。其次是时空补丁提取，将视图信息分解成更小的单元，每个单元都包含了视图中一部分的空间和时间信息，以便Sora在后续步骤中进行有针对性的处理。最后是视频生成，通过输入文本或图片进行解码加码，由Transformer模型（即ChatGPT基础转换器）决定如何将这些单元转换或组合，从而形成完整的视频内容。

3.1 Sora的应用

视频创作：用户可以根据文本生成高质量视频；

扩展视频：可以在给定的视频或图片基础上，继续向前或向后延申视频；

Video-to-video editing：例如将SDEdit 应用于Sora，可以很容易改变原视频的风格；

视频连结/过渡/转场：可以将两个视频巧妙地融合到一起，使用Sora在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡；

文生图：图像可以视为单帧的视频，故Sora也能实现文生图。

3.2 目前Sora存在的缺点

尽管Sora的功能十分的强大，但其在模拟复杂场景的物理现象、理解特定因果关系、处理空间细节、以及准确描述随时间变化的事件方面OpenAI Sora都存在一定的问题。

（1）物理交互的不准确模拟：

Sora模型在模拟基本物理交互，如玻璃破碎等方面，不够精确。这可能是因为模型在训练数据中缺乏足够的这类物理事件的示例，或者模型无法充分学习和理解这些复杂物理过程的底层原理。

（2）对象状态变化的不正确：

在模拟如吃食物这类涉及对象状态显著变化的交互时，Sora可能无法始终正确反映出变化。这表明模型可能在理解和预测对象状态变化的动态过程方面存在局限。

（3）长时视频样本的不连贯性：

在生成长时间的视频样本时，Sora可能会产生不连贯的情节或细节，这可能是由于模型难以在长时间跨度内保持上下文的一致性。

（4）对象的突然出现：

视频中可能会出现对象的无缘无故出现，这表明模型在空间和时间连续性的理解上还有待提高。

world model是用Sora能准确生成视频一个很重要的核心，比如人在苹果上咬了一口，并不总是能“咬就会有痕”，sora“有时”也会出错。但通过训练，sora会越来越准确。

Sora的技术文档里有一句话：

Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

翻译过来就是：

我们的结果表明， 大规模视频生成模型是一条很有希望构建物理世界通用模拟器的道路。

OpenAI最终想做的，其实不是一个“文生视频”的工具，而是一个通用的“物理世界模拟器”。