专栏名称: 深圳客

最有态度的城市新媒体。为2000万城市奋斗者提供归属感，只有不甘平庸者才会喜欢的精神指南。

Sora很牛，但是中国的差距没有想象那么大

深圳客 · 公众号 · · 2024-02-23 20:30

正文

文 | 呙中校

Sora的确牛，但是我们不必神话它。

自2月16日首次发布后，OpenAI的视频生成模型Sora震惊全世界，热度至今未消。

从目前发布的视频显示，Sora不仅仅是一个视频生成工具，还是一个改变时代的颠覆式创新。至少，会重新定义我们的娱乐。

Sora生成的视频

华裔科学家、纽约大学教授谢赛宁评论道：《 真相捕捉 》和《黑镜》 里讲的故事，很有可能很快变成现实。 因为无论是OpenAI还是从业者都认为，这是一个世界模拟器，是通向通用人工智能的重要一步。

那么，在世界模型与视频生成领域，中国AI与Sora差距究竟有多大？答案或许让你想象不到。

“世界模拟器”降临？

Sora团队不过13人，其中包括一位毕业不久的本科生。就13人的团队，做出了一个划时代的产品，不能不让人惊叹OpenAI的创造力。OpenAI的一位员工自豪地说：“我司一贯风格，一个班去颠覆别人一个团。”

Sora团队核心成员，从左到右分别为Will DePue、Tim Brooks、Bill Peebles、Aditya Ramesht

如果Sora 技术得到广泛应用，对影视制作业的冲击显而易见。美国旧金山一个投资人预计，在5年内，一个不到5人的团队将可能用视频生成模型制作出一部票房收入超过5000万美元的电影。

我们即将步入一个新的娱乐时代。 这时，影视剧集不再是单向的叙述，而是一个能够反映和适应每位观众独特偏好、能与观众真切互动的沉浸式体验。这样，虚拟与现实不再区分，创造和享受成为一体——英文单词recreation（前缀re和词根creation，字面意义为“再创造”，在英文中指让自己身心放松的消遣、娱乐）已经作出了诠释。

Sora生成的视频

但是，Sora让世界震惊的是，它不仅仅是一个视频生成模型。无论是 OpenAI还是从业者都认为，这是一个世界模拟器，是通向通用人工智能的重要一步。 OpenAI宣称： Sora是能够理解和模拟现实世界的模型的基础，我们相信这种能力将成为实现AGI（通用人工智能）的重要里程碑。

英伟达高级研究科学家范麟熙（Jim Fan）断言， “Sora 是一个数据驱动的物理引擎，是一个可学习的模拟器，或世界模型”。

世界模型？这是AI借鉴心理学和认知科学中的“心智世界”（mental world），指 机器对世界运作方式的理解和内部表示， 也可以理解为AI 系统的“心智模型”，是 AI 系统对自身和外部世界的认知和期望。

Sora生成的视频

Sora是世界模型？这让一些AI科学家很不以为然，尤其是Meta首席科学家、世界模型的提出者之一杨立昆（Yann LeCun，法裔美国人）认为，依靠像素堆积起来的Sora是无法理解世界的。从ChatGPT火爆开始，他就一直批评OpenAI的技术方向走错了。

OpenAI也承认，现在Sora还未完全理解世界的物理规律。据悉， OpenAI正在教人工智能理解和模拟运动中的物理世界，目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。

Sora生成的视频

在OpenAI最新释放的一个Sora生成的寄居蟹视频中，蟹脚脱离与嵌入沙滩的过程、灯泡在沙滩拉出的痕迹等细节都符合真实世界的物理定律。可见，AI世界的演化将会非常迅速。

谁又能知道一年后视频生成是什么样子呢？

中国差距究竟有多大？

“按这个速度发展，我们的AI技术与国外的差距越来越大了。” Sora发布后，不少人发出这样的感慨。

事实上，我们在世界模型与视频生成领域的差距没有大语言模型那么大。

在大语言模型领域，我们现在的大模型可能与GPT3.0差不多，但是还没有谁达到GPT3.5的水平。GPT3.0是OpenAI在2020年发布的，因此在大语言模型领域我们与国外的差距在3年左右。

我们的差距没有大语言模型那么大

而视频生成的差距我认为要小得多，大概是半年到一年的时间，国内应该会跑出一两个有效的视频模型。

为什么这样说呢？ 这是因为国内在世界模型和视频生成的技术研发上已经有了相当的基础，这一块主要集中在搞自动驾驶的企业。

这次Sora出来后，最不好受的除了谷歌（他们重磅发布Gemini Pro 1.5不到2小时，风头就全被Sora抢了）便是马斯克了。OpenAI毕竟是马斯克参与创立的公司，但后来离开，他现在的感受是五味杂陈。他在社交媒体上说，Tesla的视频生成，在物理理解上要比Sora好得多，只是他们生成的视频都是基于车辆行驶，很无趣。结果很多人说他吹牛。

（Wayve的GAIA-1世界模型生成的视频）

或许马斯克所言非虚。除了Tesla，英国的Wayve也取得相当不错的成绩。因为自动驾驶都需要一个理解物理规律的世界模型，否则车辆上不了路。因为自动驾驶需要预测未来几秒（或者一秒）内周围世界发生的景象，然后提前做出动作。预测下一步的景象，就是生成视频，而且不是凭空想象，而是要根据物理世界的规律做合理预测。

这方面除了Tesla、Wayve，中国的团队也取得突出成果。

不必神话Sora

2023年10月11日，百度团队发布Driving Diffusion，这是一个采用潜扩散模型通过3D布局引导的多视图世界模型（https://drivingdiffusion.github.io/）。从他们发布的视频来看，视频主体稳定，一致性和连贯性都很好。

2023年11月22日，旷视、早稻田大学、中科大联合发布ADriver-I:世界模型，可以在驾驶场景中生成全景可控视频的创新方法，能够产生无限数量的多样化、带注释的样本，这对自动驾驶的进步至关重要。

2023年11月27日，GigaAI与清华大学联合发布DriveDreamer （https://drivedreamer.github.io），据称这是“第一个根据真实驾驶场景建立的世界模型“，能够生成精确、可控的视频，忠实地捕捉现实世界交通场景的结构约束。

2023年11月29日，中国科学院香港创新研究院发布Drive-WM世界模型，可以在驾驶场景中生成生成高质量、一致且可控的多视图视频，为现实世界模拟和安全规划提供了可能性。(https://drive-wm.github.io/)

Drive-WM世界模型视频截图

Sora很牛，但是中国的差距没有想象那么大

正文

请到「今天看啥」查看全文