专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

面对闭源 Sora，国产视频模型要怎么走 OpenAI 的“西游路”？

AI科技大本营 · 公众号 · · 2024-07-26 17:09

正文

在世界模型的路径上，跨模态是非常重要的事情。

文 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

本文为 CSDN 编辑整理，未经授权，禁止转载。

7 月 26 日上午，智谱 AI 在北京举办开放日（OpenDay），正式发布视频生成大模型产品「清影」（Ying）。目前，清影已经上线 “智谱清言” App，人人可用，大家都能体验。

面向广大的开发者群体，智谱也开放了清影背后的视频生成模型 CogVideoX 的 API，价格为 0.5 元/次。开发者可以通过调用 API 的方式，体验和使用文生视频以及图生视频的模型能力，这在国内也尚属首例。

智谱 AI 大模型开放平台： https://bigmodel.cn/

清影具备 文本生成视频 和 图片生成视频 两大功能，仅需 30 秒时间就能输出一个时长为 6 秒，清晰度为 1440x960 的高精度视频。据智谱 CEO 张鹏透露，他们目前还在研究下一步的「用视频生成视频」。

别看只有 6 秒，照样可以玩出花来。下面这个相当燃的短片《溯源：从人类第一颗火种说起》，就是完全由清影生成的画面：

是不是很像电影 CG？

年初 CSDN 于智谱 DevDay 专访张鹏时，他将这场 AI 革命视为“ 认知上的革命 ”，只有在认知上做根本的转变，才能跟上这个时代。

今年二月，闭源的 OpenAI 推出视频生成模型 Sora，技术细节毫无头绪，相当于给全世界的 AI 厂商设置了一道“闭卷考试”。比方说，清影的底座模型使用了前代 CogVideo 模型的升级版 —— CogVideoX ，推理速度提升了六倍。CogVideo 的算法设计参考了 Sora 的 DiT 架构，这也逐渐成为了视频生成模型厂商的共识。但张鹏表示，由于 Sora 技术细节上的公开和不透明，事实上有很多地方需要 自己摸索。

OpenAI 已经取到了“经”，而路，却被隐藏了起来，需要重新走遍 “九九八十一难” 。

无论是开源社区还是闭源公司，无论国内还是国外，这几个月的专业开发者 —— 快手可灵、Luma AI 的 Dream Machine、Runway 的 Gen-3 Alpha、开源项目 Open-Sora、谷歌 DeepMind 的 V2A，都在从不同角度尝试复现 Sora 的奇迹，试图改变自己的“认知”，以跟上 OpenAI 超前的节奏。

Sora 最为颠覆认知的地方，首先便是其生成视频内容的 连贯性 。作为这道考试最大的难点之一，智谱 AI 交出的答卷是他们 自研的高效三维变分自编码器结构 （3D VAE），将原视频空间压缩至 2% 大小，配合 3D RoPE 位置编码模块，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。

在清影演示的一系列视频中，下面这类带有运动、驾驶性质的视频便很能展现连贯性：

Sora 给出的“ 第二难 ”，就是数据。

倒不如说，OpenAI 可能自己都没解决这个问题，因为在我们整理的数篇关于 OpenAI CTO Mira Murati 的采访中，每逢问起 Sora 何时发布，她便会以“安全性”或“数据”作为理由。在 Mira 的第一次关于 Sora 的采访时，还诞生了 Youtube CEO 亲自下场警告 OpenAI 使用视频数据的“名场面”。

张鹏也表示，做视频生成最需要的就是数据。文字数据可能积累了很多年，而视频数据的积累，甚至于流媒体的兴起都是最近才开始的事情。而且，除了有高质量的视频以外，还需要对应的字幕、文字、描述等等，并进行对于数据本身的清洗、挑选、筛选…… 张鹏强调，模型需要的视频质量其实很高，不是很多人想象中的“从短视频平台随便抓取一个视频就能拿来用”。

在采访中，张鹏还进一步延伸了自己对未来模型训练趋势的见解： 视觉信号在人类沟通中的冲击力无可替代，在未来，多模态的信号融合将是趋势，而视觉将成为主导 。

图生视频的一个示例 —— 梵高的《星空》

此外，还有国内 AI 厂商无法避开的话题 —— 算力。

目前，智谱给出付费方案相当独特，他们没有采取福利值或代币制度限额放出生成次数，而是让所有用户在首发测试期间均可免费使用。

那付费可以做什么呢？清影的方案是，付费 5 元，解锁一天（24 小时）的高速通道权益，付费 199 元，解锁一年的付费高速通道权益。这么做视频生成算力成本想必不会低，听起来就非常“烧显卡”。

张鹏一如既往地保持智谱的“质朴”风格，他坦诚地表示，目前我们和 OpenAI Sora 这样的世界顶尖水平还有差距，但这条路仍然需要走下去，且需要用自己的方式不断往前追赶，并在追求技术高度的同时，也同步追求技术的可普及性和成本，最终实现技术的“ 人人可用 ” 。

至于成本多少？那是等大家用完之后，再去统计的事情。现在需要做的，便是放出来给大家使用，看一看大家的反馈。

据说，清影主要擅长皮克斯动画风格

但这种成熟的黑白电影风，也不在话下

既然是认知革命，那就不得不谈 OpenAI 在发布 Sora 时提到的概念，即 Sora 是“ 模拟世界的视频生成模型 ”（Video generation models as world simulators），这股潮流一度带火了 世界模型 （World Model）这个词，直至今天也极具争议。

智谱一直被称为「中国的 OpenAI 」，全面对标 OpenAI 的产品矩阵，甚至做到了“一个不多，一个不少 ”。本次清影的发布填补了“中国版 Sora ”这一部分的空缺，下一步便是更加“天马行空”的多模态矩阵。

当前，人工智能行业对多模态模型的探索还处于初级的阶段。CSDN 为此询问张鹏，对于 AGI 前路上必经的这道难关 —— 世界模型，智谱目前给出的思考是什么？

张鹏回答： “OpenAI 对世界模型的定义，是 通过视频学习生成的能力，去理解物理世界的基础 。目前关于世界模型，还有许多仍未定论的地方。而我们的观点和 OpenAI 比较相近。 ”

“ 对于人类的大脑来说（或是说人类对世界的认知），除了语言以外，视觉、听觉、嗅觉等各种各样的感官是综合在一起的。人类学习事物的效率没有计算机那么快，但是人类的智能却比现在的 AI 高，这正是因为人类大脑的学习过程远比计算机更复杂，大脑内不同模态之间信号的互相验证和交叉，知识的渗透，可能导致了学习效率更高 —— 当然，也可能有其他的原因，而这还需要研究很多的问题。 ”

“ 最终，我们跟 OpenAI 有个观点一致，即 所谓世界模型的路径上，跨模态是非常重要的事情 ，可能还有其他的事情需要做，一步一步来吧。 ”

从开发者的角度，我们还提出了一道问题。

时值 Llama 3.1 发布，我们会发现开发者已经对开源社区推出的各种文本大模型“了如指掌”，许多热门开源模型（如前段时间的谷歌 Gemma-2）都能在四天左右就微调出一个面向中文社区的优化版本。

随着“ 文本大模型 ”的热潮转向“ 视频大模型 ”乃至“ 多模态模型

面对闭源 Sora，国产视频模型要怎么走 OpenAI 的“西游路”？

正文

请到「今天看啥」查看全文