国产 Sora 的秘密，藏在这个清华系大模型团队中

星海情报局 · 公众号 · · 2024-05-13 18:44

正文

在视频 AIGC 领域，出现一个有力的国产选手。

作者 | 刘芮Ray

编辑 | 靖宇

2024 年，Sora 一直活在聚光灯下。

马斯克不惜溢美之词，称「人类愿赌服输」；红衣教主周鸿祎眼中，借助 Sora 人类实现 AGI 将缩减至一两年。就连卖付费课程的微商，也拿「Sora」重新组装了自己的镰刀。

这种狂热的蔓延，从美国到中国，从一级到二级甚至再到三级市场，像涟漪一样，播散向全世界。

因为，在理想情况下，长视频生成的底层逻辑，约等于世界模型。 十几秒、几十秒的视频中，包含了基础的图像处理、空间关系、物理规律、因果逻辑等等现实规律与知识的映射。小处看，可以掀翻传统电影、游戏制作的桌子，大处看，通往通用人工智能，这是关键一步。

同时，在一众长视频生成算法中，Sora 的技术突破是具备革命性的 。相比传统的 Stable Diffusion，Sora 采用的 Diffusion 加 Transformer 架构，既克服了 Stable Diffusion 扩展性的缺失，更是在生成内容的准确性和灵活性上有了质的飞跃。

唯一美中不足是，Sora 并非开源算法。

没了开源，也就没了复现的可能；没了复现可能，那么哪怕经管出身的合伙人睡前读物变成了《Scalable diffusion models with transformers》，投资经理一周跑遍北京、深圳科技产业园掘地三尺，所有人都不得不承认一个现实，尽管视频大模型企业众多，但或许尚未等到国产 Sora 正式发掘，视频大模型的淘汰赛就已经走到尾声。

业内「哇声一片」，一级市场却空前焦虑。中国 AI 企业，只能眼睁睁看着自己距离 Sora 越来越远吗？

「国产 Sora」来了？

场上 VC 几乎绝望之际，谁也没曾想到，国产 Sora 的秘密，最先揭晓谜底的，竟是成立仅一年多的大模型企业——生数科技。

近日，生数科技联合清华大学宣布推出国内首个基于纯自研 U-ViT 架构的视频大模型「Vidu」， 支持一键生成长达 16 秒、分辨率高达 1080p 的高清视频内容。从官宣的短片来看， Vidu 在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面，几乎与 Sora 齐平 。

而相比其他国产「类 Sora」的工作，Vidu 一个最明显的特点就是，画面时间足够长。

提示词：一艘木头玩具船在地毯上航行。注：这是 Vidu 放出的一段官方视频，可在生数科技旗下 PixWeaver 平台查看

一直以来，十秒几乎是「国产 Sora」的一个生死线。要想达到或者超过十秒，则意味着对训练素材的积累，以及如何解决算法记忆消失问题，需要做出深厚的研究。

这是 Vidu 放出的另一段官方视频，从视频中可以看到，白色老式 SUV 在山坡土路行驶中，滚动的轮胎会扬起灰尘，轨迹自然连贯；周围树林，也在阳光的照射下，遵循真实世界中的投射规律，留下光影斑驳。

形成对比的是，保证视频时长的前提下，大部分国产「类 Sora」都很难保持人物和场景的连贯，同时也难以做到真实地遵循物理世界规律，比如吃汉堡会留下咬痕、汽车开过会留下尾气与灰尘的痕迹。

根据行业人士透露，目前市面上之前的一些「类 Sora」模型，做到长时长的路径，其实大多是通过插帧的方式，在视频的每两帧画面中增加一帧或多帧来提升视频的长度。

这种方法就需要对视频进行逐帧处理，通过插入额外的帧来改善视频长度和质量。整体画面就会显得僵硬而又缓慢。

但生数科技的作用原理明显不同。基于单一模型完全端到端生成实现底层算法，直观上，我们可以看到「一镜到底」的丝滑感，视频从头到尾连续生成，没有插帧痕迹。

另外，还有一些工具类的长视频采用了「换汤不换药」的做法。底层集合了许多其他模型工作，比如先基于 Stable Diffusion、Midjourney 生成单张画面，再图生 4s 短视频，再做拼接。也就是说，想要一个十几秒长视频，那就把多个 4s 短视频拼在一起就好，不仅整体的画面流畅度会大打折扣，底层也并没有实现长视频生成能力的突破。

除了生成时长有了质的突破，从官宣视频中我们还可以看到，Vidu 还做到了画面连续流畅，且有细节、逻辑连贯。 尽管都是运动画面，但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。

做一个简单对比，以下是某热门视频大模型团队的视频生成效果截图，虽然整体视频长度才四秒，但仅仅一个准备跳跃的动作指令，就足以让画面里的小猫变成 6 只脚，或者三根尾巴的「鬼影」。

对比如此鲜明，让人不禁疑惑：为何 ChatGPT 发布后，市场马上涌现一批「达到 GPT 3.5，逼近 GPT4.0」的大模型产品。同样是追赶，为什么类 Sora 产品却如此困难？

答案是，ChatGPT 发布不久，Meta LLama2 开源，开源平替解决了国产 ChatGPT 技术复现的燃眉之急。而 Sora 没有开源，技术细节未公开，这就导致，实现「国产 Sora」就只剩了自研这一条路可以走。

根据 OpenAI 披露的技术报告，Sora 核心技术架构背后源自一篇名为《Scalable Diffusion Models with Transformers》的论文，论文提出了一个将 Diffusion（扩散模型）和 Transformer 融合的架构——DiT，后面被 Sora 采用。

巧合的是，比 DiT 早两个多月，清华团队就提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。从架构路线上，两者并无二致。甚至过程中，还曾出现一个小插曲，由于发布时间更早，当年计算机视觉顶会 CVPR 2023 收录了清华大学的 U-ViT 论文，却以「缺乏创新」为由拒稿了 Sora 底层使用的 DiT 论文。

生数科技的创始团队正是源于清华大学该论文团队。公司的 CTO 鲍凡就是该篇论文的第一作者，此次发布的 Vidu 模型底层采用的就是 U-ViT 架构。也就是说， 生数科技并不属于追逐 Sora 的一员，而是一早就踏在了同一起跑线，甚至是更早。

由此窥见，生数科技成立时间虽短，但来头却不小。

深扒发现，论人才，其团队核心成员来自清华大学人工智能研究院，是国内最早开展深度生成式研究的团队。论技术，团队多项研究成果被 OpenAI、苹果、Stability AI 等应用于 DALL·E 2、Stable Diffusion 等模型中，是现阶段在生成式领域发表论文成果数最多的国内团队。论背景，生数科技已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名机构的认可，完成数亿元融资。

而真做到这一切的， 为什么是生数？

为什么是生数科技？

最重要的答案或许是 ，生数科技早早走对了技术路线。

与市面上大部分视频生成算法采用基于 U-Net 卷积架构的传统扩散模型不同，生数科技此次发布的 Vidu 与 Sora 采用的都是融合架构（即上文提到的 U-ViT 与 DiT）。

国产 Sora 的秘密，藏在这个清华系大模型团队中

正文

请到「今天看啥」查看全文