专栏名称: APPSO

让智能手机更好用的秘密。

腾讯版 Sora 抢先体验！文生视频大模型，懂氛围感，有追剧的感觉了

APPSO · 公众号 · app · 2024-12-02 18:12

正文

不知不觉，12 月到了，离 Sora 的演示发布，已经过去将近 10 个月。

Sora 的正式推出应该不远了，但 AI 视频的版图早已不是一家主宰，海外的 Runway、Luma、Pika，国内的快手可灵、字节即梦、智谱清影，占据了前排的位置。

一个意料之中的 Sora 竞争对手，终于也在最近上车了——腾讯混元。

腾讯混元目前的视频模型只能文生视频，正在内测阶段，APPSO 受邀参与了提前体验。

虽然功能不多，有进步空间，但作为一个内测产品，混元在画质、镜头切换、物体运动、提示词遵循等方面，效果让人眼前一亮。

大片质感，拿捏复杂提示词

在腾讯混元输入一段提示词，就能生成 5 秒的视频，支持中文、英文输入。

感官不会撒谎，视频是一个讲故事的媒介，抛却一切参数，它应该首先让人沉浸在画面里。

混元在这方面做得就很不错，具备高清大片质感，让人真实感受每个细节。

拿例子说话，镜头开始聚焦在摇曳的烛光上，一个低头写信的年轻男子轮廓模糊，随着镜头缓缓向右平移，镜头焦点逐渐从蜡烛转移到男子的身影，衣服的纹理清晰可见。

中式朦胧含蓄的氛围感，混元拿捏了。恍惚间，我以为自己在看腾讯视频。

现代的场景，混元也没问题，用 200mm 长焦镜头，捕捉阳台上的英短猫，前景的大盆栽轻微虚化，叶子随风摇曳。

英短猫的毛发细节鲜明，电影胶片的颗粒感和色彩饱和度，让画面的质感更上一层楼。

每个人的脑海，都有很多未被电影和电视剧拍摄的画面，每次我们输入提示词，都是让大模型做「阅读理解」。

当我们构思了场景，在提示词用心写好每个细节，当然是希望模型能够一一呈现，生成我们预期中的画面。混元对复杂提示词的遵循，就尊重了我们的脑洞。

在成都一个热闹的小吃街上，一位主播身穿具有四川特色的服饰，头戴可爱的熊猫耳朵发箍，品尝着麻辣串串，背景是熙熙攘攘的小吃街和各种诱人的美食。

除了麻辣串串有些穿帮、衣服的图案乱成一团，混元整体的完成度很高，主播的吃相不至于让人陷入恐怖谷。

背景里熙熙攘攘的人群和整整齐齐的小吃，看不出什么明显的问题，没有奇怪的物体和人物乱入，甚至可以说很有生活气息。

在一间装饰着复古风格的咖啡馆内，一位年轻咖啡师身着经典的条纹围裙，头戴贝雷帽，站在吧台后，吧台上摆放着咖啡杯和手工甜点。

最值得称道的是，阳光透过彩色玻璃窗，洒在磨光的木板上，混元将倒影的细节呈现得很精致。

生成不同画幅的视频，是 AI 视频产品的基操，混元当然也不例外。

按 9 比 16 的比例生成竖屏短视频，人是美的，画面是高清的，光影是绚烂的，当成超现实的艺术鉴赏，头发和服饰反重力也没关系。

一只德牧坐在沙发上，镜头拍着它的侧脸，然后它好像发现了镜头，看向镜头并歪头。是不是有些萌宠短视频的感觉了？

拒绝动态 PPT，物体运动、镜头切换都流畅

画面漂亮还不够，怎么样才能让 AI 视频不像动态 PPT？问题不完全在于时长，1 分钟的视频也可能像幻灯片一样索然无味。

生成流畅、连贯、符合物理规律的运动镜头，解决人物的动作、幅度、流畅性问题，可以说是让视频有动感的一个决定性因素。

正是因为这样，AI 视频模型们都在可控的运镜和运动下功夫，推出运镜控制、运动笔刷等功能。

混元「常用标签」

目前，混元还是个内测产品，流畅运动主要靠提示词实现，同时会推荐一些景别、相机运动的「常用标签」，方便不太会写提示词的用户们。

但从效果来看，只靠提示词，混元也可以生成大幅度的合理运动，主体不易出现变形。

在崎岖的山地自行车赛道上，一位车手巧妙地操控自行车，尘土在车后飞扬。镜头定格在车手飞跃土坡，身体与自行车在空中舒展的惊险一刻。

在灯火通明的古代夜市，女孩跑着步，面带笑意，时不时回过头，长发和衣袖随之飘动。

浅景深让主体更加突出，女孩成为整个画面的唯一核心，背景被虚化，步伐奇怪、行踪诡异的路人也不那么显眼了。

混元官方 Demo：草莓掉进鸡尾酒杯，溅起水花，高速摄影，2K

画面的动感，不仅仅来自于主体的运动，镜头的流畅切换也很重要，在同一个视频里使用不同的镜头角度和距离，可以产生更加丰富的视觉效果。

这可以用混元的另一项长处实现：多镜头生成。只靠输入提示词，混元可以一次生成多个镜头，前后镜头自然切换的同时，主体和场景保持一致。

也就是说，AI 自己就能完成「转场」，自带运镜能力。

先是从中景切入，呈现整体的古典场景，然后用特写，捕捉男子的表情和动作。

与此同时，环境的光源，男子的脸、服饰甚至他手中握住的笔，都保持得一模一样。

类似的，当要求先特写男子坐在电脑前思考，然后镜头切换到男子的背面，拍摄到电脑屏幕，以及旁边的咖啡杯、盆栽、手办，混元也交出了非常丝滑的作业。

除了多镜头生成，混元还能多动作生成——生成同一个主体的多个连贯动作。

比如这个视频，提示词写得非常简单：一个女性正在慢跑，突然看到路边有一只小狗，她停下脚步蹲下来抚摸小狗。

混元的表现堪称惊喜，女孩和小狗双向奔赴，小狗自己完成了一个转身，女孩来回摸狗的手法也非常娴熟和自然，手的动作和小狗的动作无缝衔接。

把提示词写得更精准，离脑洞更近一点

当然，混元也存在问题，每次生成的内容具有不确定性，这是大模型的通病，做不到完全可控，抽卡是不能避免的。

打斗的动作尤其为难 AI，不管是写实还是动画，看来武术指导无法被 AI 替代。

比如这段，布景大致遵循了提示词，但两位大侠你们到底用的是什么武器，怎么打得眼花缭乱又没有伤害的？

混元官方也指出了生成视频可能存在的问题：同时输入多个实体，可能不会都生成出来；颜色和数量可能未必匹配。

混元大模型仍在升级和调试中，未来可期。

如果之后有图生视频的功能，那就更好了，文生视频很难做到镜头和镜头之间的连续，目前很多商业化交付的 AI 片子，基本都是图生视频，先在图片阶段尽量做到一致性。

与此同时，我们可以依靠一些方法论，提高提示词的精细度与准确度，反复细化、调整、优化提示词，多次尝试总没错。混元官方推荐的提示词写法如下：

主体+场景+运动 + (风格表达) + (氛围描述) + (运镜方式) + (光线) + (景别)

以及，考虑到很多用户不擅长写提示词，混元提供了提示词模板，我们照葫芦画瓢就可以。

看到 AI 视频赛道从 Sora 演示发布卷到现在，作为用户，心情其实就是六个字：打起来，打起来！

别吊胃口了，多一点落地的、更可控的、更容易上手的视频产品才是真的。

AI 视频的意义，究竟是什么？固然我们可以从降低成本的角度考虑，但同样，也可以从更浪漫的角度理解。

混元官方 Demo：一个敦煌雕塑风格的神仙，身材曼妙，弹着琵琶，在博物馆中轻盈起舞，衣袂飘飘。

就像 Runway CEO 所说，相机改变了我们捕捉现实的方式，AI 也正在改变我们创造现实的方式。现在 AI 视频就像最初的银版照片，原始但充满无限可能。

每次使用 AI 视频产品，其实就是在根据我们自己的喜好，直接生成个性化的视频内容，想看什么自己生成，这是刷海量的短视频也无法替代的体验。

我们期待的，无非是 AI 视频再精准一点，离脑海里的世界更近一点。这样的未来，已经越来越近了。