奇月 发自 凹非寺
量子位 | 公众号 QbitAI
家人们,是这样的,前几天上网冲浪,刷到了这样一条视频。
虽然能看出来是AI生成的,但本来就很喜欢《教父》这种暗黑风的我,还是被这短短90秒硬控住了……
话不多说,大家先一起欣赏一下:
这昏暗的环境、严肃的人物表情、还有紧张的剧情,太对味儿了。
这条短片里,一共有四个主人公,还涉及很多复杂的场景和光效,画面竟然一直都没崩。
深扒了背后的AI创作流程之后,结果让我大受震撼啊!
本来以为这片子的工作流可能就和日常的AI生成一样,
无限地修改提示词+抽卡
,抽出一个能用的首帧图片,再图生视频。
反复上面的流程,凑出所有视频段落,拼起来,这样才能勉强保持跨片段保持人物一致性。
比如主角老头在14秒、1分10秒都出现了,如果你想让人物的脸不崩,就得
无限抽卡+图生视频
循环,或者是
训个LoRA模型
,把人物框定好:
但这个短片的制作流程,
只用了这四张人物照片,再配上一些文本Prompt
,就可以导演出来了。
也就是说,相当于直接给你提供了4位现成的
演员
,你只用做导演指挥他们就好了??
这比之前靠玄学出片的AI短片制作来说,真的是降维打击了啊。
不卖关子,其实这是MiniMax家的
海螺AI
最近推出的新功能——
主体参考
,你只需要上传需要的人物图片,它就可以自动识别出人物,让他们听你的话,帮你演戏!
有了这个功能,短剧制作的
成本将会大幅降低,整个制作流程都
可能会被AI视频模型颠覆。
怎么做到的?
下面我们来详细了解一下“主体参考”功能的原理。
它最大的创新之处,就在于
把“文生视频”和“图生视频”的优点给结合起来了
。
文生视频的优点,是通用性、泛化性和组合性都不错,可光靠文字来控制,细节上很容易出现偏差。
图生视频虽然能让生成的视频紧紧遵循首帧图片,非常精准,但问题是自由度不高,而且首帧图片的精准信息和文字描述之间也可能存在矛盾。
针对这些问题,MiniMax公司深入分析了自家的三模态自研基座模型,他们认为,这
三个模态的智能不是绝对独立的,其实是能互相促进、共同进步的
。
语言本质上是智能的
通用
工具,大语言模型对视觉和语言概念的跨模态底层理解能力也是很强的。
在这个想法的基础上,海螺AI自研了基于单张图片的主体参考功能,非常接近人类处理视觉和文字信息的方式。
比如面对一张图片,模型会先把图片里的“主体”这个视觉信息提取出来,然后用户就能用文字自由地去操控,还能把主体的视觉细节还原得特别准。
这样一来,一个主体既能精准地保持原来的样子不变,又能按照用户的想法自由地做出各种行为、表现出各种状态。
经过测试,哪怕只用一张人物图片,也能实现精准复原。
比如只上传一张经典meme人物,就能生成多场景视频:
你可以让金馆长在酒吧里跳舞、或者吃点意大利面:
生成视频的质量,和给到图片的清晰度直接相关,测试下来,即使梗图不算清晰,海螺AI也能保持人物还原,动作自然。
再来和另一条技术路线
训练
LoRA
人像模型
对比一下。
MiniMax也研究过LoRA方案,但他们发现,相比于精调的LoRA,主体参考使用的
图片参考方案生成效果上限能够更高
。
此外,主体参考的方案,相较LoRA 方案,也
大幅降低了用户输入与计算成本
。
比如同样的视频,海螺AI需要1张图片输入+正常一次生成的成本,而使用LoRA方案的模型则需数十个不同维度的视频、
超100倍
单次生成计算量,外加数十分钟等待时间。
目前海螺AI最先开放的主体参考能力主要针对单个人物,后续还会拓展到多人、物体、场景等更多样化的参考。
外星人和动漫风格的也可以生成:
如果你也想尝试一下主体参考的新功能,操作方法也非常简单。
你只需要在海螺AI创意视频平台中选择“主体参考”创作区后,
上传一张图片
即可创建参考角色。
然后在下面的文本框内
输入Prompt
,就可以生成富有创意的高质量视频。
而且在使用过程中,我们还注意到它在以下方面生成效果也非常出色。
人物面部细节一致
在用人物特写生成视频时,可以看到人物的面部细节在多个视频中都能得到很好的保留。
不仅是轮廓和五官,甚至包括眉毛、眼影、发型都有很强的一致性。
尤其是角色脸上这三颗痣,在3个视频结果中都保持的固定的位置,且清晰可见,目前只有海螺AI一家模型可以做到这样的细节一致性。
复杂姿势与表情
在动作,环境上,也能够实现自由组合,甚至用表情传递情绪,也可以实现。你可以操控人物生成更多复杂的姿势,比如低头、侧脸等等。
先来让图片中的女士挑战一下低头的动作:
Prompt:在这略显空旷的房间之中,一位长发女人静静地伫立着。光线透过窗户,洒在她的身上,勾勒出一道落寞的身影。只见她身形略显僵硬,双肩微微下沉,仿佛承受着无形的重压。她的头颅缓缓低下,动作缓慢而沉重,如同被岁月的沧桑拖拽着。颈部的肌肉紧绷,青筋隐约浮现,似乎在极力克制着某种情绪。下巴逐渐贴近胸膛,几缕发丝从额前滑落,遮住了她大半的面容,让人难以看清她此刻的神情。
在侧脸这个比较小众的主题上,海螺AI也做到了让镜头的转换和头发的运动非常丝滑:
Prompt:
自然风光背景,画面中一位女性线条利落却又不失柔和的侧脸,宛如一幅精美的古典画卷在眼前徐徐展开。她的额头宽阔而平整,长发被风吹动。高挺的鼻梁犹如一座峻峭的山峰,从额头笔直地延伸而下,线条优美。她转过头,对着镜头,优雅地笑了一下。
AI出片,还是要技术解决应用瓶颈
Sora的横空出世点亮了视频生成的赛道。而纵观技术和应用发展现状,目前主要瓶颈在于,技术真正进入生产环境,实现行业应用。而要让视频真正
承担起叙事任务,就必须把人物一致性的门槛打下来
可以说,有了“主体参考”功能后 ,突破了跨视频片段的主体一致性的创作痛点,让用户在进行更完整内容表达的视频创作时,可将更多精力放在内容表达上。
对于
AI 短剧、AI 广告
等以人物为主体的行业,这个功能可以大大提升创作效率,降低创作成本,带来更大的想象空间,推动行业进入 “人人都是会掌镜、懂拍摄的好导演” 的新时代。