专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
APPSO  ·  我用字节最强的 AI ... ·  11 小时前  
小众软件  ·  Apple TV 史努比屏保 macOS 移植版 ·  昨天  
APPSO  ·  DeepSeek ... ·  昨天  
小众软件  ·  影响900万用户?VS Code 主题插件 ... ·  2 天前  
APPSO  ·  我用 DeepSeek ... ·  2 天前  
51好读  ›  专栏  ›  APPSO

我用字节最强的 AI 数字人,让《银魂》主角出演了赵本山的经典小品

APPSO  · 公众号  · app  · 2025-03-01 11:59

正文

如果让《银魂》主角演绎春晚经典小品《卖拐》,会是怎么样的?
下面就请欣赏,《银魂》「从未公开」的一集: 《如果你觉得自己的脸越来越大了,那么没事就请多走两步》。

效果有些粗糙,但你应该会留意到,人物不仅对上了 口型,表情和身体也会随之运动起来,看起来是比较协调的。
我们用到的工具是, 字节的 AI 数字人技术 OmniHuman-1。
它不仅让 AI 对口型更接近真人说话的状态,还将过程变得更加简单: 一张图片、一段音频,就能生成逼真的对口型视频,最长 15 秒。
OmniHuman-1 目前正在即梦内测,点击「视频生成」,再点击「对口型」,如果你的账号出现了「大师模式」,那么恭喜你,已经体验到了。
下面就来更详细地看看,演技更好的数字人是如何的。
正脸侧脸,是人非人,都能对上口型
你可能会问,人物的图片好找,但没有现成的音频,怎么办?没关系,可以在即梦的「文本朗读」框输入文案,然后选择喜欢的音色。
如果没有合适的选择,即梦还支持创建音色,只需 5 秒的音频素材,于是我上传了马斯克的演讲片段,生成了他的音色。
然后,再随便找一张马斯克的图片,输入文案「全世界最聪明的 AI,Grok 3,现在免费,直到我们的服务器崩溃」。
接下来我们就可以看到,马斯克摇头晃脑地讲着歪果仁味道的中文,语气还怪礼貌的,背景里隐隐约约有汽车开过。

真人正脸,属于挑战性最低的测试了,动漫正脸,即梦也能轻松驾驭。
我上传了之前用 AI 生成的一张图片,让主角演绎《武林外传》郭芙蓉的经典台词,「姑奶奶今天不把你打得桃花满天红,你就不知道姑奶奶心花为谁开 」。

表情的变化和台词的语气是对应的,主角甚至还会耸肩,演技至少在小鲜肉的及格线水平。
继续上强度,如果一张图片里有多个人,而且是难度更高的全身,AI 基本都能让他们参演,但离画面较远的,或者嘴巴被遮盖的,可能就在状况外。
虽然美中不足,但即梦的细节又弥补了这一点:背景的火光和烟雾是自然运动的。

刁钻角度的侧脸图片,即梦也能对上口型。少女的珍珠耳环自然地晃动,因为说话才完整露出的牙齿也很清晰,但她的脖子和嘴唇有些用力过猛。

比起单纯的说话,有乐器伴奏的对口型表现稍微差了一些,但拉琴的动作大抵是到位的。

当主角不是人,问题也不大。《机器人之梦》的狗狗唱起了《甜蜜蜜》,机器人虽然没开口,但它的眼神和狗狗互动了。

基于实践,我们可以总结 OmniHuman-1 的几个特点:
正脸、侧脸、多人、单人、非人、全身、半身,都能对上口型。
说话、唱歌,都能对上口型。
除了口型,表情、手势、身体动作、背景也会保持动态。
有时候口型会过于夸张,或者不完全准确。
当嘴唇被口罩等物体完全遮挡,可能会对不上口型,甚至生成失败。
分分钟二创小品、MV,让整活视频变得更加简单
当 AI 让对口型变得更简单也更自然,做一些整活向的、鬼畜的视频,也就比以前更加容易,不用再逐帧编辑和手动调整,或者让配音去配合人物的口型。
技术已经 next level,如果只是用简短的片段展示功能,多少有些浪费,于是,我们尝试用即梦生成了开头的银魂版《卖拐》。
操作起来也非常简单, 首先,我截取了《卖拐》里超级经典的 30 秒音频,把它切分成了一段段的台词。
然后,查找多张符合语境的人物图片,让谁来演呢?我选择了《银魂》的坂田银时和志村新八,分别担任赵本山和范伟老师的角色,相对比较贴合他们的人设。
还差一个开头,我上传了万事屋的图片,用即梦生成了简单的镜头拉进效果。最后,用剪映把所有片段拼接在一起。 视频里的片段,都只生成了一次,虽然粗制滥造 ,但有点内味了
甚至,我们还可以用即梦生成一个漫威宇宙的 MV,让每个英雄深情地唱着属于自己的歌词,方法也很简单,用到了四种工具。
DeepSeek:根据每个英雄角色的性格特征生成歌词。
Suno:导进歌词,然后生成歌曲旋律。
即梦:对口型,开头和结尾图生视频。
剪映:拼接视频。

OmniHuman-1 的创新之处在于,团队为不同的训练任务,分配了不同质量的数据,克服了从前端到端方法由于高质量数据稀缺而面临的问题。






请到「今天看啥」查看全文