专栏名称: 机器之能

探索全球人工智能应用场景及商业化

今年最被低估的AI模型之一，重现李小龙功夫音

机器之能 · 公众号 · AI · 2024-12-24 17:29

正文

AI好好用报道

编辑：Sia

音频视频的同步生成，是时候开卷了~

承认吧，虽然谷歌 Veo2 在视频生成上完虐了 Sora，但生成的还是个默片。

没声音的 AI 视频，说白了就是个半成品。

看看这组数字：

谷歌开放的大规模音频数据集 AudioSet 显示，82% 以上的视频都有人声或音乐；

去年抖音上传的 100 多亿条视频里，差不多八成都配了背景音乐。

号称今年华语最佳电影《好东西》最封神的一场戏，正好也与声音有关。

在声效蒙太奇下，日常家务也有山河之声。

最近火爆全网的 The Heist 也是个好例子。

来自 x @jasonzada

虽然每个画面都是用 Google Veo 2 靠文字生成的，但你猜怎么着？

作者最费劲的活儿反而是后期音效，全靠手动完成。

作者吐槽，最为致命

看来大家说的没错啊，视听同步生成还真是 AIGC 领域的下一个「硬骨头」！但好消息是，战斗已经打响了。

近期，伊利诺伊大学和索尼的联合团队搞出了一个配音工具 MMAudio——上传一段视频，不需要人工手动，系统可以自动生成合适的音频，效果很不错。

一个 8 秒的高质量音频片段仅需 1.23 秒！

工具链接：

https://replicate.com/zsxkib/mmaudio

官方 Demo 先走一波：

Videos from Sora

Videos from Veo 2

MMAudio 专注于模拟真实世界的各种声音，主要分两大类：环境音效和动作音效。

环境音效指的是场景中的背景声音，比如下雨声、河流声、风吹树叶的沙沙声、鸟叫声等自然环境的声音。

这是大导演库布里克的电影《闪灵》中的一个场景，原来只有背景音乐，没有音效。

体验一下 MMAudio 想象出来的效果。

来自 X @cocktailpeanut

灾难现场的模拟。

来自X @blizaine

动作音效则是视频中可见事件产生的声音，例如物体碰撞的声音、运动器材的声音（如网球拍击球）、动物的叫声（如狗叫）等。

MMAudio 可以重现李小龙功夫音，难得的是，双节棍舞动的声音也有卡点。

来自x @cocktailpeanut

就连一段苹果发布会的视频也能整出动静。你别说，挺合理，同样卡点准确！

我们也试了一把。

这是一段旅行拍摄的山鹌鹑，因为距离很远，原视频只有杂音。

上传到 MMAudio 、输入提示词，结果很理想。

不仅没了原来的杂音，还添加了动物的声音，更适合发圈了：

提示词：A covey of quail

上传一段法国小哥卖煎饼果子的视频，听听音效怎么样？

MMAudio 就像一个专业拟音师，通过生成与视频画面在语义和时间上都同步的自然声效，让视频内容更真实生动。

虽然它的主要目标不是生成音乐和人声，但研究表明，多模态联合训练并未影响其在单模态任务上的表现。

换句话说，它也能生成背景音乐甚至人声，虽然不是专业的。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【open-r1-text2graph：开源复现DeepSeek-20250210140244

昨天

爱可可-爱生活 · 【[11.1k星]Subfinder：快速被动式子域名枚举工具，-20250208141652

3 天前

爱可可-爱生活 · 【[23星]iFormer：为移动应用打造的高效视觉模型，将卷积-20250208142551

3 天前

爱可可-爱生活 · 【[74星]EasyDeploy：一站式大规模模型部署利器，让模-20250207194151

3 天前

宝玉xp · 喜欢看 arxiv 上论文的朋友推荐使用 alphaxiv 这个-20250207120506

4 天前

娱乐哔姐 · 工地版angelababy、新疆版胡歌，世界上另一个我！

8 年前

历史震惊你 · 一位27岁女CEO竟然都在关注这些微信号丨荐号

7 年前

中央广电总台中国之声 · 传统武术过时了？太极弟子表示不服要下“战书”

7 年前

健康常识百科 · 跳广场舞的人为什么越活越年轻，真相竟然如此简单

7 年前

老北京城 · 北京地铁里30种死法，扎心了！

7 年前