专栏名称: CG世界

CG世界是CG领域自媒体。专注3D动画、影视特效后期制作、AR/VR几个领域的知识，前沿技术，资讯和行业教程分享。

“碾压”世面所有AI？Meta推出Movie Gen,颠覆现有AI视频生成模式

CG世界 · 公众号 · · 2024-10-12 10:20

正文

点击上方蓝字 CG世界 关注我们

“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”

中国很有影响力影视特效CG动画领域自媒体

就在东半球的我们欢度国庆长假的时候，西半球美国的跨国科技公司Meta偷偷发了个大招：官宣了他们新的视频生成AI模型—Movie Gen。

Movie Gen由Meta的AI研究团队开发，在多项功能上都展现了领先的技术成果，能够提供高质量且稳定的内容生成结果，且支持精细的局部编辑。为专业创意人员和业余爱好者们，开启了全新的创作可能性。

Movie Gen的横空出世，给了我们亿点震撼，顺便给了曾经风光无两的OpenAI文生视频AI模型Sora一记重击。

推广↓↓↓

这么说吧，Sora做得到的，Movie Gen都可以( 如创建不同宽高比的高清长视频，支持1080p分辨率、16秒长度以及每秒16帧的帧率 )；Sora做不到的，Movie Gen好像…也行( 如生成匹配的背景音乐/音效、依据文本指令进行视频编辑，还能根据用户上传的图像生成个性化视频 ) 。

Movie Gen是Meta对基础AI研究的一部分，是生成AI工作的第三波成果，集合了图像、视频、音频等多种模态，以一种前所未有的方式让用户能够进行更加精细的控制。相比前几代模型， Movie Gen拥有更多的灵活性和控制选项。

Meta称它为“迄今为止最先进的媒体基础模型”，显然想利用它和 OpenAI的Sora以及PikaLabs Pika 1.5一较高下。

作为一套先进的用于创建沉浸式叙事体验的模型组合，Movie Gen具备四大能力：视频生成、个性化视频生成、精准视频编辑和音频生成。

生成效果如何？还请各位小伙伴自行品鉴：

PART 1

视频生成

Movie Gen拥有30亿参数，能够理解物体的运动、主体与客体之间的互动以及摄像机移动，同时可以学会为各种概念生成合理的运动。

能够根据用户提供的文本提示，创建长达16秒、每秒16帧的高质量、高清晰度图像/视频。

这些通过简单文本描述来创建的独特高清视频支持不同高宽比例屏幕，可以在不同的设备和平台上以最佳的形式观看。

Text input: Transform the lantern into a bubble that soars into the air.

文本输入：将灯笼变成一个气泡，让它升向空中。

Text input: A girl is running across a beach and holding a kite. She's wearing jean shorts and a yellow t-shirt. The sun is shining down.

文本输入：一个穿着牛仔短裤和黄色T恤的女孩正在海滩上奔跑，手里拿着风筝。阳光照耀下来。

Text input: A woman is sitting on the grass of a pumpkin patch. She is wearing a scarf and holding a cup. The background is filled with rows of pumpkins.

文本输入：一个女人坐在南瓜田的草地上，她戴着围巾，手里拿着一杯饮料。背景里是一排排的南瓜。

Text input: Text input: Thunder cracks loudly, with an orchestral music track.

文本输入：雷声轰鸣，伴有管弦乐音乐。

Text input: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.

文本输入：摄像机位于一个男人的背后。这个男人赤裸上身，腰间系着一块绿色布料，并且赤脚。他双手各持一个燃烧的物体，做出大范围的圆周运动。背景是一片宁静的海。火舞表演的氛围非常迷人。

Text input: A red-faced monkey with white fur is bathing in a natural hot spring. The monkey is playing in the water with a miniature sail ship in front of it, made of wood with a white sail and a small rudder. The hot spring is surrounded by lush greenery, with rocks and trees

文本输入：一只红脸白毛的猴子正在一个天然温泉中洗澡。猴子在水中玩耍，面前有一个木质的小帆船，船上有白色的帆和一个小舵。温泉周围是茂密的绿植，还有岩石和树木。

PART 2

个性化视频生成

Movie Gen扩展了基础模型的功能，增加了个性化视频生成的支持。

可以根据用户提供的个人照片和一些具体的文字描述，生成包含个人形象的视频。生成的视频不仅视觉细节丰富，符合描述性提示内容，还能保持人物的个性特征，且动作自然流畅。

Text input: A man is doing a scientific experiment in a lab with rainbow wallpaper. The man has a serious expression and is wearing glasses. He is wearing a white lab coat with a pen in the pocket. The man pours liquid into a glass beaker and a cloud of white smoke blooms

文本输入：一个表情严肃戴着眼镜的男人，在一间有着彩虹壁纸的实验室里做科学实验。他穿着一件白色实验服，口袋里插着一支笔。将液体倒入玻璃烧杯中，一团白色的烟雾随之腾起。

Text input: A woman paints a canvas on an easel, in a wood-paneled room. The woman is wearing a white shirt. She has a calm expression as she concentrates on her work. A baby bear cub stands at her feet. The lighting is cool.

文本输入：在一个木质的房间里，一个穿着白色衬衫的女人在画架上作画。她表情平静，专心于她的作品。一只小熊站在她的脚边。室内的光线是冷色调的。

Text input:Make a cute selfie video of a man and his dog. The man is wearing a black shirt. The dog is a beagle puppy. The background is a backyard patio, filled with trees. The man has a big smile on his face, as he tries to take the perfect selfie with his dog. The lighting is warm.

文本输入：制作一个可爱的自拍视频，视频中一名男子和他的小狗在一起。这名男子穿着黑色的衬衫，而狗是一只小比格犬。背景是一个树木环绕的后院露台。男子脸上带着灿烂的笑容，试图和他的狗狗一起拍出完美的自拍。光线温暖。

Text input: A man sits in the desert, wearing a wide-brimmed hat, a brown coat, and a scarf. The man holds a glass of amber-colored tea. The camera pans from the desert scenery to the person. The lighting is warm, with the sun casting a gentle glow on the scene.

文本输入：一个男人坐在沙漠中，戴着一顶宽边帽，身着棕色外套和围巾。男人手里拿着一杯琥珀色的茶。镜头从沙漠景色移到这个人身上。光线是温暖的，太阳为整个场景投射出柔和的光芒。

Text input: A woman DJ spins records on a rooftop in LA. She is wearing a pink jacket and giant headphones. There is a cheetah next to the woman. The background is a cityscape

文本输入：一名女性DJ在洛杉矶的一个屋顶上播放唱片。她穿着一件粉红色的夹克，戴着大耳机。旁边有一只猎豹。背景是城市风光。

PART 3

使用文本编辑视频

基于同样的基础模型，Movie Gen的编辑功能可以通过接受视频和文本提示来精确地执行用户需求。结合了视频生成与高级图像编辑的功能，支持局部编辑（如添加、删除或替换视频中的元素）和全局修改（如改变背景或整体风格），并且仅对视频中的相关内容进行改动，保证编辑精度。

此外，Movie Gen支持从整体风格和过渡效果到细节上的微调等。这意味着用户可以用文本命令来完成复杂的编辑工作，无论是改变视频的整体观感还是进行细微的局部调整。

左上：原始视频

右上：让贵宾犬穿上粉色带耳朵睡衣

左下：将背景改成一个修剪整齐的皇家花园，有喷泉和雕像

右下：将贵宾犬的颜色变成蓝色

左上：原始视频

右上：让他们戴上3D眼镜

左下：将背景改成嘉年华

右下：加上倾盆大雨

左上：原始视频

右上：让企鹅穿上维多利亚时代的服装

左下：添加沙滩伞和沙滩躺椅

右下：样式改为铅笔素描

左上：原始视频

右上：在他手上加上蓝色花球

左下：将背景转化成仙人掌沙漠

右下：将跑步服换成充气恐龙服装

左上：原始视频

右上：将VR头显换成双筒望远镜

左下：移除VR头显

右下：添加气泡和未来感效果

左上：原始视频

右上：在他手里加上烟花棒

左下：将背景改为户外体育场

右下：将天空改为北极光

PART 4

创建音频和配乐

Movie Gen训练了一个包含13亿参数的音频生成模型，可以根据视频内容以及可选的文本提示生成最高达45秒的高品质音频( 包括环境音效、拟音效果和背景音乐，并且这些音频可以与视频内容同步 )。

此外，Movie Gen还引入了一种新技术，可以为任何长度的视频生成连贯的音频或整段配乐。同时保证生成的音频不仅质量高，还能与视频内容保持同步，并且与提供的文本提示保持一致。

Text input: Rain pours against the cliff and the person, with music playing in the background.

文本输入：雨水倾泻在悬崖和人的身上，背景中播放着音乐。

Text input: Rustling leaves and snapping twigs, with an orchestral music track.

文本输入：沙沙作响的树叶，树枝断裂，伴有管弦乐音乐。

“碾压”世面所有AI？Meta推出Movie Gen,颠覆现有AI视频生成模式

正文

请到「今天看啥」查看全文