主要观点总结
本文主要介绍了Pika 2.0模型在AI视频生成方面的应用,包括上传多张图片生成视频、场景元素参考等功能。同时,文章也提到了其他AI视频模型如Google Veo、OpenAI Sora以及Vidu的表现,并强调了AI视频生成中保持主体一致性的重要性。文章还讨论了Pika模型的特点和优势,以及它在整活和创意方面的表现。
关键观点总结
关键观点1: Pika 2.0模型能够实现上传多张图片生成视频的功能。
通过使用Pika的「Scene Ingredients」功能,用户可以上传多张图片,让Pika参考这些元素生成视频。这个功能让广告制作更加灵活,能够根据需求生成具有一致性的广告视频。
关键观点2: AI视频生成中保持主体一致性是个难题。
虽然Pika 2.0模型在场景、服装、物品上的一致性表现较好,但在人物脸部表现上还有待提高。此外,模型的基础能力也有待进步,在物体运动方面会出现问题。
关键观点3: Pika模型在整活和创意方面表现出色。
通过照片+AI图片+Pika 2.0+提示词的方式,可以生成很多好玩的画面。Pika模型在整活短视频方面具有较高需求,能够吸引大量用户。
正文
AI 视频的多主体一致性,向来是个难题。让 AI 凭空生成模特和衣服不难,但如果甲方要求,必须要让马斯克代言,穿上毛绒大衣,AI 可能就办不到了。Pika 最近更新的 2.0 模型,提出了一种很有趣的解决方式——我们上传多张图片,Pika 会精准参考图片中的元素,生成视频。集齐人物、商品、场景的照片,一个非常基础的广告片就出炉了,而且这些素材在视频里长得都和照片里一样。这是否意味着,AI 视频的一致性难题解决了,广告行业的朋友们又要焦虑了?其实并没有,经过实测,Pika 的可玩性很高,但论实用,道行还不够。关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
马斯克和奥特曼看电影,名画吃薯条,同框从未如此简单Pika 上传多张参考图片的功能,叫作「Scene Ingredients」(场景成分)。使用起来很简单:1.点击「+」上传图片,上限 6 张;2.在文本框里,写上简单的提示词。接下来就进入实操——让闹得水深火热的马斯克和奥特曼,化干戈为玉帛,在一起看电影。提示词:两个人坐在漆黑的观众席中。他们手捧一桶爆米花,一把放到嘴里嚼着,全神贯注地看着眼前的场景。他们睁大眼睛的表情传达出热切的期待或着迷,仿佛他们完全沉浸在正在展开的戏剧或场景中。周围的环境表明人群拥挤,但焦点仍然集中在他们的反应上对于马斯克,AI 的发挥很稳定。但奥特曼看起来是地主家的傻儿子,吃相恐怖就不说了,眼睛大得要掉出来。所以,我们可以让马斯克和奥特曼过把模特瘾。只上传一张服装图片,然后通过提示词,让他们穿着一样的绿色大衣,拍个时尚大片。提示词:两名男子在壮丽的冬日风景中站在一起自拍。两人都穿着相同的绿色长外套。全身照,从头到脚展现他们。他们摆出专业模特般的姿势,脸上挂着自信的微笑。电影灯光突出了他们的脸庞和外套的奢华质感。高端时尚摄影风格,专业相机品质,时尚杂志美学两人的照片都找了现成的,绿色的大衣和冰天雪地的背景是另外用 AI 生成的,衣服上的「AIGC」,算是考验 Pika 的附加题。结果,场景和大衣的一致性保持得不错,「AIGC」的字样依稀可以辨认,两位模特的动作也遵循了提示词。但最大的问题是,这两人是谁?视频的人脸和照片,不能说一模一样,可以说是毫不相干。这次,我们请出扎克伯格,照例先用 AI 图片工具生成衣服,上面写着「I was human」(我曾是人类),呼应经典的机器人梗。然后,再找一张扎克伯格的图片,和一把尤克里里的图片,让小扎玩个音乐。提示词:一位身穿黑色 T 恤的男子站在温馨的房间里,弹奏着尤克里里琴。镜头从中远景开始,展现他的整个身体,逐渐拉近,最后聚焦在 T 恤上的字迹上Pika 对提示词的遵循和镜头的运动都挺好,衣服也丝滑地穿上了,但右手,尤其大拇指,还是不完美。相较 Google Veo、OpenAI Sora 等,Pika 的模型能力不算顶尖,一个问题解决了,还有更多的 bug 被发现。尝试了写实的,再来试试二次元画风,为了让坂田银时和漩涡鸣人同框,我特意挑选了两张背景都是蓝天白云的图片。提示词:动漫风格的场景,镜头聚焦在两个年轻男子的脸上,背景是蔚蓝的天空和白云。他们一边聊天一边眼神交流,保留了原有的动漫艺术风格背景融合得很自然,两位正面的表情发挥不错,吹动头发和衣服的风也恰到好处。然而,转身实在太可怕了。银时是死鱼眼,不是真的翻白眼啊喂。次元壁都打破了,当然也可以让名画跨年代互动——蒙娜丽莎和戴珍珠耳环的少女在麦当劳餐厅吃薯条。提示词:蒙娜丽莎和戴珍珠耳环的少女正在麦当劳餐厅用餐。她们相对而坐,桌上摆着薯条。她们边聊天边品尝薯条,摄像机从侧面捕捉她们,两位角色偶尔看向镜头,营造出一种随意而友好的氛围效果一言难尽,看到蒙娜丽莎,不知道达芬奇想不想掀棺材板。两位好像贴图一样,被放在了视频里,头部也运动得非常诡异。提示词:特写镜头,池塘表面出现气泡,然后咖啡杯从水中浮出上传一张星巴克的图片,一幅莫奈的睡莲,就可以得到一个「清水出芙蓉」的咖啡杯。一定程度上,Pika 提高了视频的可控性。话不说满,因为从实践看来,Pika 在场景、服装、物品上的一致性保持地较好,人物的脸容易崩,不管是什么次元。同时,模型的基础能力,Pika 也有待进步,吃东西、弹琴等物体运动,仍然会出现问题。这些问题,能不能通过抽卡缓解呢?Pika 2.0 目前仅对 Pro 和 Fancy 用户开放,如果按月订阅,每月至少花 35 美元,连免费试用的额度都没有。而且,Pro 用户每月只有 2000 积分,但使用 Scene Ingredients 功能,一个视频就要花掉 100 积分。其实,国产 AI 视频模型 Vidu,比 Pika 更早地实现了「多图参考」的功能。更拿捏用户的是,它有免费体验的积分。Pika 的几个案例,我也在 Vidu 跑了一下。蒙娜丽莎和戴珍珠耳环的少女吃薯条,两位像刚出土,但蒙娜丽莎的还原度比 Pika 高。马斯克和奥特曼一起看电影,马斯克的脸像了七八成,奥特曼的脸依旧灾难。坂田银时和漩涡鸣人同框,Vidu 居然能基于正脸生成侧脸,但画风和原图不太一样。另外,在功能上,Vidu 有一点不如 Pika——最多只能上传三张图片。所以,让 Vidu 给马斯克和奥特曼拍时尚大片,我就没有上传背景,只上传了两位的照片和绿色的大衣。两位给人的感觉很陌生。可以看出,人脸的稳定性,仍然是个难题。和 Pika 相比,Vidu 效果如何,可以见仁见智。Pika 用的是 Pro 版,Vidu 用的是免费版,客观上也会导致两者的差异。但 Pika 和 Vidu 的思路是相似的——仅靠几个图片素材、一段简单的提示词,就生成相对稳定的物体。在 AI 视频生成中,保持主体一致性,目前相对可靠的是 LoRA 方案,用一定数量的、特定主体的素材,对模型进行微调。通过适量的素材和训练,模型能逐渐掌握这个角色的样貌特征。但为了让 AI 视频被更多人用起来,有更广阔的商业价值,门槛就要降低。至少,从 Vidu 和 Pika 身上,我们看到了可能性。Pika 的 2.0 模型发了没几天,海外网友已经玩疯了。拿自己的照片,反复生成不同场景的视频,就可以实现「瞬息全宇宙」。通过 AI 一键试衣,模特和衣服如流水,场景都不带换的,实拍的钱省下来了。玩着玩着,Pika 给了我一种玩「QQ 秀」和模拟人生的感觉,怎么打扮视频里的角色,我们来决定。如果让马斯克「圆梦」,很容易,先用其他 AI 工具,生成了一件「占领火星」的 T 恤、一个写着「MAGA」的红色帽子。