专栏名称: APPSO

让智能手机更好用的秘密。

目录

相关文章推荐

APPSO · DeepSeek 被误读的 5 ... · 22 小时前

小众软件 · 另外两件事[250204] · 昨天

APPSO · 奥特曼首次承认 DeepSeek 削弱 ... · 3 天前

小众软件 · 这些值得一看的软件｜但不一定有用[250201] · 4 天前

APPSO · DeepSeek ... · 5 天前

51好读 › 专栏 › APPSO

火遍小红书的 AI 视频神器，这次整出的新活又让我停不下来

APPSO · 公众号 · app · 2024-12-18 11:59

主要观点总结

本文主要介绍了Pika 2.0模型在AI视频生成方面的应用，包括上传多张图片生成视频、场景元素参考等功能。同时，文章也提到了其他AI视频模型如Google Veo、OpenAI Sora以及Vidu的表现，并强调了AI视频生成中保持主体一致性的重要性。文章还讨论了Pika模型的特点和优势，以及它在整活和创意方面的表现。

关键观点总结

关键观点1: Pika 2.0模型能够实现上传多张图片生成视频的功能。

通过使用Pika的「Scene Ingredients」功能，用户可以上传多张图片，让Pika参考这些元素生成视频。这个功能让广告制作更加灵活，能够根据需求生成具有一致性的广告视频。

关键观点2: AI视频生成中保持主体一致性是个难题。

虽然Pika 2.0模型在场景、服装、物品上的一致性表现较好，但在人物脸部表现上还有待提高。此外，模型的基础能力也有待进步，在物体运动方面会出现问题。

关键观点3: Pika模型在整活和创意方面表现出色。

通过照片+AI图片+Pika 2.0+提示词的方式，可以生成很多好玩的画面。Pika模型在整活短视频方面具有较高需求，能够吸引大量用户。

正文

AI 视频的多主体一致性，向来是个难题。让 AI 凭空生成模特和衣服不难，但如果甲方要求，必须要让马斯克代言，穿上毛绒大衣，AI 可能就办不到了。

Pika 最近更新的 2.0 模型，提出了一种很有趣的解决方式——我们上传多张图片，Pika 会精准参考图片中的元素，生成视频。

集齐人物、商品、场景的照片，一个非常基础的广告片就出炉了，而且这些素材在视频里长得都和照片里一样。

这是否意味着，AI 视频的一致性难题解决了，广告行业的朋友们又要焦虑了？其实并没有，经过实测，Pika 的可玩性很高，但论实用，道行还不够。

关注 AI 第一新媒体，率先获取 AI 前沿资讯和洞察

马斯克和奥特曼看电影，名画吃薯条，同框从未如此简单

Pika 上传多张参考图片的功能，叫作「Scene Ingredients」（场景成分）。

使用起来很简单：1.点击「+」上传图片，上限 6 张；2.在文本框里，写上简单的提示词。

接下来就进入实操——让闹得水深火热的马斯克和奥特曼，化干戈为玉帛，在一起看电影。

提示词：两个人坐在漆黑的观众席中。他们手捧一桶爆米花，一把放到嘴里嚼着，全神贯注地看着眼前的场景。他们睁大眼睛的表情传达出热切的期待或着迷，仿佛他们完全沉浸在正在展开的戏剧或场景中。周围的环境表明人群拥挤，但焦点仍然集中在他们的反应上

上传两位的照片就够了，观众席可以用提示词写出来。

对于马斯克，AI 的发挥很稳定。但奥特曼看起来是地主家的傻儿子，吃相恐怖就不说了，眼睛大得要掉出来。

Pika 很有趣的一点是，素材可以「复用」。

所以，我们可以让马斯克和奥特曼过把模特瘾。只上传一张服装图片，然后通过提示词，让他们穿着一样的绿色大衣，拍个时尚大片。

提示词：两名男子在壮丽的冬日风景中站在一起自拍。两人都穿着相同的绿色长外套。全身照，从头到脚展现他们。他们摆出专业模特般的姿势，脸上挂着自信的微笑。电影灯光突出了他们的脸庞和外套的奢华质感。高端时尚摄影风格，专业相机品质，时尚杂志美学

两人的照片都找了现成的，绿色的大衣和冰天雪地的背景是另外用 AI 生成的，衣服上的「AIGC」，算是考验 Pika 的附加题。

结果，场景和大衣的一致性保持得不错，「AIGC」的字样依稀可以辨认，两位模特的动作也遵循了提示词。

但最大的问题是，这两人是谁？视频的人脸和照片，不能说一模一样，可以说是毫不相干。

不信邪，继续让 Pika 玩换装。

这次，我们请出扎克伯格，照例先用 AI 图片工具生成衣服，上面写着「I was human」（我曾是人类），呼应经典的机器人梗。

然后，再找一张扎克伯格的图片，和一把尤克里里的图片，让小扎玩个音乐。

提示词：一位身穿黑色 T 恤的男子站在温馨的房间里，弹奏着尤克里里琴。镜头从中远景开始，展现他的整个身体，逐渐拉近，最后聚焦在 T 恤上的字迹上

Pika 对提示词的遵循和镜头的运动都挺好，衣服也丝滑地穿上了，但右手，尤其大拇指，还是不完美。

相较 Google Veo、OpenAI Sora 等，Pika 的模型能力不算顶尖，一个问题解决了，还有更多的 bug 被发现。

尝试了写实的，再来试试二次元画风，为了让坂田银时和漩涡鸣人同框，我特意挑选了两张背景都是蓝天白云的图片。

提示词：动漫风格的场景，镜头聚焦在两个年轻男子的脸上，背景是蔚蓝的天空和白云。他们一边聊天一边眼神交流，保留了原有的动漫艺术风格

背景融合得很自然，两位正面的表情发挥不错，吹动头发和衣服的风也恰到好处。然而，转身实在太可怕了。银时是死鱼眼，不是真的翻白眼啊喂。

次元壁都打破了，当然也可以让名画跨年代互动——蒙娜丽莎和戴珍珠耳环的少女在麦当劳餐厅吃薯条。

提示词：蒙娜丽莎和戴珍珠耳环的少女正在麦当劳餐厅用餐。她们相对而坐，桌上摆着薯条。她们边聊天边品尝薯条，摄像机从侧面捕捉她们，两位角色偶尔看向镜头，营造出一种随意而友好的氛围

效果一言难尽，看到蒙娜丽莎，不知道达芬奇想不想掀棺材板。两位好像贴图一样，被放在了视频里，头部也运动得非常诡异。

有时候，回归简单，道法自然，结果反而超出预期。

提示词：特写镜头，池塘表面出现气泡，然后咖啡杯从水中浮出

上传一张星巴克的图片，一幅莫奈的睡莲，就可以得到一个「清水出芙蓉」的咖啡杯。

PK 国产模型，控制 AI 视频的门槛更低了

一定程度上，Pika 提高了视频的可控性。话不说满，因为从实践看来，Pika 在场景、服装、物品上的一致性保持地较好，人物的脸容易崩，不管是什么次元。

同时，模型的基础能力，Pika 也有待进步，吃东西、弹琴等物体运动，仍然会出现问题。这些问题，能不能通过抽卡缓解呢？

三个字：抽不起。

Pika 2.0 目前仅对 Pro 和 Fancy 用户开放，如果按月订阅，每月至少花 35 美元，连免费试用的额度都没有。

而且，Pro 用户每月只有 2000 积分，但使用 Scene Ingredients 功能，一个视频就要花掉 100 积分。

vidu 界面

其实，国产 AI 视频模型 Vidu，比 Pika 更早地实现了「多图参考」的功能。更拿捏用户的是，它有免费体验的积分。

Pika 的几个案例，我也在 Vidu 跑了一下。蒙娜丽莎和戴珍珠耳环的少女吃薯条，两位像刚出土，但蒙娜丽莎的还原度比 Pika 高。

马斯克和奥特曼一起看电影，马斯克的脸像了七八成，奥特曼的脸依旧灾难。

坂田银时和漩涡鸣人同框，Vidu 居然能基于正脸生成侧脸，但画风和原图不太一样。

另外，在功能上，Vidu 有一点不如 Pika——最多只能上传三张图片。所以，让 Vidu 给马斯克和奥特曼拍时尚大片，我就没有上传背景，只上传了两位的照片和绿色的大衣。

两位给人的感觉很陌生。可以看出，人脸的稳定性，仍然是个难题。

和 Pika 相比，Vidu 效果如何，可以见仁见智。Pika 用的是 Pro 版，Vidu 用的是免费版，客观上也会导致两者的差异。

但 Pika 和 Vidu 的思路是相似的——仅靠几个图片素材、一段简单的提示词，就生成相对稳定的物体。

在 AI 视频生成中，保持主体一致性，目前相对可靠的是 LoRA 方案，用一定数量的、特定主体的素材，对模型进行微调。通过适量的素材和训练，模型能逐渐掌握这个角色的样貌特征。

但为了让 AI 视频被更多人用起来，有更广阔的商业价值，门槛就要降低。至少，从 Vidu 和 Pika 身上，我们看到了可能性。

靠 AI 短视频出圈，在整活的道路上一去不复返

Pika 的 2.0 模型发了没几天，海外网友已经玩疯了。

拿自己的照片，反复生成不同场景的视频，就可以实现「瞬息全宇宙」。

图片来自：X@EladRichardson

通过 AI 一键试衣，模特和衣服如流水，场景都不带换的，实拍的钱省下来了。

图片来自：X@martgent

玩着玩着，Pika 给了我一种玩「QQ 秀」和模拟人生的感觉，怎么打扮视频里的角色，我们来决定。

如果让马斯克「圆梦」，很容易，先用其他 AI 工具，生成了一件「占领火星」的 T 恤、一个写着「MAGA」的红色帽子。

请到「今天看啥」查看全文

推荐文章

APPSO · DeepSeek 被误读的 5 个真相，AI 大佬亲自揭秘

22 小时前

小众软件 · 另外两件事[250204]

昨天

APPSO · 奥特曼首次承认 DeepSeek 削弱 OpenAI 优势：我们可能站在了历史错误的一边

3 天前

小众软件 · 这些值得一看的软件｜但不一定有用[250201]

4 天前

APPSO · DeepSeek 五大隐藏使用技巧！忘掉提示词那套，AI 最反人类的设定终于被消灭了

5 天前

英国那些事儿 · 攀登珠峰却碰上偷氧气瓶的毛贼…路途艰难不可怕，人心险恶更要命…

7 年前

宇宙解码 · 马里亚纳海沟现诡异声音，世上从来没有这种声音出现过

7 年前

夕小瑶的卖萌屋 · 有时候，也想过回到过去

7 年前

朱莉生活日记 · 原来剥栗子只要3秒钟，这么多年来都做错了！

7 年前

亿翰智库 · 政策关上门后，房企出逃的N种方法

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!