一句话提示词：如何让 AI 帮你解析视频今天看到 OpenAI -20250210135524_宝玉xp的专栏文章_微信文章

一句话提示词：如何让 AI 帮你解析视频

今天看到 OpenAI 发的新广告视频

网页链接，虽然看着挺酷，但我一开始是没看太懂的，但又不好意思装懂，就发给 AI，让它帮我解析一下，先看看这解析的结果：

***

这个视频是 OpenAI 的新视频，名为 “What do you want to create next?”。

视频从一个简单的黑点开始，逐渐演变成由小圆点组成的像素化图像。这些图像以黑白两色呈现，展示了各种不同的事物：

视频中出现的图像包括：
- 圆点逐渐增加，从一个点变成四个点，然后变成更多点组成的正方形。
- 由圆点组成的像素人像，展示了举重、跑步等动作。
- 进一步展示了由圆点构成的城市天际线、汽车、骑马的人、树叶、山脉等更复杂的图像。
- 画面利用圆点呈现出 3D 透视效果。
- 黑底白点的负片人脸图像。
- 由圆点构成的骷髅骨架。
- 抽象的形状，DNA 双螺旋结构，以及弯曲的表面。
- 两个像素小人相遇的场景。
- 一个人坐在桌子前使用电脑的画面。
- 地球和电脑被线条连接起来的图像，象征互联网连接。
- 电路板的图像。
- 声音波形图标。

视频的末尾，画面由白色背景转为黑色背景，并显示了白色文字 “All progress has a starting point.” (所有进步都有一个起点)。最终，视频展示了 OpenAI 的标志和 ChatGPT 的标志。

在音频方面，背景音乐贯穿始终，视频中穿插了一些语音片段，包括：
- “We are live on TV mom.” (妈妈，我们在电视直播!)
- “That's one small step for a man.” (这是个人的一小步)
- “What do you want to create next?” (你接下来想创造什么？)

总的来说，这个视频通过 “圆点” 这一简单的元素，展示了从无到有，从简单到复杂的创作过程。视频寓意着 OpenAI 和 ChatGPT 等强大工具，都是从最基本的元素开始构建，并鼓励用户利用这些工具去创造 “接下来” 的无限可能。视频结尾的提问 “What do you want to create next?”，是对所有用户发出邀请，激发大家利用 OpenAI 的技术进行创新和创作。

***

那么如何借助 AI 解析视频？

用 AI 解析视频，这个难点不在于写提示词，而是在于选合适的模型，普通的语言模型只支持文本，多模态模型通常只支持文本和图片，真正能理解视频并且做的比较好的还得是 Google 的 Gemini，GPT-4o 号称是支持视频，但是通过 ChatGPT 并不能直接解析视频内容，Claude 3.5 Sonnet 只支持文本和图像。

但 Gemini 能直接利用自身的多模态能力理解视频。比如上面的内容就是 Gemini 解析的结果，提示词只有一句话：

> 请解读一下 OpenAI 的新视频 What do you want to create next?

不过 Gemini 的问题是访问不容易，要么用官方 Gemini 的 App，要么用 Google 的 AIStudio， Google AIStudio 是免费的，通过网址 aistudio .google. com 就能访问，不过对访问的 IP 有限制，国内无法直接访问。

如果你能访问 AIStudio 的话，可以从左侧选择 “Create Prompt”，然后上传视频，输入提示词，在右边选择模型“Gemini 2.0 Flash Thinking Experimental 01-21”，点击“Run”按钮就可以开始生成。

我测试了一下，虽然 Gemini 2.0 Pro/Gemini 2.0 Flash 都可以理解视频，但还是 “Gemini 2.0 Flash Thinking” 的效果最好，毕竟这是类似于 DeepSeek R1 一样的推理模型。

如果你对多模态的原理有兴趣或者想寻找其他开源替代，建议看看《Multimodal Large Language Models (MLLMs) transforming Computer Vision》这篇文章：

一句话提示词：如何让 AI 帮你解析视频今天看到 OpenAI -20250210135524

正文

2025-02-10 13:55
本条微博链接

请到「今天看啥」查看全文