专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
量子位  ·  DeepSeek上线国家超算平台!671B满 ... ·  昨天  
黄建同学  ·  3D 动作捕捉发展挺快,MoCapade ... ·  昨天  
新智元  ·  突发!台积电断供14/16nm,1月底先进制 ... ·  2 天前  
爱可可-爱生活  ·  【[138星]Unlock-DeepSeek ... ·  3 天前  
宝玉xp  ·  回复@千里虽遥:你如果只是让 AI ... ·  3 天前  
51好读  ›  专栏  ›  宝玉xp

一句话提示词:如何让 AI 帮你解析视频今天看到 OpenAI -20250210135524

宝玉xp  · 微博  · AI  · 2025-02-10 13:55

正文

2025-02-10 13:55

一句话提示词:如何让 AI 帮你解析视频

今天看到 OpenAI 发的新广告视频 网页链接 ,虽然看着挺酷,但我一开始是没看太懂的,但又不好意思装懂,就发给 AI,让它帮我解析一下,先看看这解析的结果:

***

这个视频是 OpenAI 的新视频,名为 “What do you want to create next?”。

视频从一个简单的黑点开始,逐渐演变成由小圆点组成的像素化图像。这些图像以黑白两色呈现,展示了各种不同的事物:

视频中出现的图像包括:
- 圆点逐渐增加,从一个点变成四个点,然后变成更多点组成的正方形。
- 由圆点组成的像素人像,展示了举重、跑步等动作。
- 进一步展示了由圆点构成的城市天际线、汽车、骑马的人、树叶、山脉等更复杂的图像。
- 画面利用圆点呈现出 3D 透视效果。
- 黑底白点的负片人脸图像。
- 由圆点构成的骷髅骨架。
- 抽象的形状,DNA 双螺旋结构,以及弯曲的表面。
- 两个像素小人相遇的场景。
- 一个人坐在桌子前使用电脑的画面。
- 地球和电脑被线条连接起来的图像,象征互联网连接。
- 电路板的图像。
- 声音波形图标。

视频的末尾,画面由白色背景转为黑色背景,并显示了白色文字 “All progress has a starting point.” (所有进步都有一个起点)。最终,视频展示了 OpenAI 的标志和 ChatGPT 的标志。

在音频方面,背景音乐贯穿始终,视频中穿插了一些语音片段,包括:
- “We are live on TV mom.” (妈妈,我们在电视直播!)
- “That's one small step for a man.” (这是个人的一小步)
- “What do you want to create next?” (你接下来想创造什么?)

总的来说,这个视频通过 “圆点” 这一简单的元素,展示了从无到有,从简单到复杂的创作过程。视频寓意着 OpenAI 和 ChatGPT 等强大工具,都是从最基本的元素开始构建,并鼓励用户利用这些工具去创造 “接下来” 的无限可能。视频结尾的提问 “What do you want to create next?”,是对所有用户发出邀请,激发大家利用 OpenAI 的技术进行创新和创作。

***

那么如何借助 AI 解析视频?

用 AI 解析视频,这个难点不在于写提示词,而是在于选合适的模型,普通的语言模型只支持文本,多模态模型通常只支持文本和图片,真正能理解视频并且做的比较好的还得是 Google 的 Gemini,GPT-4o 号称是支持视频,但是通过 ChatGPT 并不能直接解析视频内容,Claude 3.5 Sonnet 只支持文本和图像。

但 Gemini 能直接利用自身的多模态能力理解视频。比如上面的内容就是 Gemini 解析的结果,提示词只有一句话:

> 请解读一下 OpenAI 的新视频 What do you want to create next?

不过 Gemini 的问题是访问不容易,要么用官方 Gemini 的 App,要么用 Google 的 AIStudio, Google AIStudio 是免费的,通过网址 aistudio .google. com 就能访问,不过对访问的 IP 有限制,国内无法直接访问。

如果你能访问 AIStudio 的话,可以从左侧选择 “Create Prompt”,然后上传视频,输入提示词,在右边选择模型“Gemini 2.0 Flash Thinking Experimental 01-21”,点击“Run”按钮就可以开始生成。

我测试了一下,虽然 Gemini 2.0 Pro/Gemini 2.0 Flash 都可以理解视频,但还是 “Gemini 2.0 Flash Thinking” 的效果最好,毕竟这是类似于 DeepSeek R1 一样的推理模型。

如果你对多模态的原理有兴趣或者想寻找其他开源替代,建议看看《Multimodal Large Language Models (MLLMs) transforming Computer Vision》这篇文章:






请到「今天看啥」查看全文