Gemini 2.0 原生绘画能力惊艳我了，兑现了我对 GPT-4o 曾经的幻想！

Dots机构投资者社区 · 公众号 · · 2025-03-15 08:15

正文

等了好久，谷歌终于开放了 Gemini 2.0 的 原生绘图 能力。

其实，Gemini 2.0 系列模型早在 2024 年 12 月就 正式发布了，是谷歌首次支持原生多模态输出的版本（文本、图像、音频），但是当时并没有开放绘画能力。

昨天，谷歌正式放出了 Gemini 的 原生绘画能力， 目前大家可以直接在 Google AI Studio 免费体验。注意，这里是原生，由Gemini直接混合生成文字和图片（后文视频里能看到），而不是调用外部绘画模型。

大家体验一定是选Gemini 2.0 Flash Experimental这个实验版模型，输出设置成文本和图像混合输出。

我上手测了一天，基本全程 WOC，已献上我的膝盖。

GPT-4o是第一个主打原生多模态的模型，比如它的语音、视觉理解一放出来就当时就炸场了，但是它的绘画能力是通过调用外部的DALL·E来实现的。但是这次Gemini的绘图能力则是原生绘图，兑现了我对 GPT-4o 具备原生绘画能力的幻想！而且， Gemini绘图的 “一致性”太顶了。

什么颠覆设计圈、动嘴 P 图、设计师噩梦看多就腻了，请看效果——

23 年好多搞 AIGC 创业的朋友中一致认为能赚到钱为数不多的场景之一——

「淘宝电商的批量生图」

当然也是在那个时间就已经被吐槽非常卷的赛道。

我随便输入一张模特图，让 AI 换一些不同的拍照姿势

人物、裙子完美和原始模特保持一致，完全看不出是 AI 生成的。

整个对话的过程是这样的：

从最开始画一个箱子，到经历 14 轮连续对话，变成一个商场的珠宝展示箱。

全程我就用的最简单的话，告诉它我的需求，跟指挥一个设计师给我画图一样，整个过程非常丝滑连贯。

一点点地调整，只有中间一步是强调了两遍光线变暗，其他都是一次过。

问题很简单：

给我讲一个小黑猫大战外星人的故事, 3d cartoon animation style. For each scene, generate an image.

猫的形象全程一致，而且表情丰富，就是连配角外星人的形象都保持了前后一致。