等了好久,谷歌终于开放了 Gemini 2.0 的
原生绘图
能力。
其实,Gemini 2.0 系列模型早在
2024 年 12 月
就
正式发布了,是谷歌首次支持原生多模态输出的版本(文本、图像、音频),但是当时并没有开放绘画能力。
昨天,谷歌正式放出了 Gemini 的
原生绘画能力,
目前大家可以直接在 Google AI Studio 免费体验。注意,这里是
原生
,由Gemini直接混合生成文字和图片(后文视频里能看到),而不是调用外部绘画模型。
大家体验一定是选Gemini 2.0 Flash Experimental这个实验版模型,输出设置成文本和图像混合输出。
我上手测了一天,基本全程 WOC,已献上我的膝盖。
GPT-4o是第一个主打原生多模态的模型,比如它的语音、视觉理解一放出来就当时就炸场了,但是它的绘画能力是通过调用外部的DALL·E来实现的。但是这次Gemini的绘图能力则是原生绘图,
兑现了我对 GPT-4o 具备原生绘画能力的幻想!而且,
Gemini绘图的
“一致性”太顶了。
什么颠覆设计圈、动嘴 P 图、设计师噩梦看多就腻了,请看效果——
第一个:给人物变形出多种动作
23 年好多搞 AIGC 创业的朋友中一致认为能赚到钱为数不多的场景之一——
「淘宝电商的批量生图」
当然也是在那个时间就已经被吐槽非常卷的赛道。
我随便输入一张模特图,让 AI 换一些不同的拍照姿势
人物、裙子完美和原始模特保持一致,完全看不出是 AI 生成的。
第二个:14 轮连续对话修图
整个对话的过程是这样的:
-
-
-
-
-
-
-
-
-
-
-
-
-
-
从最开始画一个箱子,到经历 14 轮连续对话,变成一个商场的珠宝展示箱。
全程我就用的最简单的话,告诉它我的需求,跟指挥一个设计师给我画图一样,整个过程非常丝滑连贯。
一点点地调整,只有中间一步是强调了两遍光线变暗,其他都是一次过。
第三个:一句话生成绘本,插画师的噩梦
问题很简单:
给我讲一个小黑猫大战外星人的故事, 3d cartoon animation style. For each scene, generate an image.
猫的形象全程一致,而且表情丰富,就是连配角外星人的形象都保持了前后一致。