专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
51好读  ›  专栏  ›  Dots机构投资者社区

Gemini 2.0 原生绘画能力惊艳我了,兑现了我对 GPT-4o 曾经的幻想!

Dots机构投资者社区  · 公众号  ·  · 2025-03-15 08:15

正文

等了好久,谷歌终于开放了 Gemini 2.0 的 原生绘图 能力。

其实,Gemini 2.0 系列模型早在 2024 年 12 月 正式发布了,是谷歌首次支持原生多模态输出的版本(文本、图像、音频),但是当时并没有开放绘画能力。

昨天,谷歌正式放出了 Gemini 的 原生绘画能力, 目前大家可以直接在 Google AI Studio 免费体验。注意,这里是 原生 ,由Gemini直接混合生成文字和图片(后文视频里能看到),而不是调用外部绘画模型。

大家体验一定是选Gemini 2.0 Flash Experimental这个实验版模型,输出设置成文本和图像混合输出。

我上手测了一天,基本全程 WOC,已献上我的膝盖。

GPT-4o是第一个主打原生多模态的模型,比如它的语音、视觉理解一放出来就当时就炸场了,但是它的绘画能力是通过调用外部的DALL·E来实现的。但是这次Gemini的绘图能力则是原生绘图, 兑现了我对 GPT-4o 具备原生绘画能力的幻想!而且, Gemini绘图的 “一致性”太顶了。

什么颠覆设计圈、动嘴 P 图、设计师噩梦看多就腻了,请看效果——

第一个:给人物变形出多种动作

23 年好多搞 AIGC 创业的朋友中一致认为能赚到钱为数不多的场景之一——

「淘宝电商的批量生图」

当然也是在那个时间就已经被吐槽非常卷的赛道。

我随便输入一张模特图,让 AI 换一些不同的拍照姿势

人物、裙子完美和原始模特保持一致,完全看不出是 AI 生成的。

第二个:14 轮连续对话修图

整个对话的过程是这样的:

  1. draw a box(画一个箱子)
  2. make it silver(变成银色的)
  3. Realistic(真实点)
  4. 最上面变成玻璃
  5. 玻璃下面,柜子上面放上珠宝
  6. 柜子变成高级的展示柜
  7. 变成真实材质的渲染图
  8. 柜体变成实木的
  9. 里面添加珠宝,光线明亮一些
  10. 添加背景环境和地板
  11. 珠宝区太亮了,稍微暗一点,环境奢华一些
  12. 暗一些
  13. 管线调整暗一些
  14. 过于暗了,正常的商场环境就行

从最开始画一个箱子,到经历 14 轮连续对话,变成一个商场的珠宝展示箱。

全程我就用的最简单的话,告诉它我的需求,跟指挥一个设计师给我画图一样,整个过程非常丝滑连贯。

一点点地调整,只有中间一步是强调了两遍光线变暗,其他都是一次过。

第三个:一句话生成绘本,插画师的噩梦

问题很简单:

给我讲一个小黑猫大战外星人的故事, 3d cartoon animation style. For each scene, generate an image.

猫的形象全程一致,而且表情丰富,就是连配角外星人的形象都保持了前后一致。







请到「今天看啥」查看全文