专栏名称: 数字生命卡兹克
反复横跳于不同的AI领域,努力分享一些很酷的AI干货
目录
相关文章推荐
51好读  ›  专栏  ›  数字生命卡兹克

Gemini 2.0的“用嘴改图”终于上线了,这是AI绘图的新范式。

数字生命卡兹克  · 公众号  ·  · 2025-03-13 20:06

正文

Google这两天动作蛮多。
昨天刚开源Gemma3,然后今天夜里,鸽了N久的Gemini 2.0的原生多模态生图功能,也终于开放了。
这也是我对Gemini 2.0最期待的功能。
在出门回来,玩了一下午后,我觉得终于可以给你们分享一下,这玩意的有趣之处了。
先给你们直观的感受一下,它能干啥。
比如我现在有一张图,是一个很酷的小姐姐。
我想让这个小姐姐,变成长头发。
你无需PS,无需局部重绘,只需要一句话就行。
Gemini 2.0,就会瞬间保证所有的其他细节不变的情况下,把小姐姐变成长发。
我们还可以,一句话,让她把眼睛闭上。
再把她的脸,换成特朗普。。。
Generated Image March 13, 2025 - 7:30PM.png
这个效果,emmmm,我无法评价。。。
又或者,这是一套扑克牌的图。
我想把把最右边的红桃A扑克牌,变成梅花2。
一句话,就成。
不过这个得roll,我roll了3次才roll出来。
你也可以改文字。
甚至,可以扔一个草图进去,然后说:

请你根据这张手绘线稿图,生成对应的一张真实房屋渲染图。

对这个屋子材质不满意,你还可以,改成木质的。
这,就是言出法随的力量。、
得益于Gemini 2.0的多模态能力,类似于之前的GPT4o,GPT4o是语音端到端,而Gemini 2.0,则是图片端到端。
集图片理解和生成为一身。
而且,画出的图,审美也还凑合,虽然还远远达不到类似MJ、Flux那种质量,泛化能力也差点意思,但,能用了。
在多模态大模型上,能用的言出法随,是非常关键的一点。
说下怎么用。
打开 https://aistudio.google.com/
正常你登录后会看到这个界面(需要魔法)。
然后,在右侧把模型,切换成Gemini 2.0 Flash Experimental。
目前限免,可以随意白嫖。
同时记得output这块,一定是Images and text,千万别只选Text,那你就生成不了图了。
接下来,直接在对话框里,传你图片,加上文字描述就OK。






请到「今天看啥」查看全文


推荐文章
算法与数学之美  ·  三角学回顾
8 年前
慈怀读书会  ·  吸引异性的方式
8 年前
品牌几何  ·  IPG盟博擢升汤政彪为首席运营官
7 年前