专栏名称: 顶尖架构师栈
分享业务架构、技术架构、系统设计方案,以及微服务架构源码,提供业务场景答疑
目录
相关文章推荐
爱可可-爱生活  ·  【MCP(Model Context ... ·  昨天  
宝玉xp  ·  转发 X 网友 hahagood ... ·  2 天前  
黄建同学  ·  Sesame团队最近展示了一项有意思的技术, ... ·  2 天前  
宝玉xp  ·  普通 ... ·  3 天前  
51好读  ›  专栏  ›  顶尖架构师栈

Gemini 2.0 图像编辑,拜拜嘞PS!

顶尖架构师栈  · 公众号  ·  · 2025-03-13 23:57

正文

大家好,我是易安!

Google这两天动作不断。继昨天开源Gemma3后,今天又迎来了期待已久的重磅更新——Gemini 2.0的原生多模态生图功能终于解锁了!

作为我最期待的功能之一,体验后不得不说:这真的太强了。 经过一下午的深度体验,今天就来分享一下这个功能的惊艳之处。

一句话改变图像,就是这么简单

首先,来直观感受一下它的魔力。 假设我有一张自己喜欢的猫咪照片,但我想把它变成蓝色。无需打开PS,不用懂任何图像编辑技术,只需一句简单的话:"把这只猫变成蓝色",Gemini 2.0就能在保留所有细节的情况下完成这一转变。

还想让猫咪戴上一顶小帽子?一句话的事。

想让它从室内场景变到户外草地上?一句话搞定,haha有点表情包赶脚。

更多惊艳案例

比如这是一张普通的咖啡杯照片,我想把它变成骨瓷材质,再加上金边装饰。说完这句话,几秒钟后,我的普通咖啡杯就焕然一新。 又或者,这是一份简单的手绘菜单草图。我只需说:"请根据这张草图生成一份精美的咖啡店菜单",Gemini立刻就能创建出一份精美的成品菜单,保留我的基本布局但大幅提升了质感。 甚至可以实现文字修改。比如一张产品包装照片,想把上面的品牌名称改掉,一句指令就能完成。

技术原理简析

得益于Gemini 2.0强大的多模态能力,它实现了类似于GPT-4o的能力突破。如果说GPT-4o是语音端到端,那么Gemini 2.0则是图片端到端,将图像理解和生成无缝集成。

虽然生成的图片质量还达不到Midjourney或Flux的水平,泛化能力也有待提升,但作为一个内置于多模态模型中的功能,已经相当令人惊艳。这种"言出法随"的能力,在多模态大模型中尤为重要。

实际使用指南

想要亲自体验这一功能非常简单:

  1. 打开https://aistudio.google.com/(需要网络工具)
  1. 登录后在右侧将模型切换为"Gemini 2.0 Flash Experimental"
  1. 输出格式务必选择"Images and text",否则无法生成图像
  1. 在对话框中上传图片,加上你想要的修改描述即可






请到「今天看啥」查看全文