专栏名称: 顶尖架构师栈

分享业务架构、技术架构、系统设计方案，以及微服务架构源码，提供业务场景答疑

目录

相关文章推荐

爱可可-爱生活 · 【MCP（Model Context ... · 昨天

宝玉xp · 转发 X 网友 hahagood ... · 2 天前

黄建同学 · Sesame团队最近展示了一项有意思的技术， ... · 2 天前

量子位 · 米哈游蔡浩宇AI游戏曝光：大模型驱动数字人实 ... · 2 天前

宝玉xp · 普通 ... · 3 天前

51好读 › 专栏 › 顶尖架构师栈

Gemini 2.0 图像编辑，拜拜嘞PS!

顶尖架构师栈 · 公众号 · · 2025-03-13 23:57

正文

大家好，我是易安！

Google这两天动作不断。继昨天开源Gemma3后，今天又迎来了期待已久的重磅更新——Gemini 2.0的原生多模态生图功能终于解锁了！

作为我最期待的功能之一，体验后不得不说：这真的太强了。经过一下午的深度体验，今天就来分享一下这个功能的惊艳之处。

一句话改变图像，就是这么简单

首先，来直观感受一下它的魔力。假设我有一张自己喜欢的猫咪照片，但我想把它变成蓝色。无需打开PS，不用懂任何图像编辑技术，只需一句简单的话："把这只猫变成蓝色"，Gemini 2.0就能在保留所有细节的情况下完成这一转变。

还想让猫咪戴上一顶小帽子？一句话的事。

想让它从室内场景变到户外草地上？一句话搞定,haha有点表情包赶脚。

更多惊艳案例

比如这是一张普通的咖啡杯照片，我想把它变成骨瓷材质，再加上金边装饰。说完这句话，几秒钟后，我的普通咖啡杯就焕然一新。又或者，这是一份简单的手绘菜单草图。我只需说："请根据这张草图生成一份精美的咖啡店菜单"，Gemini立刻就能创建出一份精美的成品菜单，保留我的基本布局但大幅提升了质感。甚至可以实现文字修改。比如一张产品包装照片，想把上面的品牌名称改掉，一句指令就能完成。

技术原理简析

得益于Gemini 2.0强大的多模态能力，它实现了类似于GPT-4o的能力突破。如果说GPT-4o是语音端到端，那么Gemini 2.0则是图片端到端，将图像理解和生成无缝集成。

虽然生成的图片质量还达不到Midjourney或Flux的水平，泛化能力也有待提升，但作为一个内置于多模态模型中的功能，已经相当令人惊艳。这种"言出法随"的能力，在多模态大模型中尤为重要。

实际使用指南

想要亲自体验这一功能非常简单：

打开https://aistudio.google.com/（需要网络工具）

登录后在右侧将模型切换为"Gemini 2.0 Flash Experimental"

输出格式务必选择"Images and text"，否则无法生成图像

在对话框中上传图片，加上你想要的修改描述即可

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【MCP（Model Context Protocol）是一种新-20250316100324

昨天

宝玉xp · 转发 X 网友 hahagood 的观点：来源：x.com/ha-20250316010905

2 天前

黄建同学 · Sesame团队最近展示了一项有意思的技术，致力于解决对话式语音-20250315203853

2 天前

量子位 · 米哈游蔡浩宇AI游戏曝光：大模型驱动数字人实时互动，玩家自定义开放剧情，内测已开启！

2 天前

宝玉xp · 普通工程师才是打造优秀团队的关键一名软件工程师对所谓的“10倍-20250314124239

3 天前

健康 · 若要小儿安，常受三分饥与寒

8 年前

人民日报 · 停播韩剧与“萨德”有关？外交部这样回应

8 年前

文化有腔调 · 我刚死的时候，他们都怪我走得太匆忙丨读诗

8 年前

史事挖掘机 · 女沙皇之画杀死33人之谜

7 年前

最爱大北京 · 白衣服发黄千万别扔，只要用点这东西，比新的还白！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!