专栏名称: 大数据文摘

普及数据思维，传播数据文化

目录

相关文章推荐

数据派THU · 【博士论文】利用图结构加速稀疏计算 · 昨天

大数据分析和人工智能 · DeepSeek太可怕了！ · 5 天前

数据派THU · 用PyTorch从零构建 DeepSeek ... · 5 天前

数据派THU · SmolLM2：多阶段训练策略优化和高质量数 ... · 4 天前

数据派THU · 【牛津博士论文】考虑计算成本的可扩展持续深度学习 · 4 天前

51好读 › 专栏 › 大数据文摘

Gemini 2.0的“用嘴改图”终于上线了，这是AI绘图的新范式。

大数据文摘 · 公众号 · 大数据 · 2025-03-14 18:30

正文

大数据文摘受权转载自数字生命卡兹克

作者：卡兹克

Google这两天动作蛮多。

昨天刚开源Gemma3，然后今天夜里，鸽了N久的Gemini 2.0的原生多模态生图功能，也终于开放了。

这也是我对Gemini 2.0最期待的功能。

在出门回来，玩了一下午后，我觉得终于可以给你们分享一下，这玩意的有趣之处了。

先给你们直观的感受一下，它能干啥。

比如我现在有一张图，是一个很酷的小姐姐。

我想让这个小姐姐，变成长头发。

你无需PS，无需局部重绘，只需要一句话就行。

Gemini 2.0，就会瞬间保证所有的其他细节不变的情况下，把小姐姐变成长发。

我们还可以，一句话，让她把眼睛闭上。

再把她的脸，换成特朗普。。。

Generated Image March 13, 2025 - 7:30PM.png

这个效果，emmmm，我无法评价。。。

又或者，这是一套扑克牌的图。

我想把把最右边的红桃A扑克牌，变成梅花2。

一句话，就成。

不过这个得roll，我roll了3次才roll出来。

你也可以改文字。

甚至，可以扔一个草图进去，然后说：

请你根据这张手绘线稿图，生成对应的一张真实房屋渲染图。

对这个屋子材质不满意，你还可以，改成木质的。

这，就是言出法随的力量。、

得益于Gemini 2.0的多模态能力，类似于之前的GPT4o，GPT4o是语音端到端，而Gemini 2.0，则是图片端到端。

集图片理解和生成为一身。

而且，画出的图，审美也还凑合，虽然还远远达不到类似MJ、Flux那种质量，泛化能力也差点意思，但，能用了。

在多模态大模型上，能用的言出法随，是非常关键的一点。

说下怎么用。

打开https://aistudio.google.com/

正常你登录后会看到这个界面（需要魔法）。

然后，在右侧把模型，切换成Gemini 2.0 Flash Experimental。

目前限免，可以随意白嫖。

同时记得output这块，一定是Images and text，千万别只选Text，那你就生成不了图了。

接下来，直接在对话框里，传你图片，加上文字描述就OK。

比如我把我的头像，变成3D实物。

而且你不止可以传一张图，你也可以，传两张图，然后，融图。

虽然它换logo换的还有点贴片感，比较这个太难了，但是产品图，就会好很多了。

比如1和2结合。

光影还是有一些不匹配，有一些贴图感，但不妨碍很准确。

再给半年时间迭代，我觉得，一切都不是问题。

请到「今天看啥」查看全文

推荐文章

数据派THU · 【博士论文】利用图结构加速稀疏计算

昨天

大数据分析和人工智能 · DeepSeek太可怕了！

5 天前

数据派THU · 用PyTorch从零构建 DeepSeek R1：模型架构和分步训练详解

5 天前

数据派THU · SmolLM2：多阶段训练策略优化和高质量数据集，小型语言模型同样可以实现卓越的性能表现

4 天前

数据派THU · 【牛津博士论文】考虑计算成本的可扩展持续深度学习

4 天前

雷峰网 · 本周锋评：日本程序员是不是都神似堺雅人？

8 年前

雷峰网 · 本周锋评：日本程序员是不是都神似堺雅人？

8 年前

知音 · 千万不要在深夜发朋友圈！

7 年前

青核桃 · 盘点 | 呼和浩特有这么多跑腿公司，竟然还能帮排队、占座，这项服务最贴心！

7 年前

装修情报 · 48万装修36㎡，看巴黎13区的“高科技”精致家

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!