专栏名称: APPSO

让智能手机更好用的秘密。

目录

相关文章推荐

51好读 › 专栏 › APPSO

实测 OpenAI 「一句话 P 图」：这张图让我的朋友圈炸了，PS 真要被淘汰了？

APPSO · 公众号 · app · 2025-03-26 17:30

正文

请到「今天看啥」查看全文

从前都以为修图是很复杂的事，从平平无奇的白底 logo，比如这样：

变成精致漂亮还带 3D 立体效果的场景图，比如这样：

需要怎么做？

不是在 Adobe 软件里埋头苦干大半天，也不用跟设计师来回 battle 一下午——只需要去最新的 ChatGPT，输入一句话，结束。

网址都给你找好了：https://chatgpt.com/

在今天凌晨 OpenAI 发布新一代文生图功能的时候，大家还不是很清楚它的实力，还以为是跟在 Gemini 后头，带来一些迟到的升级。

GPT 不语，只是一昧地让用户案例震惊全场。

在最新的迭代中，OpenAI 带来了文生图功能上，突破性的指令遵循和一致性表现。只需最简单的文字 prompt，就可以实现高精度的图片细部微调—— 一切修改只需要在会话当中进行 ，无需任何按钮、笔刷等额外操作。

魔法不用笔刷，只用咒语

和 Gemini 类似，这次 OpenAI 的更新，重点不在于能做多写实、多复杂的图片，而在于指令遵循和一致性，并且是在只使用自然语言指令的前提下。

先来看一组比较入门级的食物照片，prompt 也非常简单：generate an image of coffee and bread。

随后，在原图的基础上要求改成冰咖啡、涂果酱。

除了杯柄之外，该加的加，该留的留，指令遵循非常出色。

涉及到人像的图片，也有稳定的表现。

仔细看的话，还是有一些小地方是在变动的，但最关键的人体动作、衣服皱褶、表情，都没有瑕疵。

在这组图的时候，碰到了内容风控，报错称不符合政策要求。不过，它理解到了原指令的意图，提出了修改方案。

这最后一张，也是生成效果最好最自然的一张。

画面内容简单的任务自然是手拿把掐，那么复杂一点的呢？

之前在 Gemini 的生图测试中，我们出过一张城市街头景象，效果非常惊人，再看一遍：

同样的 prompt，给 ChatGPT 执行，在画面效果上稍微差了一点，尤其是到夜晚这张，几乎已经看不到人群细节了。

当然这个问题比较偏向于是审美不同，在对关键元素的识别上是没问题的，甚至能捕捉到「茑屋书店」这样小的细节，字体生成也挺稳的。

除了直接用文字生成，还可以上传图片进行修改——此刻，最震撼的一集来了。

在上传了 png 格式的 APPSO 标志之后，第一步简单的变个 3D 立体。

效果还可以，阴影方向不一致，但符合光线本身即可。接下来再做点调整。

震撼！ 这两次调整的 prompt，不过是二十来个字而已。

（甚至默认数码产品都是 Apple 的，一些没有说的属性真是偷偷藏不住呀。）

随后的小角度微调也很准确。

Prompt：调整角度，使红色logo变成正面，其余保持不动

细节微调是这次更新非常大的亮点，能够准确将指令与相对应的细部关联起来，从而完成精确的局部修改。

Prompt：调整角度，镜头从右前方拍摄，整体光线变暗，一束强光从右侧打亮机器的一部分，旁边搭配咖啡豆

指令中包含了光效、镜头角度、元素增补等关键内容，模型能够准确识别，而且整体性地进行调整。指哪改哪四个字，都已经说倦了。

这次的更新中，最意外的应该是 在同一个会话中，生图和生文迅速切换的能力。

比如在下面这张图中，最早的指令是生成一个礼物包装指南。

首先给出来的是一个图文版——不算是错，我没有指明是要做图文版，还是文字版， 指令是很模糊的 。

在生成文字版之后，ChatGPT 主动询问是不是要做图文版，在收到确认的答复之后，给出了图文并茂的版本。

这意味着模型的准确反应， 不仅体现在理解单一指令上，也体现在领悟用户潜在意图上，比用户「多想一步」 。

实际上，这也是此前 Deep Research 发布时就展现出来的能力。OpenAI 的深度检索，是少数会主动向用户询问、明确任务执行细节的深度检索产品。

类似的能力，这次迁移到了生图当中，从使用感受而言，比在 Deep Research 上的更直观可感。

例如可以用来制作日常的告示说明，图文一锅都「端」了。

中文字符的处理还是差点意思，在可接受范围内吧。

整体来看，这次最惊人的肯定要属一致性和指令遵循的同步到位。

按照惯例，每次测评都应该有一些「使用指南」——这次真的没有发现什么注意事项， 一切只要按照自己的想法，敲击键盘，输入文字，就行了 。没有什么「技巧」或者「窍门」。

通过 prompt 生图及改图的一致性，是文生图非常关键的问题，它既跟模型能力相关，又和工程能力相关。

在指令遵循和一致性有这么大的进步之前，主要是通过 prompting 来解决的， 压力是在用户这一边 。

所以会有各种各样的 prompt 模版、攻略，教大家怎么「跟模型打交道」。但那不是自然语言交互应该有的状态，让人先学一通怎么写 prompt，着实很劝退—— 模型在面对人的时候，接受的就是用户最直接的指令。

Gemini 和 OpenAI 近期的更新，让热度有所降低的生图赛道又重新热闹了起来。它们也展示出了同一个共同点：一些修图改图产品，通过增加按钮、入口，来 增加生图的可操控性，以此来对抗模型幻觉的日子 ，快要到头了。

一致性的问题解决的并不仅仅只是图片生成的问题，更加是「使用图片生成功能」过程中的小麻烦。某种意义上，也是一种工程层面的优化。

修改、生成都是可以用模型对文字指令的准确理解来实现——在这个层面上，「模型即产品」仍然成立。

我们正在招募伙伴

📮 简历投递邮箱
[email protected]

✉️ 邮件标题
「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

更多岗位信息请点击这里🔗

请到「今天看啥」查看全文

推荐文章

墨香中华 · 中国老话，句句道破人性

8 年前

点点星光 · ♬一曲《等风等雨我等你》等你等的好辛苦，听醉了!

8 年前

Python开发者 · 深度学习再度升级！大神带你飞

7 年前

治愈系心理学 · 这八句话，适合每一个人

7 年前

上海发布 · 【天气】中考两天多云为主，气温均不超30度

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!