专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
51好读  ›  专栏  ›  APPSO

实测 OpenAI 「一句话 P 图」:这张图让我的朋友圈炸了,PS 真要被淘汰了?

APPSO  · 公众号  · app  · 2025-03-26 17:30

正文

请到「今天看啥」查看全文


从前都以为修图是很复杂的事,从平平无奇的白底 logo,比如这样:

变成精致漂亮还带 3D 立体效果的场景图,比如这样:
需要怎么做?
不是在 Adobe 软件里埋头苦干大半天,也不用跟设计师来回 battle 一下午——只需要去最新的 ChatGPT,输入一句话,结束。
网址都给你找好了:https://chatgpt.com/
在今天凌晨 OpenAI 发布新一代文生图功能的时候,大家还不是很清楚它的实力,还以为是跟在 Gemini 后头,带来一些迟到的升级。
GPT 不语,只是一昧地让用户案例震惊全场。
在最新的迭代中,OpenAI 带来了文生图功能上,突破性的指令遵循和一致性表现。只需最简单的文字 prompt,就可以实现高精度的图片细部微调—— 一切修改只需要在会话当中进行 ,无需任何按钮、笔刷等额外操作。
魔法不用笔刷,只用咒语
和 Gemini 类似,这次 OpenAI 的更新,重点不在于能做多写实、多复杂的图片,而在于指令遵循和一致性,并且是在只使用自然语言指令的前提下。
先来看一组比较入门级的食物照片,prompt 也非常简单:generate an image of coffee and bread。
随后,在原图的基础上要求改成冰咖啡、涂果酱。
除了杯柄之外,该加的加,该留的留,指令遵循非常出色。
涉及到人像的图片,也有稳定的表现。
仔细看的话,还是有一些小地方是在变动的,但最关键的人体动作、衣服皱褶、表情,都没有瑕疵。
在这组图的时候,碰到了内容风控,报错称不符合政策要求。不过,它理解到了原指令的意图,提出了修改方案。
这最后一张,也是生成效果最好最自然的一张。
画面内容简单的任务自然是手拿把掐,那么复杂一点的呢?
之前在 Gemini 的生图测试中,我们出过一张城市街头景象,效果非常惊人,再看一遍:
同样的 prompt,给 ChatGPT 执行,在画面效果上稍微差了一点,尤其是到夜晚这张,几乎已经看不到人群细节了。
当然这个问题比较偏向于是审美不同,在对关键元素的识别上是没问题的,甚至能捕捉到「茑屋书店」这样小的细节,字体生成也挺稳的。
除了直接用文字生成,还可以上传图片进行修改——此刻,最震撼的一集来了。
在上传了 png 格式的 APPSO 标志之后,第一步简单的变个 3D 立体。
效果还可以,阴影方向不一致,但符合光线本身即可。接下来再做点调整。
震撼! 这两次调整的 prompt,不过是二十来个字而已。
(甚至默认数码产品都是 Apple 的,一些没有说的属性真是偷偷藏不住呀。)
随后的小角度微调也很准确。
Prompt:调整角度,使红色logo变成正面,其余保持不动
细节微调是这次更新非常大的亮点,能够准确将指令与相对应的细部关联起来,从而完成精确的局部修改。
Prompt:调整角度,镜头从右前方拍摄,整体光线变暗,一束强光从右侧打亮机器的一部分,旁边搭配咖啡豆
指令中包含了光效、镜头角度、元素增补等关键内容,模型能够准确识别,而且整体性地进行调整。指哪改哪四个字,都已经说倦了。
这次的更新中,最意外的应该是 在同一个会话中,生图和生文迅速切换的能力。
比如在下面这张图中,最早的指令是生成一个礼物包装指南。
首先给出来的是一个图文版——不算是错,我没有指明是要做图文版,还是文字版, 指令是很模糊的
在生成文字版之后,ChatGPT 主动询问是不是要做图文版,在收到确认的答复之后,给出了图文并茂的版本。
这意味着模型的准确反应, 不仅体现在理解单一指令上,也体现在领悟用户潜在意图上,比用户「多想一步」
实际上,这也是此前 Deep Research 发布时就展现出来的能力。OpenAI 的深度检索,是少数会主动向用户询问、明确任务执行细节的深度检索产品。
类似的能力,这次迁移到了生图当中,从使用感受而言,比在 Deep Research 上的更直观可感。
例如可以用来制作日常的告示说明,图文一锅都「端」了。
中文字符的处理还是差点意思,在可接受范围内吧。
整体来看,这次最惊人的肯定要属一致性和指令遵循的同步到位。
按照惯例,每次测评都应该有一些「使用指南」——这次真的没有发现什么注意事项, 一切只要按照自己的想法,敲击键盘,输入文字,就行了 。没有什么「技巧」或者「窍门」。
通过 prompt 生图及改图的一致性,是文生图非常关键的问题,它既跟模型能力相关,又和工程能力相关。
在指令遵循和一致性有这么大的进步之前,主要是通过 prompting 来解决的, 压力是在用户这一边
所以会有各种各样的 prompt 模版、攻略,教大家怎么「跟模型打交道」。但那不是自然语言交互应该有的状态, 让人先学一通怎么写 prompt,着实很劝退—— 模型在面对人的时候,接受的就是用户最直接的指令。
Gemini 和 OpenAI 近期的更新,让热度有所降低的生图赛道又重新热闹了起来。它们也展示出了同一个共同点:一些修图改图产品,通过增加按钮、入口,来 增加生图的可操控性,以此来对抗模型幻觉的日子 ,快要到头了。
一致性的问题解决的并不仅仅只是图片生成的问题,更加是「使用图片生成功能」过程中的小麻烦。某种意义上,也是一种工程层面的优化。
修改、生成都是可以用模型对文字指令的准确理解来实现——在这个层面上,「模型即产品」仍然成立。

图片

我们正在招募伙伴

📮 简历投递邮箱
[email protected]
✉️ 邮件标题
「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗
图片







请到「今天看啥」查看全文