专栏名称: 范阳
Being more human, less perfect.
目录
相关文章推荐
卢克文工作室  ·  德国大选,特朗普三人组的干预成功了吗 ·  昨天  
财联社  ·  美官员:美乌矿产协议预计于本周签署 ·  2 天前  
财联社  ·  美官员:美乌矿产协议预计于本周签署 ·  2 天前  
贵州药监  ·  “稳”了,中国“磁吸力”将更强 ·  2 天前  
贵州药监  ·  “稳”了,中国“磁吸力”将更强 ·  2 天前  
参考消息  ·  美国施压,用“星链”威胁乌克兰 ·  3 天前  
51好读  ›  专栏  ›  范阳

从 DALL-E 2 和 Midjourney 的差异说起: 如何召唤出隐藏空间里的品味和智识?

范阳  · 公众号  ·  · 2024-07-30 17:08

正文

今天再分享一篇 Linus Lee 的个人博客( thesephist.com ) 上的新文章,Linus Lee 是 Notion 的人工智能产品负责人 ( AI product leader ),我关注他因为我认为他是一位对于大语言模型和未来的通用人工智能所蕴含的真正潜力( 超越现在的产品形态 ),以及所需要的人机交互界面有深入思考的研究者,这样的人才现在是稀缺的。另外重要的一点是,他也同样重视技术塑造人的品味,以及人使用工具的品味,品味会是未来决定性的竞争优势。

延伸阅读:

思维的合成器 | AI 改变软件只刚刚开始

人机交互( HCI ) 是强人工智能的瓶颈。

这篇文章的后半部分,我的理解是,它提出了一个很有启发的观点:

相比于基于人类反馈的强化学习(RLHF)的方法调教人工智能的 “黑盒子”, 用 “机械式引导” ( mechanistic steering ) 去使用 “可解释性的人工智能”,这种方式可以让人工智能保持其原有的 “世界模型” ,而用户又可以得到让人惊喜甚至意外的,且有品味的 “回答和结果”。从一个深邃而广大的空间里定位到我们真正想要的东西,而不是浮于表面的讨好我们的东西。

再引申到未来的计算机,我们应该重新思考人机交互的本质,以及计算机和人工智能到底应该带给我们什么?我们可能不再需要通过固定的指令或代码来与 AI 交互,而是能更直观地 “引导” 人工智能朝着我们( 每一个个体 )需要和想要的方向去思考和执行。

希望这篇文章对你有启发。




认知上的校准和探索真理空间

Epistemic calibration and searching the space of truth

作者:Linus Lee

编辑:范阳

写作时间:2024年7月7日


我一直对 DALL-E 2 独特的视觉创意( specific flavor of visual creativity )情有独钟。特别是考虑到这个文本到图像的 AI 系统( text-to-image AI system )的年龄, 它似乎在颜色、光与暗、抽象与具体,以及它们精心组合所能唤起的情感共鸣方面有着令人难以置信的掌控力 ( it seems to have an incredible command over color, light and dark, the abstract and the concrete, and the emotional resonance that their careful combination can conjure )。

我从用 DALL-E 2 自动生成的大量图像中挑选了这十二张。生成时,我将一些随机生成的主题与几种预先写好的风格后缀( 如“水彩画在画布上”,watercolor on canvas )结合起来。

注意到第一张图片中身体后面的阴影处理,以及第一排第三张图片中印象派风格的用色( the impressionistic use of color )。我也喜欢右上角那张图中柔和的轮廓( the softness of the silhouette ),以及第二排中似乎从地平线冒出来的独眼巨人形象。即使在这个网格中最抽象的图像中,色彩和构图的选择也让我觉得它们完全可以出现在画廊中。这些图像展现了惊人的多样性、创造力和深度( variety, creativity, and depth to these images ),特别是考虑到大多数提示词都很简单,如赋予隐喻形式( giving form to metaphor )、画布上的水彩或舒适的卧室、静物构图等。

当我尝试用我认为是当前最先进的文本到图像系统 Midjourney v6 生成类似图像时,这是我使用类似提示词得到的结果。

这些图像本身也很美丽,其细节和写实性( detail and realism )令人印象深刻。Midjourney 生成的图像质量和写实性经常让我惊叹。这并不是另一篇 “AI 生成的图像不具艺术性” 的帖子。

然而,这两个系统在风格上有非常明显的差异。在生成了几百张图像之后,我发现 DALL-E 2 在以下方面经常表现出色:

1. 颜色和对比的运用令人惊喜且富有创意 ( surprising and creative with its use of color and contrast );

2. 通常专注于单一主题,画面中只有一两个主要元素 ( usually focused on a single subject, with one or few things going on in the frame );

3. 对于模糊或开放式提示词( ambiguous or open-ended prompts )的解读非常有创意,往往能自发引入多样且合适的主题。


相比之下, Midjourney 生成的图像倾向于:

1. 始终充满大量细节,几乎像是系统真的想最大化利用每一个像素 ( as if the system really wants to put every single pixel to use );

2. 与 DALL-E 2 相比,色彩使用比较均匀和平淡 ( pretty uniform, flat use of color compared to DALL-E 2’s );

3. 对提示词的解释比较直白( literal interpretations of the prompt ),倾向于让图像总是 “关于” 某些具体的东西,几乎没有模糊性存在的空间 ( a tendency to have the image always be “about” something concrete with little room for ambiguity )。

虽然根据我的经验,Midjourney v6 是功能最强大的系统,但在使用最近几年的任何现代模型时,我都会遇到同样的风格偏差,比如 Stable Diffusion XL 及其衍生产品、谷歌的 Imagen 模型,甚至是当前版本的 DALL-E( DALL-E 3 )。这是一个遗憾,因为我非常喜欢 DALL-E 2 输出的多样性和创造性,而现代系统似乎都无法再现类似的结果。

我也做了一些直接对比,包括给 Midjourney 提供图像示例以转移风格。虽然 Midjourney v6 成功地复制了原始图像的风格,但它仍然保留了典型的细节丰富度,并且明显倾向于具体主题,比如逼真的人类轮廓( a clear tendency towards concrete subjects like realistic human silhouettes ):

尽管这些都不是科学严谨的研究,但我听到其他这些系统的用户有类似的看法,并在现代语言模型( 如 ChatGPT )中观察到了类似的 “缺乏创意” 行为( observed similar “un-creative” behavior from modern language models like ChatGPT )。我特别感兴趣的是这项关于 Llama 2 模型在偏好调优前后输出分布的研究,因为我认为他们成功量化了平淡的 “ChatGPT 声音” , 并展示了强化学习如何在模型的输出空间中意外产生吸引子 ( reinforcement learning has produced accidental attractors in the model’s output space )。

范阳注: 在数学的动力系统领域,吸引子( attractors )是一个系统倾向于演化的状态集合,无论系统的起始条件多么多样化。接近吸引子值的系统值,即使受到轻微干扰,也会保持接近。

想象你在一个山谷中滚一个小球。这个山谷有很多不同的斜坡和凹陷。无论你从山谷的哪个地方开始滚小球,最后小球都会滚到某个特定的低点,那个低点就是这个系统的吸引子。换句话说,吸引子就是系统最终会趋向的状态或区域,无论开始的条件如何。

在强化学习当中使用偏好调优( 如在 ChatGPT 的强化学习 )的方法,我们调整模型的输出,使其更符合人类偏好。这种调优会使模型的输出趋向于某些稳定的模式或风格,这些模式或风格就是吸引子。

奇异吸引子( a strange attractor )的视觉表示。

为什么会这样?

我们可以假设有以下几个主要差异导致了 DALL-E 2 和其他系统的不同

它们是在非常不同的数据集上训练的 ( They’re trained on very different datasets )。

DALL-E 2 从未经历过任何偏好调优 ( preference tuning ),而其他模型有。

DALL-E 2 是唯一仍在广泛使用的像素空间图像扩散模型 ( the only pixel-space image diffusion model still in wide use )。所有其他模型都在压缩的潜在空间中进行扩散( All other models perform diffusion in a compressed latent space ),这可能会影响颜色调色板的多样性( the diversity of color palette )等方面。

在思考了一下这个事情,并玩了一些开源模型后,我认为这里有两个主要原因。

首先, 当人们在并排比较中被要求选择 “更好” 的图像时,会简单地更喜欢更亮、更丰富多彩、细节更多的图像,尽管他们并不一定会喜欢一个每幅图像都如此细致和绚丽的世界 。因此,当模型调整到人类偏好时,它们自然会生成这些超详细、超丰富多彩的 “糖衣炮弹图像”。

其次,当一个模型使用强化学习等带有反馈回路的方法( a method with feedback loops like reinforcement learning )进行训练时,它趋向于 “吸引子” ,即输出空间中的首选模式( it tends towards “attractors”, or preferred modes in the output space ),而不再是一个每个概念在其输出空间中成比例表示的准确反映现实的模型( stops being an accurate model of reality in which every concept is proportionately represented in its output space )。 偏好调优使模型偏离了对现实的准确反映 ( Preference tuning tunes models away from being accurate reflections of reality ), 变成了贪婪的奖励追求者,如果预计无聊的输出会被高评价,它们就会乐于输出无聊的响应 ( greedy reward-seekers happy to output a boring response if it expects the boring output to be rated highly )。

让我们更详细地探讨这些想法。


1. 我们是在比较输出,还是比较世界 ( Are we comparing outputs, or comparing worlds )?

如果你走进过一家电子消费产品商店,看看满墙的电视屏幕或试戴展示中的耳机,你会发现它们都调校到最亮、最响、最鲜艳的设置。有时,颜色过于鲜艳,以至于画面看起来有些不真实,例如完美的碧绿海洋和完美的黝黑肤色。

一般来说,当被要求比较图像或音乐时,没有受过眼睛和耳朵训练的人会选择最明亮的图像和最响亮的音乐。 明亮的图像会营造出色彩鲜艳和细节丰富的假象,使得其他不那么明亮的图像显得平淡。响亮的音乐也有类似的效果,导致在公共广播中出现 “音量大战”( loudness war ),即歌曲争相以更高的音量吸引听众的注意。

现在, 我们也在经历一场 “合成媒体的音量大战” (we are also in a loudness war of synthetic media)。

另一种看待这种现象的方式是,它反映了我们要求人工标注者( human labelers )比较的内容与我们实际想要比较的内容之间的不一致( a failure to align what we are asking human labelers to compare with what we actually want to compare)。

当我们构建偏好数据集时,我们实际应该问的问题是:“ 一个在这个数据集上训练的模型所生成的世界是否比一个在那个数据集上训练的模型所生成的世界更可取? ” 当然,这个问题是无法实际解决的,因为这需要对每种可能的训练数据集排列收集人类标注,导致选项的组合爆炸。相反,我们可以通过在每个数据点上收集人类偏好信号来近似实现这一目标。但存在一个不匹配的情况: 仅仅因为人们在某些实例中偏好更详细的图像,并不意味着我们会更喜欢一个每张图像都极度详细的世界 ( just because humans prefer a more detailed image in one instance doesn’t mean that we’d prefer a world where every single image was maximally detailed )。


2. 从世界模型中构建吸引子 ( Building attractors out of world models )。

偏好调优方法,如强化学习( RLHF )和直接偏好优化( DPO ),与模型预训练或使用标记数据进行的 “基础” 微调训练有着本质不同,因为这些方法涉及将模型的输出反馈到模型自身,创建一个反馈回路。

每当系统中存在反馈回路时,我们可以研究其动态行为 — 随着时间的推移,当我们不断迭代接近无穷大时,系统是否会趋向于某种稳定状态?是否会进入某个循环?是否会发散,逐渐加速接近某个极限?

在 ChatGPT 和 Midjourney 等系统中,这些模型在反馈回路下似乎会收敛到几个吸引子,即模型认为可靠偏好、“安全” 选项的输出空间的部分( parts of the output space that the model has deemed reliably preferred, “safe” options )。例如,一个吸引子是超现实的详细插图风格( hyper-realistic detailed style of illustration )。另一种似乎是,当被要求生成任何抽象和含糊的正面积极内容时,系统对几何线条和超人类想象力的喜爱(a fondness for geometric lines and transhumanist imagery )。

我认为认识到基础模型( base models )和反馈调优模型( feedback-tuned models ) 之间的差异是重要的,因为这种偏好调优步骤从根本上改变了模型的功能 ( preference tuning step changes what the model is doing at a fundamental level )。一个预训练的基础模型是一个认知上校准过的世界模型( A pretrained base model is an epistemically calibrated world model )。 它在认知上是校准过的(epistemically calibrated ),意味着它的输出概率准确地反映了训练数据集中概念和风格的频率。 如果 2% 的瀑布照片中有彩虹,那么模型生成的瀑布照片中也会有 2% 包含彩虹。它也是一个世界模型,因为预训练的结果是一个对世界( 其训练数据集 )观察的概率模型( in the sense that what results from pretraining is a probabilistic model of observations of the world )。训练数据集中存在的任何内容,我们也可以期望在模型的输出空间中找到。

然而, 一旦我们对模型进行偏好调整,模型就会转变成一种截然不同的东西,一种贪婪而聪明的函数,它能找到一种方法,将每一个输入解释成一个请求版本,其中包含它知道最有可能获得评论者好评的元素 ( to interpret every input into a version of the request that includes elements it knows is most likely to result in a positive rating from a reviewer )。在给定输入的限制内,经历了人类反馈的强化学习( RLHF )的模型不再是一个准确的世界模型,而是一个函数,它的唯一任务就是想方设法呈现出一个版本的输出,这个版本要超级详细、色彩鲜艳、彬彬有礼,或者其他任何模型所学到的能取悦输出接收者的东西。这些得到可靠回报的概念会成为模型输出空间中的吸引子。还可以参考关于 OpenAI 模型的传闻故事,该模型优化为积极输出,导致频繁出现无法避免的婚礼派对图像。

当今最有效的工具,可以制造出有用的、听话的模型,但却不可逆转地夺走了基础模型所具有的相当有价值的东西: 它在认识论上对其所训练的世界的校准( its epistemic calibration to the world it was trained on )。







请到「今天看啥」查看全文