DALL-E官方论文代码终于放出，OpenAI是如何实现图像版GPT-3的？

Python程序员 · 公众号 · Python · 2021-04-13 08:30

正文

机器之心报道

今年年初，OpenAI 图像版 GPT-3、120 亿参数的 DALL-E 刷屏社区，这个大型模型可以将以自然语言形式表达的大量概念转换为合适的图像，效果十分惊艳。如果 GPT-3 一样，大家都在期待 OpenAI 放出 DALL-E 的官方论文与实现代码。

项目地址：https://github.com/openai/DALL-E
论文地址：https://arxiv.org/abs/2102.12092

DALL-E 代码已开源

这是为 DALL·E 所使用的 d-VAE 的官方 PyTorch 包。在运行 DALL-E/notebooks/usage.ipynb 程序之前，需要先安装软件包，代码如下：

pip install git+https://github.com/openai/DALL-E.git

解码器、编码器代码

d-VAE 论文

年初在论文还没有公开的情况下，就有人开始复现，他们复现的依据来自某博主制作的油管视频，在视频中，对 DALL·E 的原理结构进行了猜测。那么，现在论文已公开，是否颠覆了他的预想。

传统上，文本到图像的生成主要集中在在固定的训练数据集上找到更好的建模假设。这些假设可能涉及复杂的体系架构、辅助损失或辅助信息，例如在训练期间提供的对象部件标签或分割掩码。该研究提出了一种基于 transformer 的简单方法，将文本和图像 token 作为单个数据流进行自回归建模。在足够的数据和扩展的情况下，当以 zero-shot 方式评估时，该研究提出的方法与以前的领域特定模型具有相当的竞争力。

Python 程序员深度学习的“四大名著”：