本文约1000字,建议阅读5分钟
我们的算法旨在提高与训练数据的属性相似性、改善数据有效性,并提升生成输出的整体质量。
我的论文聚焦于生成模型及其在离散数据中的应用。我们提出了新颖的算法,这些算法融合了最先进的生成模型的洞察和离散数据类型的领域特定知识。我们的算法旨在提高与训练数据的属性相似性、改善数据有效性,并提升生成输出的整体质量。论文的第一部分探讨了如何使用上下文无关文法将几何图像转换为离散表示。我们讨论了在大规模搜索空间中识别合适表示的有效且可扩展的技术。论文的第二部分研究了变分自编码器(VAE)在恢复嵌入在低维流形中的高维数据时的表现,评估了它们恢复流形和数据密度的能力。我们将对VAE的探索扩展到离散数据领域,特别是在分子数据生成中的应用。我们发现,一种增强VAE对连续数据流形恢复的算法,同样显著提高了离散数据生成的效果。我们利用ChEMBL数据集和两个包含蛋白质靶标的活性分子小数据集研究了其优点和局限性。最后,针对生成稳定的三维分子这一挑战,论文将一个非可微的化学预言模型——GFN2-xTB,纳入去噪过程,以改善几何结构和稳定性。通过在QM9和GEOM等数据集上的验证,证明这种方法能够显著提高生成分子的稳定性。生成模型通过学习训练数据的分布来生成新的数据点。它们在许多领域有广泛的应用,例如计算机视觉 [Goodfellow et al., 2014, Oord et al., 2016, 2017, Vahdat and Kautz, 2020]、自然语言处理 [Devlin et al., 2018, Radford et al., 2019]。一些生成模型的例子包括生成对抗网络(GAN)[Goodfellow et al., 2014]、变分自编码器(VAE)[Kingma and Welling, 2013]、扩散模型 [Ho et al., 2020, Song et al., 2020a, Song and Ermon, 2019, Song et al., 2020b]、自回归模型和归一化流 [Rezende and Mohamed, 2015] 等。生成模型将某些变量从一个分布(通常是高斯分布)转换到一个目标分布,而目标分布是训练数据集所属的分布。Goodfellow 等人(2016)指出,许多现实世界的数据(如图像和文本)都存在于嵌入在高维空间中的低维流形上。因此,恢复数据所在的低维流形是学习数据分布的重要步骤。生成建模还与表示学习 [Bengio et al., 2013] 相关,其中通过学习输出数据分布的过程中推断出一个低维潜在表示,像 VAE 就是一个例子。生成模型有许多著名的应用,如图像和语言。尤其是条件生成,作为一种有用的功能,已被广泛应用于商业领域。例如,图像修复模型 [Yu et al., 2018, Lugmayr et al., 2022] 能够填补图像中丢失或损坏的像素,语言条件的图像生成模型(如 Stable Diffusion [Rombach et al., 2022] 和 Dall-E [Ramesh et al., 2021])能够根据简单的指令生成超现实的图像,而语言翻译功能已经无处不在于我们的数字生活中。生成模型还对程序生成和药物发现等应用带来了变革。在代码生成的基础模型中,如 Code Llama [Roziere et al., 2023] 和 AlpahCode [Li et al., 2022],现在已经能够解决竞争级别的编程问题,尽管结果并不总是可靠。在药物发现领域,机器学习的应用也取得了巨大进展。AlphaFold [Jumper et al., 2021] 可以预测蛋白质的 3D 结构,基于氨基酸序列,并且在结构预测的关键评估(CASP)竞赛中排名第一,显著超过了第二名的竞争者。DiffDock [Corso et al., 2022] 将扩散模型应用于蛋白质对接的姿态生成问题,超越了所有以前的方法,包括先前基于搜索的最先进方法。大量生成模型的应用为我们的现代世界带来了真正的技术变革。尽管我们在过去几年取得了许多进展,但仍然面临许多挑战。例如,幻觉(hallucination)是生成模型中一个常见的问题,它表现为大型语言模型中的错误回答,在药物发现中则表现为生成的分子在自然界中不存在。如今,生成模型通常具有极大的规模,参数量达到数万亿,因此它们依赖大量优质数据。本文将探索生成建模的机制,特别是 VAE 的相关机制。本文的另一个重点是改善离散数据的生成,尤其是在分子生成和程序合成方面的直接应用。此外,我们还探讨能否利用连续数据生成方面的进展和理解来改善离散数据的生成。生成模型的应用通常涉及生成符合特定目标的全新数据——无论是要与训练数据在属性上相似,还是要实现某些条件或无条件的目标。在本文中,我们将深入探讨帮助生成模型实现这些目标的方法。本文的两个核心主题是:i)研究当前生成模型的不足之处,它们如何影响生成质量,以及如何减轻这些影响;ii)如何通过利用领域知识,在计算约束下改善数据生成质量。- 第二章(基于 Zhou 等人 [2021] 的论文),我们研究了一个程序合成问题,该问题涉及离散数据生成的挑战。给定一个几何图像作为输入,项目的目标是生成上下文无关文法(CFG)程序,这些程序可用于重建原始图像。在这项工作中,我们将一个非可微的渲染器视为解码器,并学习一个可解释的编码器,该编码器利用 CFG 文法生成几何图像的低维程序表示。
- 第三章(基于 Koehler 等人 [2021] 的论文)研究了 VAE 在流形和密度恢复中的行为——对于非线性合成数据,我们发现 VAE 并不保证能够恢复高维训练数据所处的底层流形。我们进一步研究了多阶段 VAE 的效果,并展示了它可以改善合成数据上的流形恢复。
- 第四章(基于 Zhou 和 Poczos [2023] 的论文),我们将多阶段 VAE(已证明能改善合成数据的流形恢复)应用于分子生成任务。我们展示了在两个任务中的生成分子属性的改善:一个基于 ChEMBL 数据集 Mendez et al. [2019] 的通用生成任务,以及一个针对蛋白质靶标的生成任务,在两个小型分子数据集上进行了微调。
- 第五章,我们将一个非可微的化学预言器纳入去噪过程,该预言器提供分子中每个原子的净力信息,并利用这些信息指导反向扩散采样过程,以实现生成样本的更好稳定性。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU