于之前的 Langevin Diffusion 的 Fokker Planck Equation 吻合!这个发现最早出现于【JKO1998】(Richard Jordan, David Kinderlehrer, and Felix Otto. The variational formulation of the fokker– planck equation. SIAM journal on mathematical analysis, 29(1):1–17, 1998)。 接着,如果我们对于 Wasserstein gradient flow 做 Forward-Flow splitting discretisation scheme,我们就可以得到 LMC 的 distribution 的诠释。这个最早是在这篇文章中发现的:Andre Wibisono. Sampling as optimization in the space of measures: The langevin dynamics as a composite optimization problem. In Conference on Learning Theory, pages 2093–3027. PMLR, 2018。
然后呢?
发现了 Langevin diffusion 可以被理解成一种 Wasserstein gradient flow 的特殊离散化后,我们能够做什么呢? Durmus et al 在他们 2019 年的 PMLR 上通过这个发现得到了 LMC 的新的 convergence rate,见:Alain Durmus, Szymon Majewski, and B la˙zej Miasojedow. Analysis of langevin monte carlo via convex optimization. The Journal of Machine Learning Research, 20(1):2666–2711, 2019。 除此之外,我们可以将这个想法(即,将采样算法用某种 gradient flow 来诠释)扩展到别的算法上。 例如 Stein Variational Gradient Descent (见 Liu Qiang 的 Stein Variational Gradient Descent as Gradient Flow(https://arxiv.org/abs/1704.07520)与 Duncan et al 的 On the geometry of Stein variational gradient descent)。例如 tempering (见 Chopin et al 的 A connection between tempering and entropic mirror descent)。 还有,我们可以通过优化和采样的联系,将优化中的工具引入采样中。一个例子是 Chris Nemeth 组的工作,将优化中的 learning rate free 的技术引入 sampling 中,见 Coin Sampling: Gradient-Based Bayesian Inference without Learning Rates 和 Learning Rate Free Sampling in Constrained Domains。 其次,我们可以考虑用不同目标函数的 Wasserstein gradient flow。比较出名的有用 Maximum Mean Discrepancy,可以参考 Arthur Gretton 组的一系列工作,例如 Maximum Mean Discrepancy Gradient Flow, Deep MMD Gradient Flow without adversarial training。