专栏名称: CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
目录
相关文章推荐
哔哩哔哩  ·  猫和老鼠来B站,自己鬼畜自己 ·  17 小时前  
你的Sneaker  ·  全国多地发售!Nike Kobe 6 ... ·  昨天  
你的Sneaker  ·  全国多地发售!Nike Kobe 6 ... ·  昨天  
电商报Pro  ·  刘强东搞低价,一出手就是王炸 ·  昨天  
蛋先生工作室  ·  2025年2月11日最新蛋价(早报) ·  昨天  
电子商务研究中心  ·  《2024年中国新零售“百强榜”》候选名单发 ... ·  2 天前  
51好读  ›  专栏  ›  CreateAMind

PCF-GAN:通过生成顺序数据路径空间测度的特征函数

CreateAMind  · 公众号  ·  · 2025-02-06 21:10

正文

PCF-GAN:通过生成顺序数据路径空间测度的特征函数


特征函数系列
开创性论文:提出概率电路家族一个伟大新成员-CC
样本数量的线性时间计算复杂度GAN
几乎克服了所有cGAN都存在的使用交叉熵的缺陷


PCF-GAN: generating sequential data via the characteristic function of measures on the path space

https://github.com/DeepIntoStreams/PCF-GAN

https://arxiv.org/abs/2305.12511?context=cs.LG



integral probability metric (IPM) path characteristic function (PCF)

Maximum Mean Discrepancy (MMD) characteristic function (CF)

path characteristic function (PCF) PCF distance (PCFD)


摘要

利用生成对抗网络(GANs)生成高保真度的时间序列数据仍然是一项具有挑战性的任务,因为 很难捕捉由时间序列数据引起的联合概率分布的时态依赖关系 。为了实现这一目标,关键步骤之一是开发一个有效的 鉴别器来区分时间序列分布 。我们提出了所谓的PCF-GAN,这是一种新颖的GAN,它将 路径特征函数(PCF) 作为时间序列分布的原理表示,纳入鉴别器以增强其生成性能。一方面,我们通过证明其 特征性、有界性、对生成器参数的可微性和弱连续性,为PCF距离奠定了理论基础 ,这些特性确保了训练PCF-GAN的 稳定性和可行性 。另一方面,我们设计了高效的初始化和优化方案,用于加强PCFs的 鉴别能力并加快训练效率 。为了进一步提升复杂时间序列生成的能力,我们通过顺序嵌入将 自动编码器结构整合到PCF-GAN中 ,这提供了额外的重构功能。对各种数据集进行的广泛数值实验表明,PCF-GAN在生成和重构质量方面始终优于最先进的基线模型。


1 引言

生成对抗网络(GANs)已经成为生成复杂数据分布(例如图像数据)的强大工具。最初的GAN存在优化不稳定性和模式坍缩的问题,后来通过一种替代训练方案,使用 积分概率度量(IPM)代替Jensen-Shannon散度 部分地缓解了这些问题。IPMs,例如基于Wasserstein距离或最大均值差异(MMD)的度量,始终能够提供良好的度量值,从而在经验数据上产生更强大的GANs。最近,[1]提出了一种基于测量在Rd上的特征函数(CF)的IPM,具有特征性、有界性和可微性等特性。这些特性使得使用该IPM作为鉴别器的GAN(“CF-GAN”)能够稳定训练并提高生成性能。 然而,CF度量无法有效捕捉序列数据的时间依赖关系,由于维度灾难,这种CF度量无法处理高频情况。 为了解决这个问题,我们采用连续时间视角对时间序列进行处理,并将 离散时间序列提升到路径空间。这使我们能够以统一的方式处理变长、不均匀采样和高频率的时间序列。我们提出了一种路径特征函数 (PCF)距离来描述 路径空间 上的分布,并将相应的PCF距离作为一种新颖的IPM来量化路径空间上的测量之间的距离。

基于路径的单元特征 ([26]),我们提出的 PCF 具有深刻的理论基础,根植于粗略路径理论 ([7]), 该理论利用单元特征的非交换性和群结构来编码路径的顺序信息。 CF 可以被视为具有线性随机路径和 1 × 1 单元矩阵的 PCF 的特例。我们展示了 PCF 距离(PCFD)具有良好的分析特性,包括在模型参数中的有界性和可微性,并建立了 PCFD 与 MMD 之间的联系。这些结果大大推广了关于 Rd 上测量的经典定理 ([1]),由于路径空间的无限维性,这些证明更加技术上复杂。

在数值方面,我们设计了一种高效的算法,通过优化 PCFD 的可训练参数,最大化鉴别能力,并改善 GAN 训练的稳定性和效率。受到 [25, 41] 的启发,我们将提出的 PCF 集成到 IPM-GAN 框架中,利用一个专门针对序列数据的自动编码器架构。这种模型设计使我们的算法能够同时生成和重构逼真的时间序列,在包括隐私保护 ([35]) 和下游任务的语义表示提取 ([10]) 在内的各种应用中具有优势。为了评估我们的 PCF-GAN 的有效性,我们在几个标准的时间序列基准数据集上进行了广泛的数值实验,用于生成和重构任务。

以下总结了本工作的主要贡献:

• 通过 PCF 提出了路径空间上分布的新度量;

• 提供了关于所提出的损失度量的分析特性的理论证明,有益于 GAN 训练;

• 引入了一种新颖的 PCF-GAN,用于同时生成和重构时间序列;以及

• 报告了实验证据,验证了我们的方法在各种时间序列生成和重构任务上相对于几种不同损失函数的几种最先进的 GANs 的表现。

相关工作。鉴于现实时间序列合成的广泛实际应用和挑战 ([3, 4]),各种方法被提出来改进 GANs 的质量,以用于合成时间序列。一些作品,例如 [43, 45, 36],致力于改进 GANs 的鉴别器,使其更适合于由时间序列引起的分布。其中,[43] 中的 COT-GAN 与 PCF-GAN 有着类似的理念,它引入了基于因果最优传输的新型鉴别器(可以看作是针对序列数据量身定制的 Sinkhorn 散度的改进变体),而 TimeGAN ([45]) 具有类似的自动编码器结构,它改善了生成器的质量并使时间序列重构成为可能。与 PCF-GAN 不同,TimeGAN 的重构和生成模块是分开的,而且它还具有额外的逐步监督损失和鉴别损失。在另一个方面,CEGEN[36]、GT-GAN [17]、COSCI-GAN [39] 和 EWGAN[37] 主要关注网络框架和生成器架构的设计,这些方法在几个基准数据集上取得了最先进的结果。


2 准备工作

Rd上测度的特征函数,即傅里叶变换,在概率论和分析中发挥着核心作用。路径特征函数(PCF)是特征函数到路径空间的自然扩展。

2.1 Rd中随机变量之间的特征函数距离(CFD)


2.2 路径的幺正特征


3 路径特征函数损失

3.1 路径特征函数(PCF)

路径 x ∈ X 的幺正特征在某种程度上类似于对于 Rd 值随机变量的 。因此,对于随机路径 X,期望的幺正特征可以被视为路径空间上的测度的特征函数。([7])

3.2 通过PCF进行新的距离测量

我们现在介绍一种新颖而自然的距离度量,通过比较它们的路径特征函数来衡量路径空间上的分布之间的差异。在整个过程中,dHS表示与Hilbert-Schmidt范数∥ • ∥HS相关联的度量在 Cm×m 上: 在温和的条件下,PCFD 对于连续参数几乎处处可微,因此确保了在训练中进行梯度下降的可行性。

正如附录中的引理 B.2 和定理 B.8 所述。

我们证明了类似于 Rd 中的 [40],PCFD 可以被解释为具有特定核函数 κ 的 MMD(请参见附录 B.3)。例子 B.12 阐明了与时间序列的展平上的 CF 距离相比,PCFD 在随机过程假设检验中具有更强的测试能力。

3.3 经验测量下的 PCFD 计算


我们逼近经验分布中的 M 的方法与 [25] 中的方法不同,后者使用高斯混合分布对 M 进行参数化。在第 4.1 节和第 5 节中,通过优化经验分布的方法表明,相比于 [25] 需要更大的样本量,适度大小的 k 就足以实现更优越的性能。


4 PCF-GAN 用于时间序列生成

4.1 EPCFD 的培训

在本小节中,我们将 EPCFD 应用于时间序列生成的 GAN 训练中作为鉴别器。我们训练生成器来最小化真实数据分布和合成数据分布之间的 EPCFD,而由 表征的 M 的经验分布则通过最大化 EPCFD 进行优化。

我们应用小批量梯度下降来交替优化生成器和鉴别器的模型参数。具体来说,为了计算鉴别器参数 θM 的梯度,我们使用了 [26] 中引入的高效反向传播算法,该算法有效地利用了李群值输出和单元特征的循环结构。优化 θM 的初始化在附录 B.4.1 中概述。

学习时间相关的 Ornstein–Uhlenbeck 过程。根据 [19],我们将提出的 PCF-GAN 应用于学习通过时间相关的 Ornstein–Uhlenbeck(OU)过程模拟的合成时间序列数据的分布的玩具示例。让 (Xt)t∈[0,T] 为由 SDE 描述的 R 值随机过程,即,dXt = (µt − θXt) dt + σdBt,其中 X0 ∼ N (0, 1),其中 (Bt)t∈[0,T] 是 1D 布朗运动,N (0, 1) 是标准正态分布。我们设置 µ = 0.01,θ = 0.02,σ = 0.4 和时间离散化 δt = 0.1。我们在 t = 0 到 t = 63 之间生成了 10000 个样本,并在每个整数时间点进行了下采样。图 2 显示了由我们的 GAN 模型生成的合成数据,该模型使用了 EPCFD 鉴别器,这些数据在视觉上与真实数据无法区分。此外,我们的模型准确地捕获了各个时间点的边际分布。

4.2 PCF-GAN:使用PCFD和顺序嵌入进行学习

为了有效地学习高维或复杂时间序列的分布,仅仅使用 EPCF 损失作为 GAN 鉴别器并不是最佳方法,这是因为由 EPCFD 的样本大小 k 和阶数 m 所施加的计算限制。为了克服这个问题,我们采用了 [41, 25] 的方法,通过自动编码器结构训练一个生成器,使其匹配时间序列嵌入的分布。图 3 说明了我们模型的运作机制。

为了继续,让我们首先回顾生成器 Gθg: Z → X 并引入嵌入层 Fθf,它将 X 映射到 Z(噪声空间)。这里 θf 是嵌入层的模型参数,将从数据中学习。为了实现这一目标,自然地优化生成器的模型参数 θg,通过最小化生成损失 Lgenerator,该损失是真实分布 X 和合成分布 Gθg(Z) 之间的嵌入的 EPCFD 距离;具体公式如下:

编码器 -解码器 结构:考虑到嵌入在优化生成损失 Lgenerator 时可能退化的观察,我们提出了考虑自动编码器结构的动机。例如,无论真实和合成分布是否一致,Fθf 可能仅是一个常数函数,以实现完美的生成器损失 0。如果 Fθf 是单射的,这种退化就可以被禁止。从启发式角度来看,良好的嵌入应该捕获关于实际时间序列 X 的基本信息,并允许从其嵌入 重构时间序列 X。这激发了我们训练嵌入 Fθf,使得 接近于恒等映射。如果满足了这个条件,就意味着 是彼此的伪逆,从而确保了所需的单射性。这样, 就分别充当了原始数据的编码器和解码器。

为了强制施加 的单射性,我们考虑了两个额外的损失函数来训练 θf,如下所示:
通过这样做,我们增强了 EPCFDθₘ 和 EPCFDθ'ₘ 的判别能力。因此,这有助于训练生成器,使真实数据的嵌入与噪声分布和重构后的噪声分布一致。
根据定理 3.6,嵌入层和生成器参数的 EPCFD 的可微性是有保证的,只要 Fθf ◦ Gθg 满足其利普希茨条件。让我们再次强调我们提出的 PCF-GAN 的两个关键优势。首先,由于 PCF-GAN 中的自编码器结构,它具有生成具有重构功能的合成时间序列的能力。其次,由于引理 3.5 显示的 PCFD 的一致有界性,我们的 PCF-GAN 不需要对嵌入层和 EPCFD 参数进行任何额外的梯度约束,与其他基于 MMD 的 GAN 和 Wasserstein-GAN 相比。这有助于提高训练效率,并缓解了在训练类似 RNN 的序列网络时出现的梯度消失问题。我们在算法 1 中提供了提出的 PCF-GAN 的伪代码。

5 数值实验
为了验证其有效性,我们将我们提出的 PCF-GAN 应用于广泛的时间序列数据,并使用各种测试指标与最先进的用于时间序列生成的 GAN 进行基准比较。关于数值实验的全部细节(数据集、评估指标和超参数选择)在附录 C 中。附录 D 中报告了额外的消融研究和生成样本的可视化。
基准模型:我们以循环 GAN(RGAN)、TimeGAN 和 COT-GAN 为基准模型。这些模型是展现出强大实验性能的 GAN 的代表。为了公平起见,我们将我们的模型与基准模型进行比较,同时将生成器和嵌入/判别器固定为常见的顺序神经网络(2 层 LSTM)。
数据集:我们在四个不同的时间序列数据集上对我们的模型进行基准测试,这些数据集具有各种特征:维度、采样频率、周期性、噪声水平和相关性。
1. 粗糙波动性(Rough Volatility):高频合成时间序列数据,噪声信号比低。
2. 股票(Stock):2013年至2021年间十家上市公司的每日历史数据,包括成交量、最高价、最低价、开盘价、收盘价和调整后收盘价等特征。
3. 北京空气质量:来自不同监测站的每小时空气污染物数据的UCI多变量时间序列。






请到「今天看啥」查看全文