【NeurIPS2024】《应对在线持续学习中的合成数据污染》_数据派THU的专栏文章_微信文章

【NeurIPS2024】《应对在线持续学习中的合成数据污染》

数据派THU · 公众号 · 大数据 · 2024-12-11 17:00

正文

来源：专知
本文约1000字，建议阅读5分钟
我们的实验结果表明，受污染的数据集可能阻碍现有在线CL方法的训练效果。

近年来，生成高保真真实感图像的能力取得了显著进展，特别是随着基于扩散模型（Diffusion-based Models）的技术发展。然而，人工智能生成图像（AI-generated images）的普及可能对机器学习社区带来尚未明确识别的副作用。同时，深度学习在计算机视觉领域的成功依赖于从互联网收集的大规模数据集。随着大量合成数据被添加到互联网上，未来研究人员可能难以收集到不含人工智能生成内容的“干净”数据集。

已有研究表明，当训练数据集中包含合成图像污染时，模型的性能可能会显著下降。在本文中，我们探索了数据集污染对在线持续学习（Online Continual Learning, CL）研究的潜在影响。我们的实验结果表明，受污染的数据集可能阻碍现有在线CL方法的训练效果。

为缓解合成图像对在线持续学习模型性能的负面影响，我们提出了一种新的方法：基于熵选择的真实-合成相似性最大化（Entropy Selection with Real-Synthetic Similarity Maximization, ESRM）。该方法的核心目标是在训练过程中减轻由合成图像污染导致的性能下降问题。实验结果表明，特别是在污染程度较高的情况下，我们的方法显著缓解了性能下降。

为了保证可复现性，我们的工作源码已公开，地址为： https://github.com/maorong-wang/ESRM 。

关于我们

【NeurIPS2024】《应对在线持续学习中的合成数据污染》

正文

请到「今天看啥」查看全文