NBER：用户贡献的AI训练数据是否会自我耗尽？

唧唧堂 · 公众号 · · 2024-09-25 23:51

正文

本期推荐一篇2024年7月发表在NBER上的论文《用户贡献的AI训练数据是否会自我耗尽？》。随着人工智能（AI）技术的迅猛发展，尤其是在生成式AI领域，越来越多的AI模型依赖于海量的用户贡献数据进行训练。这些数据包括用户在各类平台上发布的文本、代码等内容，支撑了AI算法的学习和进化。然而，这一现象引发了一个重要问题：随着AI的普及，AI能否自我完善并持续依赖用户贡献数据？换句话说，AI的使用是否会减少用户的贡献，最终导致数据源枯竭，进而限制AI的进步？

针对这一问题，论文提出了一个新的理论视角，认为AI的引入并不会导致训练数据的枯竭。相反，AI可以通过处理简单的问题，促使用户集中精力回答更复杂、更有价值的问题，从而提升数据的整体质量。论文通过构建一个理论模型，详细分析了用户在平台上的贡献行为，以及AI如何改变这种行为。具体来说，模型假设平台上有若干贡献者，他们需要在成本和收益之间进行权衡，决定是否回答用户提出的问题。模型还进一步扩展到AI存在的场景中，假设AI能够回答部分简单问题，而将更具挑战性的问题留给用户。通过对比AI引入前后的贡献者行为变化，论文发现，尽管AI可能减少部分简单问题的用户贡献，但它会增强对复杂问题的贡献，从而增加训练数据的价值。

论文还探讨了通过支付机制来激励用户继续贡献数据的可行性。研究表明，在AI产品逐渐替代部分用户贡献的情况下，支付激励可以在一定程度上弥补可能的贡献减少。然而，这种机制的效果是有限的，尤其是在支付不足以覆盖贡献成本时。因此，单纯依赖支付可能无法长期维持高质量的用户贡献。总体而言，研究认为AI与用户贡献之间存在一种正反馈机制，即AI通过自动化简单任务，激发用户对复杂问题的贡献，这不仅避免了数据枯竭的风险，还可能提升训练数据的质量，为AI的发展提供更坚实的基础。通过这种方式，AI与用户之间的互动不仅不会导致数据供应减少，反而可能在未来促进更高质量的数据生成。

论文原文：

NBER，July 2024

Will User-Contributed AI Training Data Eat Its Own Tail?

Joshua S. Gans

唧唧堂学院推荐订阅

以下专栏及课程，安卓手机用户可通过下方小程序链接订阅，苹果手机用户请通过文末“阅读原文”链接访问唧唧堂学院H5页面订阅。

论文导读