本期推荐一篇2024年7月发表在NBER上的论文《用户贡献的AI训练数据是否会自我耗尽?》。随着人工智能(AI)技术的迅猛发展,尤其是在生成式AI领域,越来越多的AI模型依赖于海量的用户贡献数据进行训练。这些数据包括用户在各类平台上发布的文本、代码等内容,支撑了AI算法的学习和进化。然而,这一现象引发了一个重要问题:随着AI的普及,AI能否自我完善并持续依赖用户贡献数据?换句话说,AI的使用是否会减少用户的贡献,最终导致数据源枯竭,进而限制AI的进步?
针对这一问题,论文提出了一个新的理论视角,认为AI的引入并不会导致训练数据的枯竭。相反,AI可以通过处理简单的问题,促使用户集中精力回答更复杂、更有价值的问题,从而提升数据的整体质量。论文通过构建一个理论模型,详细分析了用户在平台上的贡献行为,以及AI如何改变这种行为。具体来说,模型假设平台上有若干贡献者,他们需要在成本和收益之间进行权衡,决定是否回答用户提出的问题。模型还进一步扩展到AI存在的场景中,假设AI能够回答部分简单问题,而将更具挑战性的问题留给用户。通过对比AI引入前后的贡献者行为变化,论文发现,尽管AI可能减少部分简单问题的用户贡献,但它会增强对复杂问题的贡献,从而增加训练数据的价值。
论文还探讨了通过支付机制来激励用户继续贡献数据的可行性。研究表明,在AI产品逐渐替代部分用户贡献的情况下,支付激励可以在一定程度上弥补可能的贡献减少。然而,这种机制的效果是有限的,尤其是在支付不足以覆盖贡献成本时。因此,单纯依赖支付可能无法长期维持高质量的用户贡献。总体而言,研究认为AI与用户贡献之间存在一种正反馈机制,即AI通过自动化简单任务,激发用户对复杂问题的贡献,这不仅避免了数据枯竭的风险,还可能提升训练数据的质量,为AI的发展提供更坚实的基础。通过这种方式,AI与用户之间的互动不仅不会导致数据供应减少,反而可能在未来促进更高质量的数据生成。
Will User-Contributed AI Training Data Eat Its Own Tail?