专栏名称: 唧唧堂
唧唧堂学术管理分享平台,更好的学术阅读与写作!
51好读  ›  专栏  ›  唧唧堂

NBER:用户贡献的AI训练数据是否会自我耗尽?

唧唧堂  · 公众号  ·  · 2024-09-25 23:51

正文

本期推荐一篇2024年7月发表在NBER上的论文《用户贡献的AI训练数据是否会自我耗尽?》。随着人工智能(AI)技术的迅猛发展,尤其是在生成式AI领域,越来越多的AI模型依赖于海量的用户贡献数据进行训练。这些数据包括用户在各类平台上发布的文本、代码等内容,支撑了AI算法的学习和进化。然而,这一现象引发了一个重要问题:随着AI的普及,AI能否自我完善并持续依赖用户贡献数据?换句话说,AI的使用是否会减少用户的贡献,最终导致数据源枯竭,进而限制AI的进步?

针对这一问题,论文提出了一个新的理论视角,认为AI的引入并不会导致训练数据的枯竭。相反,AI可以通过处理简单的问题,促使用户集中精力回答更复杂、更有价值的问题,从而提升数据的整体质量。论文通过构建一个理论模型,详细分析了用户在平台上的贡献行为,以及AI如何改变这种行为。具体来说,模型假设平台上有若干贡献者,他们需要在成本和收益之间进行权衡,决定是否回答用户提出的问题。模型还进一步扩展到AI存在的场景中,假设AI能够回答部分简单问题,而将更具挑战性的问题留给用户。通过对比AI引入前后的贡献者行为变化,论文发现,尽管AI可能减少部分简单问题的用户贡献,但它会增强对复杂问题的贡献,从而增加训练数据的价值。

论文还探讨了通过支付机制来激励用户继续贡献数据的可行性。研究表明,在AI产品逐渐替代部分用户贡献的情况下,支付激励可以在一定程度上弥补可能的贡献减少。然而,这种机制的效果是有限的,尤其是在支付不足以覆盖贡献成本时。因此,单纯依赖支付可能无法长期维持高质量的用户贡献。总体而言,研究认为AI与用户贡献之间存在一种正反馈机制,即AI通过自动化简单任务,激发用户对复杂问题的贡献,这不仅避免了数据枯竭的风险,还可能提升训练数据的质量,为AI的发展提供更坚实的基础。通过这种方式,AI与用户之间的互动不仅不会导致数据供应减少,反而可能在未来促进更高质量的数据生成。

论文原文:
NBER,July 2024
Will User-Contributed AI Training Data Eat Its Own Tail?
Joshua S. Gans



唧唧堂学院推荐订阅


以下专栏及课程,安卓手机用户可通过下方小程序链接订阅,苹果手机用户请通过文末“阅读原文”链接访问唧唧堂学院H5页面订阅。


论文导读


**经济金融**

经济金融论文导读会员(年度)

2024 经济学顶刊论文导读/数据库

2024 金融学顶刊论文导读/数据库

中国主题经济学论文导读专栏

AER百年最经典论文导读专栏

JF2022最佳论文导读专栏

新冠主题经济学论文导读专栏

人工智能主题论文导读专栏


更多经济金融论文导读专栏请访问

唧唧堂学院



方法班课程


AMJ(2022)微观研讨班

计量经济学论文研讨班







请到「今天看啥」查看全文