专栏名称: AI领域技术栈

人工智能领域技术：计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法

26岁OpenAI举报人自杀身亡，生前揭露ChatGPT训练黑幕引发轩然大波！

AI领域技术栈 · 公众号 · · 2024-12-15 22:51

正文

阅读原文小猫动图

近日，一则令人震惊的消息在科技界和公众中引发了广泛关注：年仅26岁的OpenAI举报人Suchir Balaji被发现死在自己的公寓中，法医认定其死因为自杀。这位年轻人在生前曾公开指控OpenAI在训练ChatGPT时存在违法行为，其突然离世使得这一事件更加扑朔迷离。本文将深入探讨此事背后的真相，以及它如何引发了一场关于人工智能伦理和法律的广泛讨论。

年轻举报人的离奇死亡

Suchir Balaji，一个才华横溢的计算机科学家，曾是OpenAI的一员。他在大学期间就展现出了对人工智能的浓厚兴趣，并坚信AI能为社会带来巨大益处。然而，当他加入OpenAI并深入参与ChatGPT及底层模型的开发后，他的想法开始发生转变。Balaji发现，OpenAI在使用新闻和其他网站的信息训练其AI模型时，可能违反了美国关于已发表作品的“合理使用”法律。

今年10月，Balaji在个人网站上发表了一篇长文，详细阐述了他的观点。他指出，OpenAI的做法不仅损害了那些数据被利用的企业和创业者的利益，还对整个互联网生态系统构成了威胁。然而，就在这篇博文发表后不久，Balaji就被发现死在了自己的公寓中。

这一消息无疑给科技界带来了巨大的震撼。Balaji的朋友们纷纷表示，他生前性格开朗、聪明过人，绝不像是一个会自杀的人。他的突然离世，使得原本就充满争议的事件更加扑朔迷离。

ChatGPT训练黑幕的揭露

Balaji在博文中详细分析了OpenAI在训练ChatGPT时可能违反的“合理使用”法律。他引用了1976年《版权法》第107条中对“合理使用”的定义，并逐一探讨了四个关键因素：

使用的目的和性质：Balaji指出，作为一款商业产品，ChatGPT与用于训练它的数据具有相似的用途，因此构成了替代使用，而非非替代使用。这违反了“合理使用”的原则。

受版权保护作品的性质：虽然这一因素在各项标准中影响力较小，但Balaji仍认为它不容忽视。他提到，ChatGPT所训练的数据中包含了大量受版权保护的作品，这些作品的性质使得其更容易受到侵权。

使用部分相对于整个受版权保护作品的数量和实质性：Balaji采用了信息论的方法进行了量化分析。他发现，ChatGPT的输出中包含了大量来自训练数据集的信息，这使得其难以符合“合理使用”的要求。

对受版权保护作品的潜在市场影响：Balaji指出，ChatGPT的发布对多个在线知识社区造成了冲击，如Stack Overflow的访问量下降了约12%。这证明了ChatGPT的训练数据对市场造成了显著影响，从而进一步违反了“合理使用”的原则。

除了以上分析外，Balaji还提到了OpenAI与多家新闻机构签订的数据许可协议。他认为，即使签署了协议，也不能保证数据的“合理使用”。因为未获得类似许可协议的情况下使用受版权保护的数据进行训练，同样构成了市场利益损害。

OpenAI的回应与争议

面对Balaji的指控，OpenAI予以了坚决否认。他们强调，大模型训练中的所有工作都符合“合理使用”法律规定。然而，这一回应并未平息争议。事实上，自ChatGPT发布以来，OpenAI就面临着来自作家、程序员、记者等群体的一波又一波的诉讼潮。他们认为，OpenAI非法使用自己受版权保护的材料来训练AI模型，严重损害了他们的商业模式。

26岁OpenAI举报人自杀身亡，生前揭露ChatGPT训练黑幕引发轩然大波！

正文

请到「今天看啥」查看全文