近日,一则令人震惊的消息在科技界和公众中引发了广泛关注:年仅26岁的OpenAI举报人Suchir Balaji被发现死在自己的公寓中,法医认定其死因为自杀。这位年轻人在生前曾公开指控OpenAI在训练ChatGPT时存在违法行为,其突然离世使得这一事件更加扑朔迷离。本文将深入探讨此事背后的真相,以及它如何引发了一场关于人工智能伦理和法律的广泛讨论。
Suchir Balaji,一个才华横溢的计算机科学家,曾是OpenAI的一员。他在大学期间就展现出了对人工智能的浓厚兴趣,并坚信AI能为社会带来巨大益处。然而,当他加入OpenAI并深入参与ChatGPT及底层模型的开发后,他的想法开始发生转变。Balaji发现,OpenAI在使用新闻和其他网站的信息训练其AI模型时,可能违反了美国关于已发表作品的“合理使用”法律。
今年10月,Balaji在个人网站上发表了一篇长文,详细阐述了他的观点。他指出,OpenAI的做法不仅损害了那些数据被利用的企业和创业者的利益,还对整个互联网生态系统构成了威胁。然而,就在这篇博文发表后不久,Balaji就被发现死在了自己的公寓中。
这一消息无疑给科技界带来了巨大的震撼。Balaji的朋友们纷纷表示,他生前性格开朗、聪明过人,绝不像是一个会自杀的人。他的突然离世,使得原本就充满争议的事件更加扑朔迷离。
Balaji在博文中详细分析了OpenAI在训练ChatGPT时可能违反的“合理使用”法律。他引用了1976年《版权法》第107条中对“合理使用”的定义,并逐一探讨了四个关键因素:
使用的目的和性质:Balaji指出,作为一款商业产品,ChatGPT与用于训练它的数据具有相似的用途,因此构成了替代使用,而非非替代使用。这违反了“合理使用”的原则。
受版权保护作品的性质:虽然这一因素在各项标准中影响力较小,但Balaji仍认为它不容忽视。他提到,ChatGPT所训练的数据中包含了大量受版权保护的作品,这些作品的性质使得其更容易受到侵权。
使用部分相对于整个受版权保护作品的数量和实质性:Balaji采用了信息论的方法进行了量化分析。他发现,ChatGPT的输出中包含了大量来自训练数据集的信息,这使得其难以符合“合理使用”的要求。
对受版权保护作品的潜在市场影响:Balaji指出,ChatGPT的发布对多个在线知识社区造成了冲击,如Stack Overflow的访问量下降了约12%。这证明了ChatGPT的训练数据对市场造成了显著影响,从而进一步违反了“合理使用”的原则。
除了以上分析外,Balaji还提到了OpenAI与多家新闻机构签订的数据许可协议。他认为,即使签署了协议,也不能保证数据的“合理使用”。因为未获得类似许可协议的情况下使用受版权保护的数据进行训练,同样构成了市场利益损害。
面对Balaji的指控,OpenAI予以了坚决否认。他们强调,大模型训练中的所有工作都符合“合理使用”法律规定。然而,这一回应并未平息争议。事实上,自ChatGPT发布以来,OpenAI就面临着来自作家、程序员、记者等群体的一波又一波的诉讼潮。他们认为,OpenAI非法使用自己受版权保护的材料来训练AI模型,严重损害了他们的商业模式。