【新智元导读】相比LLM和Agent领域日新月异、高度成熟的进展相比,数据收集方面的规范有明显滞后。由超过50名研究人员组成的「数据溯源计划」(DPI)旨在回答这样一个问题:AI训练所需的数据究竟来自何处?
「AI就是数据」,这句话想必已经成为了业内的共识。当前的算法需要海量数据进行训练,我们喂给模型的内容决定了它的行为和结果。但问题是:AI领域的开发者和研究人员并不真正了解这些数据的来源。
与模型开发的复杂性相比,人工智能领域的数据收集实践还不成熟,很多数据集都无法给出内容及其来源的明确信息。
成立于2024年的Data Provenance Initiative就想要解决这个问题——构建AI模型的数据集究竟来源何处。这是一个志愿者团体,由来自世界各地的AI学术界和工业界的50多名研究人员组成。
他们审核的近4000个公共数据集中,涵盖了67个国家、近700个组织、600多种语言,含有约800种数据来源,时间跨度长达三十年。
DPI的研究结果呈现出一种令人担忧的趋势:AI领域的数据存在着「垄断」倾向,绝大部分权力正逐渐集中到少数几个科技巨头的手中。
时间回溯到2010年代初,当时的数据集还会涵盖多种来源,不仅有百科全书和网络,还有议会记录、财报电话、天气预报等。
参与项目的MIT研究员Shayne Longpre表示,这是因为当时的数据集是为个别任务构建的,要专门从不同来源收集和整理。
2017年,Transformer横空出世,虽然Scaling Law还要几年后才提出,但这就已经标志着我们开始迈进了「大模型」时代,数据集越大、模型参数量越大,就会有更好的性能。
它不仅来自百科全书和网络,还来自议会记录、财报电话和天气预报等来源。隆普雷说,当时,人工智能数据集是专门从不同来源收集和整理的,以适应个别任务。
从2018开始,网络就一直是所有媒介数据(包括音频、图像和视频)的主要来源;如今,大多数AI数据集都是通过不加区别地从互联网上爬取材料构建的,抓取数据和精心策划的数据集之间存在着显著且逐渐扩大的差距。
Longpre表示,对基座模型的能力而言,似乎没有什么比互联网及数据的规模和异构性更重要了。对规模的需求也促进了合成数据的大量使用。
除了语言模型,过去几年中我们也见证了多模态GenAI的兴起,比如各种图像和视频的生成模型。和LLM类似,这些模型也需要尽可能多的数据。
正如下表所示,视频模型的语音和图像数据集中,超过70%的数据都来自同一个来源YouTube。
这对于拥有YouTube平台的谷歌和母公司Alphabet来说可能是天大的利好。文本数据是分布在整个互联网上的,且由许多不同的网站和平台控制,但对于视频数据,权力竟如此集中地掌握在一家公司手中。
AI Now Institute联合执行董事Sarah Myers West表示,由于谷歌也在开发自己的人工智能模型(例如Gemini),其巨大的优势也引发了人们的疑问:谷歌将如何向竞争对手提供这些数据。
更深一层,如果我们所交互的大多数AI数据集都是在反映以利润为导向的科技巨头的意图和设计,那么这也会不可避免地作用到其他方面,这些大公司会以符合自己利益的方式重塑我们世界的基础设施。
DPI计划的另一位成员Sara Hooker从另一个角度提出了担忧:单一数据来源造成的偏差和失真。
博主们将视频上传到YouTube时会考虑到特定的受众群体,视频中的内容也通常是为了达到特定的效果。那么,这些视频能否捕捉到人性中的细微之处,以及各种不同的生活和行为方式?
举个简单的例子,比如你是一个想了解中国的歪果仁,能否通过影视剧、小视频和短剧,学习到中国人的性格、行为和处事方式呢?
虽然许多科技公司都会选择发布部分模型的代码甚至权重,但几乎很少公开训练数据。原因之一是保护竞争优势,但实际上还有另一个原因:由于数据集捆绑、打包和分发的方式复杂且不透明,他们甚至可能也说不清数据来源。
此外,关于使用和共享数据的限制,发布这些模型的公司可能也没有完整信息。DPI的研究人员发现,数据集通常附加有限制性许可或条款,比如限制其用于商业目的等。
如图所示,文本、语音和视频数据集分别有25%、33%和32%明确发布了非商业许可,这意味着它们可以用于学术或个人创意,但不能用于商业盈利
数据集之间的集成和沿袭缺乏一致性,这使得开发人员很难对使用哪些数据做出正确的选择,也几乎不可能百分百保证,模型训练过程中完全没有使用过受版权保护的数据。