专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新研究揭示AI数据之殇：科技巨头垄断权力，「西方中心」数据加剧模型偏见

新智元 · 公众号 · AI · 2025-01-30 11:50

正文

编辑：乔杨

「AI就是数据」，这句话想必已经成为了业内的共识。

当前的算法需要海量数据进行训练，我们喂给模型的内容决定了它的行为和结果。但问题是：AI领域的开发者和研究人员并不真正了解这些数据的来源。

与模型开发的复杂性相比，人工智能领域的数据收集实践还不成熟，很多数据集都无法给出内容及其来源的明确信息。

成立于2024年的Data Provenance Initiative就想要解决这个问题——构建AI模型的数据集究竟来源何处。这是一个志愿者团体，由来自世界各地的AI学术界和工业界的50多名研究人员组成。

他们审核的近4000个公共数据集中，涵盖了67个国家、近700个组织、600多种语言，含有约800种数据来源，时间跨度长达三十年。

DPI的研究结果呈现出一种令人担忧的趋势：AI领域的数据存在着「垄断」倾向，绝大部分权力正逐渐集中到少数几个科技巨头的手中。

LLM数据来源之变

时间回溯到2010年代初，当时的数据集还会涵盖多种来源，不仅有百科全书和网络，还有议会记录、财报电话、天气预报等。

参与项目的MIT研究员Shayne Longpre表示，这是因为当时的数据集是为个别任务构建的，要专门从不同来源收集和整理。

2017年，Transformer横空出世，虽然Scaling Law还要几年后才提出，但这就已经标志着我们开始迈进了「大模型」时代，数据集越大、模型参数量越大，就会有更好的性能。

它不仅来自百科全书和网络，还来自议会记录、财报电话和天气预报等来源。隆普雷说，当时，人工智能数据集是专门从不同来源收集和整理的，以适应个别任务。

从2018开始，网络就一直是所有媒介数据（包括音频、图像和视频）的主要来源；如今，大多数AI数据集都是通过不加区别地从互联网上爬取材料构建的，抓取数据和精心策划的数据集之间存在着显著且逐渐扩大的差距。

Longpre表示，对基座模型的能力而言，似乎没有什么比互联网及数据的规模和异构性更重要了。对规模的需求也促进了合成数据的大量使用。

除了语言模型，过去几年中我们也见证了多模态GenAI的兴起，比如各种图像和视频的生成模型。和LLM类似，这些模型也需要尽可能多的数据。

正如下表所示，视频模型的语音和图像数据集中，超过70%的数据都来自同一个来源YouTube。

这对于拥有YouTube平台的谷歌和母公司Alphabet来说可能是天大的利好。文本数据是分布在整个互联网上的，且由许多不同的网站和平台控制，但对于视频数据，权力竟如此集中地掌握在一家公司手中。

AI Now Institute联合执行董事Sarah Myers West表示，由于谷歌也在开发自己的人工智能模型（例如Gemini），其巨大的优势也引发了人们的疑问：谷歌将如何向竞争对手提供这些数据。

更深一层，如果我们所交互的大多数AI数据集都是在反映以利润为导向的科技巨头的意图和设计，那么这也会不可避免地作用到其他方面，这些大公司会以符合自己利益的方式重塑我们世界的基础设施。

DPI计划的另一位成员Sara Hooker从另一个角度提出了担忧：单一数据来源造成的偏差和失真。

博主们将视频上传到YouTube时会考虑到特定的受众群体，视频中的内容也通常是为了达到特定的效果。那么，这些视频能否捕捉到人性中的细微之处，以及各种不同的生活和行为方式？

举个简单的例子，比如你是一个想了解中国的歪果仁，能否通过影视剧、小视频和短剧，学习到中国人的性格、行为和处事方式呢？

隐藏起来的数据集

虽然许多科技公司都会选择发布部分模型的代码甚至权重，但几乎很少公开训练数据。原因之一是保护竞争优势，但实际上还有另一个原因：由于数据集捆绑、打包和分发的方式复杂且不透明，他们甚至可能也说不清数据来源。

此外，关于使用和共享数据的限制，发布这些模型的公司可能也没有完整信息。DPI的研究人员发现，数据集通常附加有限制性许可或条款，比如限制其用于商业目的等。

如图所示，文本、语音和视频数据集分别有25%、33%和32%明确发布了非商业许可，这意味着它们可以用于学术或个人创意，但不能用于商业盈利

数据集之间的集成和沿袭缺乏一致性，这使得开发人员很难对使用哪些数据做出正确的选择，也几乎不可能百分百保证，模型训练过程中完全没有使用过受版权保护的数据。