专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
题材挖掘君  ·  DeepSeek,最新核心标的+延伸方向(精 ... ·  16 小时前  
题材挖掘君  ·  DeepSeek,最新核心标的+延伸方向(精 ... ·  16 小时前  
宝玉xp  ·  Anthropic 并不鼓励用 AI ... ·  昨天  
新智元  ·  潞晨华为联手放大招!DeepSeek-R1推 ... ·  昨天  
51好读  ›  专栏  ›  新智元

最新研究揭示AI数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

新智元  · 公众号  · AI  · 2025-01-30 11:50

正文



  新智元报道  

编辑:乔杨
【新智元导读】相比LLM和Agent领域日新月异、高度成熟的进展相比,数据收集方面的规范有明显滞后。由超过50名研究人员组成的「数据溯源计划」(DPI)旨在回答这样一个问题:AI训练所需的数据究竟来自何处?

「AI就是数据」,这句话想必已经成为了业内的共识。

当前的算法需要海量数据进行训练,我们喂给模型的内容决定了它的行为和结果。但问题是:AI领域的开发者和研究人员并不真正了解这些数据的来源。

与模型开发的复杂性相比,人工智能领域的数据收集实践还不成熟,很多数据集都无法给出内容及其来源的明确信息。

成立于2024年的Data Provenance Initiative就想要解决这个问题——构建AI模型的数据集究竟来源何处。这是一个志愿者团体,由来自世界各地的AI学术界和工业界的50多名研究人员组成。

他们审核的近4000个公共数据集中,涵盖了67个国家、近700个组织、600多种语言,含有约800种数据来源,时间跨度长达三十年。

DPI的研究结果呈现出一种令人担忧的趋势:AI领域的数据存在着「垄断」倾向,绝大部分权力正逐渐集中到少数几个科技巨头的手中。

LLM数据来源之变

时间回溯到2010年代初,当时的数据集还会涵盖多种来源,不仅有百科全书和网络,还有议会记录、财报电话、天气预报等。

参与项目的MIT研究员Shayne Longpre表示,这是因为当时的数据集是为个别任务构建的,要专门从不同来源收集和整理。

2017年,Transformer横空出世,虽然Scaling Law还要几年后才提出,但这就已经标志着我们开始迈进了「大模型」时代,数据集越大、模型参数量越大,就会有更好的性能。

它不仅来自百科全书和网络,还来自议会记录、财报电话和天气预报等来源。隆普雷说,当时,人工智能数据集是专门从不同来源收集和整理的,以适应个别任务。

从2018开始,网络就一直是所有媒介数据(包括音频、图像和视频)的主要来源;如今,大多数AI数据集都是通过不加区别地从互联网上爬取材料构建的,抓取数据和精心策划的数据集之间存在着显著且逐渐扩大的差距。

Longpre表示,对基座模型的能力而言,似乎没有什么比互联网及数据的规模和异构性更重要了。对规模的需求也促进了合成数据的大量使用。

除了语言模型,过去几年中我们也见证了多模态GenAI的兴起,比如各种图像和视频的生成模型。和LLM类似,这些模型也需要尽可能多的数据。

正如下表所示,视频模型的语音和图像数据集中,超过70%的数据都来自同一个来源YouTube。

这对于拥有YouTube平台的谷歌和母公司Alphabet来说可能是天大的利好。文本数据是分布在整个互联网上的,且由许多不同的网站和平台控制,但对于视频数据,权力竟如此集中地掌握在一家公司手中。

AI Now Institute联合执行董事Sarah Myers West表示,由于谷歌也在开发自己的人工智能模型(例如Gemini),其巨大的优势也引发了人们的疑问:谷歌将如何向竞争对手提供这些数据。

更深一层,如果我们所交互的大多数AI数据集都是在反映以利润为导向的科技巨头的意图和设计,那么这也会不可避免地作用到其他方面,这些大公司会以符合自己利益的方式重塑我们世界的基础设施。

DPI计划的另一位成员Sara Hooker从另一个角度提出了担忧:单一数据来源造成的偏差和失真。

博主们将视频上传到YouTube时会考虑到特定的受众群体,视频中的内容也通常是为了达到特定的效果。那么,这些视频能否捕捉到人性中的细微之处,以及各种不同的生活和行为方式?

举个简单的例子,比如你是一个想了解中国的歪果仁,能否通过影视剧、小视频和短剧,学习到中国人的性格、行为和处事方式呢?

隐藏起来的数据集

虽然许多科技公司都会选择发布部分模型的代码甚至权重,但几乎很少公开训练数据。原因之一是保护竞争优势,但实际上还有另一个原因:由于数据集捆绑、打包和分发的方式复杂且不透明,他们甚至可能也说不清数据来源。

此外,关于使用和共享数据的限制,发布这些模型的公司可能也没有完整信息。DPI的研究人员发现,数据集通常附加有限制性许可或条款,比如限制其用于商业目的等。

如图所示,文本、语音和视频数据集分别有25%、33%和32%明确发布了非商业许可,这意味着它们可以用于学术或个人创意,但不能用于商业盈利

数据集之间的集成和沿袭缺乏一致性,这使得开发人员很难对使用哪些数据做出正确的选择,也几乎不可能百分百保证,模型训练过程中完全没有使用过受版权保护的数据。





请到「今天看啥」查看全文