【数据霸权：科技巨头如何掌控AI的力量】#人工智能# 离不开数据-20241231181452_麻省理工科技评论的专栏文章_微信文章

【数据霸权：科技巨头如何掌控AI的力量】#人工智能# 离不开数据-20241231181452

麻省理工科技评论 · 微博 · · 2024-12-31 18:14

正文

2024-12-31 18:14
本条微博链接

【数据霸权：科技巨头如何掌控AI的力量】

#人工智能# 离不开数据。为了训练算法以实现预期目标，我们需要大量的数据，而输入到 AI 模型中的数据质量直接决定了输出结果的优劣。然而，问题在于 AI 开发者和研究人员对所使用的数据来源了解甚少。相比于 #AI模型# 开发的复杂性，AI 的数据收集实践尚不成熟，大规模数据集通常缺乏关于其内容和来源的详细信息。

为了解决这一问题，来自学术界和产业界的 50 多名研究人员开展了数据溯源计划（Data Provenance Initiative）。他们提出了一个简单而重要的问题：构建 AI 所需的数据究竟来自哪里？为此，他们审查了近 4,000 个公共数据集，这些数据集涵盖了 600 多种语言、67 个国家，并包含长达 30 年的数据，数据来源涉及 800 个独特的渠道和近 700 个组织。

这项研究的结果首次独家发布在《 #麻省理工科技评论# 》上（文末附报告链接），揭示了一个令人担忧的趋势：AI 的数据实践正在使权力过度集中于少数几家主导科技公司手中。

项目成员、MIT 研究员 Shayne Longpre 表示，在 2010 年代初期，数据集的来源相对多样化。

戳链接查看详情：

数据霸权：科技巨头如何掌控AI的力量

【数据霸权：科技巨头如何掌控AI的力量】#人工智能# 离不开数据-20241231181452

正文

请到「今天看啥」查看全文