【数据霸权:科技巨头如何掌控AI的力量】
#人工智能# 离不开数据。为了训练算法以实现预期目标,我们需要大量的数据,而输入到 AI 模型中的数据质量直接决定了输出结果的优劣。然而,问题在于 AI 开发者和研究人员对所使用的数据来源了解甚少。相比于 #AI模型# 开发的复杂性,AI 的数据收集实践尚不成熟,大规模数据集通常缺乏关于其内容和来源的详细信息。
为了解决这一问题,来自学术界和产业界的 50 多名研究人员开展了数据溯源计划(Data Provenance Initiative)。他们提出了一个简单而重要的问题:构建 AI 所需的数据究竟来自哪里?为此,他们审查了近 4,000 个公共数据集,这些数据集涵盖了 600 多种语言、67 个国家,并包含长达 30 年的数据,数据来源涉及 800 个独特的渠道和近 700 个组织。
这项研究的结果首次独家发布在《 #麻省理工科技评论# 》上(文末附报告链接),揭示了一个令人担忧的趋势:AI 的数据实践正在使权力过度集中于少数几家主导科技公司手中。
项目成员、MIT 研究员 Shayne Longpre 表示,在 2010 年代初期,数据集的来源相对多样化。
戳链接查看详情: 数据霸权:科技巨头如何掌控AI的力量
#人工智能# 离不开数据。为了训练算法以实现预期目标,我们需要大量的数据,而输入到 AI 模型中的数据质量直接决定了输出结果的优劣。然而,问题在于 AI 开发者和研究人员对所使用的数据来源了解甚少。相比于 #AI模型# 开发的复杂性,AI 的数据收集实践尚不成熟,大规模数据集通常缺乏关于其内容和来源的详细信息。
为了解决这一问题,来自学术界和产业界的 50 多名研究人员开展了数据溯源计划(Data Provenance Initiative)。他们提出了一个简单而重要的问题:构建 AI 所需的数据究竟来自哪里?为此,他们审查了近 4,000 个公共数据集,这些数据集涵盖了 600 多种语言、67 个国家,并包含长达 30 年的数据,数据来源涉及 800 个独特的渠道和近 700 个组织。
这项研究的结果首次独家发布在《 #麻省理工科技评论# 》上(文末附报告链接),揭示了一个令人担忧的趋势:AI 的数据实践正在使权力过度集中于少数几家主导科技公司手中。
项目成员、MIT 研究员 Shayne Longpre 表示,在 2010 年代初期,数据集的来源相对多样化。
戳链接查看详情: 数据霸权:科技巨头如何掌控AI的力量