训练数据的质量优劣,直接影响人工智能(AI)大模型的能力水平
。
当前,尽管大模型在文本/图像/视频等内容生成和理解等领域不断取得新突破,但由于数据来源的透明性不足,虚假信息泛滥和幻觉问题依然存在。
这可能会导致大模型性能下降,出现数据偏差、隐含偏差或行为失真等现象,还可能引发版权纠纷等法律问题。
近日,
来自麻省理工学院(MIT)研究团队及其合作者在提高大模型准确性、减少偏差方面取得了新进展
——
他们开发了一种名为 “Data Provenance Explorer” 的结构化审查工具,其通过自动生成详细的数据来源卡片,帮助 AI 从业者选择更适合其大模型的训练数据。
他们对 1800 多个文本数据集进行了系统审查,发现约 70% 的数据集缺乏必要的许可信息,50% 的数据集包含错误信息。
通过使用这一工具,
他们将无法验证的信息从 72% 降至 30%
,明显降低了数据的偏差,有效提高了数据的可追溯性和透明度。
相关研究论文以
“A large-scale audit of dataset licensing and attribution in AI”
为题,已发表在科学期刊
Nature Machine Intelligence
上。
该研究为大模型的训练提供了更可靠的数据基础,在推动 AI 领域的法律和伦理研究方面迈出了关键一步。
大模型的训练高度依赖于多样化的数据集,这些数据集通常来源不同,在组合使用的过程中有关其来源和使用限制的重要信息往往会丢失或被混淆。
例如,在创建 ImageNet 数据集时,就通过 Mechanical Turk 雇用了工人,并要求他们在将图像与概念进行匹配时使用维基百科页面作为参考,而从各种网络资源中抓取的数据集,很难追溯其组成部分的来源。
该论文的通讯作者 Robert Mahari 表示,“要了解 AI 模型的能力和局限性,最好的方法之一就是了解它是基于什么数据训练的。如果数据来源出现错误归属和混淆,就会产生严重的透明度问题。”
为此,研究人员将数据来源定义为数据集的来源、创建和许可遗产( licensing heritage)以及其特征的组合,并开发了 Data Provenance Explorer,其工作原理是利用算法自动生成详细的数据来源卡片,涵盖来源、许可信息以及潜在的偏差风险,从而帮助 AI 从业者在训练模型时做出更为明智的决策。核心功能包括:
-
信息审查:涵盖标识符信息,连接多个聚合器(如 Hugging Face、GitHub、Papers with Code等)的元数据,并提供详细的数据集特征和来源信息。
-
扩展来源元数据:包括许可证、数据源、创作者身份等,考虑了法律和伦理风险参数,如许可证的沿袭、数据源、创作者身份和其他开发者采用的优先级。
-
工具发布:提供了数据探索界面和数据存储库,支持用户下载按许可证条件过滤后的数据,并生成人类可读的数据来源卡片。
他们对 1800 多个文本数据集进行了系统审查,发现大多数数据集在许可信息方面存在严重不足。具体表现为:
-
许可信息缺失:在 GitHub、Hugging Face 和 Papers with Code 等平台上,分别有 72%、69% 和 70% 的数据集没有指定明确的许可证,导致开发者在使用时面临法律风险。
-
许可证标注不一致:很多数据集的许可证标注存在问题,平台标注和作者标注往往不一致,增加了使用者的困惑。
-
许可证种类繁多:不同数据集使用了各类许可证,如 CC-BY-SA 4.0、OpenAI Terms of Use 等,还有大量自定义许可证,这为小型企业和资源有限的组织带来了挑战。
为解决大量信息的“未指定”许可的问题,研究人员使用 Data Provenance Explorer 将未指定许可证的数据比例从 72% 降低至 30%,显著提高了数据的可追溯性和透明度。
另外,他们还观察到,大部分数据集都集中在北半球,而不同地区受文化等因素影响,产生的数据集应用在不同地方可能会限制其性能。
总之,通过减少训练数据透明性不足导致的模型偏差,Data Provenance Explorer 有助于提高 AI 模型在实际应用中的准确性和公正性,增强模型在多样化任务中的适应性。
然而,这一研究也存在一定的局限性。例如,该工具目前主要适用于文本数据集,而对多模态数据(如视频、语音等)的支持仍有待加强。未来,研究人员希望扩大他们的分析,调查多模态数据的数据来源,并研究作为数据源的网站的服务条款如何在数据集中产生影响。