专栏名称: Hugging Face
The AI community building the future.
目录
相关文章推荐
BioArt  ·  【DeepSeek专栏】Nat ... ·  昨天  
BioArt  ·  Nat Cell Biol | ... ·  3 天前  
BioArt  ·  Cell Metab | ... ·  4 天前  
51好读  ›  专栏  ›  Hugging Face

数据好合: Argilla 和 Hugging Face Spaces 携手赋能社区合力构建更好的数据集

Hugging Face  · 公众号  ·  · 2024-03-19 23:30

正文

最近,Argilla 和 Hugging Face 共同 推出 了 Data is Better Together 计划,旨在凝聚社区力量协力构建一个对提示进行排名的偏好数据集。仅用几天,我们就吸引了:

  • Data is Better Together 计划 https://hf.co/posts/dvilasuero/680660181190026

  • 350 个社区贡献者参与数据标注

  • 超过 11,000 个提示评分

你可通过 进度面板 了解最新的统计数据!

  • 进度面板 https://hf.co/spaces/DIBT/prompt-collective-dashboard

基于此,我们发布了 10kpromptsranked 数据集,该数据集共有 1 万条提示,其中每条提示都附带用户的质量评分。我们希望后续能开展更多类似的项目!

  • 10kpromptsranked https://hf.co/datasets/DIBT/10kpromptsranked

本文将讨论为什么我们认为社区合作构建数据集至关重要,并邀请大家作为首批成员加入社区, Argilla 和 Hugging Face 将共同支持社区开发出更好的数据集!

  • Argilla https://argilla.io/

“无数据,不模型”仍是颠扑不破的真理

数据对于训练出更好的模型仍具有至关重要的作用: 现有的研究 及开源 实验 不断地证明了这一点,开源社区的实践也表明更好的数据才能训练出更好的模型。

  • 现有的研究 https://hf.co/papers/2402.05123
  • 开源实验 https://argilla.io/blog/notus7b


问题


常见答案

为什么需要社区合力构建数据集?

“数据对于机器学习至关重要”已获得广泛共识,但现实是对很多语言、领域和任务而言,我们仍然缺乏用于训练、评估以及基准测试的高质量数据集。解决这一问题的路径之一是借鉴 Hugging Face Hub 的经验,目前,社区已通过 Hugging Face Hub 共享了数千个模型、数据集及演示应用,开放的 AI 社区协力创造了这一令人惊叹的成果。我们完全可以将这一经验推广,促成社区协力构建下一代数据集,从而为构建下一代模型提供独特而宝贵的数据基础。

赋能社区协力构建和改进数据集得好处有:

  • 无需任何机器学习或编程基础,人人皆能为开源机器学习的发展作出贡献。
  • 可为特定语言创建聊天数据集。
  • 可为特定领域开发基准数据集。
  • 可创建标注者多样化的偏好数据集。
  • 可为特定任务构建数据集。
  • 可利用社区的力量协力构建全新的数据集。

重要的是,我们相信凭借社区的协力会构建出更好的数据集,同时也能让那些不会编码的人也能参与进来为 AI 的发展作贡献。

让人人都能参与

之前许多协力构建 AI 数据集的努力面临的挑战之一是如何赋能大家以高效完成标注任务。Argilla 作为一个开源工具,可让大家轻松地为 LLM 或小型特化模型创建数据集,而 Hugging Face Spaces 是一个用于构建和托管机器学习演示应用的平台。最近,Argilla 对 Spaces 上托管的 Argilla 实例增加了对 Hugging Face 账户验证的支持,有了这个,用户现在仅需几秒钟即可开始参与标注任务。

我们在创建 10kpromptsranked 数据集时已对这个新的工作流进行了压力测试,我们已准备好支持社区创建新的协作数据集。

  • 10kpromptsranked https://hf.co/datasets/DIBT/10kpromptsranked

首批加入数据集共建社区!

我们对这个新的、简单的托管标注工作流的潜力深感兴奋。为了支持社区构建更好的数据集,Hugging Face 和 Argilla 邀请感兴趣的个人或社区作为首批成员加入我们的数据集构建者社区。







请到「今天看啥」查看全文