专栏名称: Hugging Face

The AI community building the future.

目录

相关文章推荐

小北的梦呓 · 接入AI之后，跨境搞钱的速度飞快 · 22 小时前

小北的梦呓 · 接入AI之后，跨境搞钱的速度飞快 · 22 小时前

sven_shi · 这类事情都是牌坊立的太高，导致到后面就收不住 ... · 昨天

楼主说楼市 · 曾经以为在做梦，现在真的来了 · 2 天前

楼主说楼市 · 曾经以为在做梦，现在真的来了 · 2 天前

环球物理 · 【物理科普】“薛定谔的猫”到底是什么？ · 2 天前

环球物理 · 【物理笔记】学霸钱学森的手稿曝光，字迹清秀， ... · 3 天前

51好读 › 专栏 › Hugging Face

自动评估基准 | 一些评估测试集

Hugging Face · 公众号 · · 2025-01-08 10:30

正文

这是 自动评估基准 系列文章的第三篇，敬请关注系列文章:

基础概念

设计你的自动评估任务

一些评估测试集

技巧与提示

如果你感兴趣的任务已经得到充分研究，很可能评估数据集已经存在了。

下面列出了一些近年来开发构建的评估数据集。需要注意的是：

大部分数据集有些 “过时”，因为它们是在 LLM 出现之前构建的，当时是为了评估语言文本的某个特定属性 (如翻译、摘要)，但是可能已经不适合现在的 LLM 评估方法了 (现在的评估方法倾向于通用、整体性)。( 如果你有空余时间可以对下列数据集添加出版日期，会对本文非常有帮助! ) ( 这部分后续也会更新包含大语言模型的评估 )
有些数据集可能受到污染，因为它们已经在网络上公开了很多年了。不过这并不意味着在你的任务中它们就毫无用处！

Pre-LLM 数据集

🤗 点击图片可放大查看 🔎

可手动重现的数据集想法

请到「今天看啥」查看全文

推荐文章

小北的梦呓 · 接入AI之后，跨境搞钱的速度飞快

22 小时前

小北的梦呓 · 接入AI之后，跨境搞钱的速度飞快

22 小时前

sven_shi · 这类事情都是牌坊立的太高，导致到后面就收不住了。-20250223152338

昨天

楼主说楼市 · 曾经以为在做梦，现在真的来了

2 天前

楼主说楼市 · 曾经以为在做梦，现在真的来了

2 天前

环球物理 · 【物理科普】“薛定谔的猫”到底是什么？

2 天前

环球物理 · 【物理笔记】学霸钱学森的手稿曝光，字迹清秀，堪比“教科书”

3 天前

慈怀读书会 · 是不是真爱，只看这一点就知道了

8 年前

央视网体育 · 有眼福喽！ROAD FC举牌女郎新面孔顶级车模李恩惠大秀火辣身材

8 年前

摄影世界 · 这位中国摄影师，为国际摄影巨匠留下一生中最好的肖像

7 年前

财经273 · 乌云盖顶形态

7 年前

健康温州 · 宫颈癌、乳腺癌成女性头号杀手！该怎么预防和筛查？

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!