摘要:
混合专家模型MoE是各家基础模型厂商必须有的尺寸,以显示各自产品综合研发能力及推理能力,企业客户更关心AI的投入产出比。法国Mistral推出8X7B后,美国人不甘心落后于法国人,硅谷大数据公司Databricks也推出了DBRX.
DBRX
在
3072
台
NVIDIA H100
上进行了训练,这些
NVIDIA H300
由
3.2Tbps
的
Infiniband
连接。构建
DBRX
的主要过程
——
包括预训练、训练后、评估、红队和改进
——
在三个月的时间里进行
,国内阿里巴巴千问也推出类似的MoE混合专家产品,
Qwen1.5-MoE-A2.7B。它仅有27亿个激活参数,但性能可与当前公认最先进的70亿参数模型(Mistral7B、Qwen1.5-7B等)媲美.
DBRX
有
16
名专家并选择
4
名,而
Mixtral
和
Grok-1
有
8
名专家并选择
2
名
。这提供了
65
倍以上的专家组合
。本文是Databrick介绍如何构建训练和评估MoE DBRX产品。此外也顺带介绍了开源的MPT-7B。千问、Databricks、Mistral的AI大模型军备竞赛。
基础模型厂商产品性能不断前进的原因:
在创建
大模型新产品
过程中,每家厂商要站在开放和学术界巨人的肩膀上不断向上不断超越。
目录
1 DBRX发布
2 通用信息图
3 DBRX是什么?
3.1基准测试质量与领先的开放模型
3.2基准测试质量与领先的封闭模型
3.3长上下文任务和 RAG 的质量
3.4训练效率
3.5Inference Efficiency推理效率
3.6dbrx 推理效率
4 如何构建DBRX
4.1Databricks 上的 DBRX 入门
4.2结论
4.3贡献
5 评估套件
5.1阅读理解
5.2常识推理
5.3世界知识
5.4符号问题解决
5.5带空格的简单算术
5.6
AGI 评估
LSAT
分析推理
5.7语言理解
5.8长上下文挑战
6 MPT-7B
7 关于 DATABRICKS
1
DBRX
发布
DBRX
,这是一个由
Databricks
创建的开放、通用的
LLM
。在一系列标准基准测试中,
DBRX
为已建立的开放
LLM
设定了新的最先进的技术。此外,它还为开放社区和构建自己的
LLM
的企业提供了以前仅限于封闭模型
API
的功能
;
根据我们的测量,它超过了
GPT-3.5
,并且与
Gemini 1.0 Pro
具有竞争力。它是一个特别强大的代码模型,除了作为通用
LLM
的优势外,在编程方面超过了
Code LLaMA-70B
等专业模型。
这种最先进的质量在训练和推理性能方面有了显着的改进。
DBRX
凭借其细粒度的专家混合
(
MoE,
与
Mistral 8X7B
)
架构,在开放模型中提高了最先进的效率。推理速度比
LLaMA2-70B
快
2
倍,
DBRX
在总参数数和活动参数计数方面约为
Grok-1
的
40%
。当托管在
Mosaic AI Model Serving
上时,
DBRX
可以以高达
150 tok/s/user
的速度生成文本。我们的客户会发现,在相同的最终模型质量下,训练
MoE
的
FLOP
效率也比训练密集模型高出约
2
倍。在端到端方面,我们的
DBRX
总体配方(包括预训练数据、模型架构和优化策略)可以与上一代
MPT
模型的质量相匹配,计算量减少了近
4
倍。
2
通用信息图
Figure 1: DBRX
在语言理解
(
MMLU
)、编程
(
HumanEval
)
和数学
(
GSM8K
)
方面优于已建立的开源模型。
基本模型
(
DBRX Base
)
和微调模型
(
DBRX Instruct
)
的权重在
Hugging Face
上以开放许可提供。从今天开始,
Databricks
客户可以通过
API
使用
DBRX
,
Databricks
客户可以从头开始预训练自己的
DBRX
类模型,或者使用我们用于构建模型的相同工具和科学,在我们的一个检查点上继续训练。
DBRX
已经集成到我们由
GenAI
驱动的产品中,在
SQL
等应用程序中,早期推出的产品已经超过了
GPT-3.5 Turbo
,并且正在挑战
GPT-4 Turbo
。它也是开放模型和
GPT-3.5 Turbo
在
RAG
任务中的领先模型。
训练专家混合模型是很困难的。我们必须克服各种科学和性能挑战,以构建一个足够强大的管道,以便以有效的方式重复训练
DBRX
级模型。现在我们已经这样做了,我们有一个独一无二的训练堆栈,允许任何企业从头开始训练世界一流的
MoE
基础模型。我们期待与客户分享这种能力,并与社区分享我们的经验教训。
立即从
Hugging Face
(
DBRX Base
、
DBRX Instruct
)下载
DBRX
,或在我们的
HF Space
中试用
DBRX Instruct
,或在
github
上查看我们的模型存储库:
databricks/dbrx
。
3
DBRX
是什么
?
DBRX
是一个基于
Transformer
的仅解码器大型语言模型
(
LLM
),它使用下一个令牌预测进行训练。它使用细粒度的专家混合
(
MoE
)
架构,总参数为
132B
,其中
36B
参数在任何输入上都处于活动状态。它是在
12T
文本和代码数据标记上预先训练的。与
Mixtral
和
Grok-1
等其他开放式
MoE
模型相比,
DBRX
是细粒度的,这意味着它使用了更多较小的专家。
DBRX
有
16
名专家并选择
4
名,而
Mixtral
和
Grok-1
有
8
名专家并选择
2
名。这提供了
65
倍以上的专家组合,我们发现这提高了模型质量。
DBRX
使用旋转位置编码(
RoPE
)、门控线性单元
(
GLU
)
和分组查询注意力
(
GQA
)。它使用
tiktoken
存储库中提供的
GPT-4
分词器。我们根据详尽的评估和规模实验做出了这些选择。
DBRX
在精心策划的
12T
令牌上进行了预训练,最大上下文长度为
32k
令牌。我们估计,这些数据比我们用于预训练
MPT
系列模型的数据至少好
2
倍。这个新数据集是使用全套
Databricks
工具开发的,包括用于数据处理的
Apache Spark™
和
Databricks
笔记本、用于数据管理和治理的
Unity Catalog
以及用于试验跟踪的
MLflow
。我们使用课程学习进行预训练,在训练过程中以我们发现可以显着提高模型质量的方式改变数据组合。
3.1
基准测试质量与领先的开放模型
表
1
显示了
DBRX Instruct
的质量和领先的已建立的开放模型。
DBRX Instruct
是复合基准测试、编程和数学基准测试以及
MMLU
的领先模型。在标准基准测试中,它超越了所有聊天或指令微调模型。
综合基准。我们在两个复合基准上评估了
DBRX Instruct
和同行:
Hugging Face Open LLM
排行榜(
ARC-Challenge
、
HellaSwag
、
MMLU
、
TruthfulQA
、
WinoGrande
和
GSM8k
的平均值)和
Databricks Model Gauntlet
:
一套包含
30
多个任务的套件,涵盖六个类别:
世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程
。
在我们评估的模型中,
DBRX Instruct
在两个复合基准测试中得分最高:
Hugging Face Open LLM
排行榜(
74.5%
对第二高模型
Mixtral Install
的
72.7%
)和
Databricks Gauntlet
(
66.8%
对第二高模型
Mixtral Install
的
60.7%
)。
编程和数学。
DBRX Instruct
在编程和数学方面尤其出色。
它的得分高于我们在
HumanEval
上评估的其他开放模型(
70.1% vs. 63.2%
的
Grok-1
,
54.8%
的
Mixtral Struct
,
32.2%
的性能最佳
LLaMA2-70B
变体)和
GSM8k
(
66.9% vs. 62.9%
的
Grok-1
,
61.1%
的
Mixtral Instruct
和
54.1%
的性能最佳的
LLaMA2-70B
变体)。
DBRX
的性能优于
Grok-1
,
Grok-1
是这些基准测试中次优的型号,尽管
Grok-1
的参数数量是
Grok-1
的
2.4
倍。在
HumanEval
上,
DBRX Instruct
甚至超过了
CodeLLaMA-70B Instruct
,这是一个专门为编程而构建的模型,尽管
DBRX Instruct
是为通用用途而设计的(
70.1%
对
HumanEval
的
67.8%
,正如
Meta
在
CodeLLaMA
博客中报道的那样)。
MMLU
的
DBRX Instruct
的得分高于我们在
MMLU
上考虑的所有其他模型,达到
73.7%
。
表
1.DBRX Instruct
的质量和领先的开放模型。有关如何收集数字的详细信息,请参阅脚注。加粗和下划线是最高分。
3.2
基准测试质量与领先的封闭模型
表
2
显示了
DBRX Instruct
和领先的封闭模型的质量。根据每个模型创建者报告的分数,
DBRX Instruct
超过了
GPT-3.5
(如
GPT-4
论文中所述),并且与
Gemini 1.0 Pro
和
Mistral Medium
竞争。
在我们考虑的几乎所有基准测试中,
DBRX Instruct
都超过了
GPT-3.5
,或者
——
最坏的情况是
——
与
GPT-3.5
相匹配。
DBRX Instruct
在
MMLU
(
73.7%
对
70.0%
)测量的常识和
HellaSwag
(
89.0%
对
85.5%
)
和
WinoGrande
(
81.8%
对
81.6%
)测量的常识推理方面优于
GPT-3.5
。
DBRX Instruct
在编程和数学推理方面尤其出色,由
HumanEval
(
70.1%
对
48.1%
)和
GSM8k
(
72.8%
对
57.1%
)衡量。
DBRX Instruct
与
Gemini 1.0 Pro
和
Mistral Medium
竞争
。
DBRX Instruct
在
Inflection Corrected MTBench
、
MMLU
、
HellaSwag
和
HumanEval
上的得分高于
Gemini 1.0 Pro
,而
Gemini 1.0 Pro
在
GSM8k
上的得分更强。
HellaSwag
的
DBRX Instruct
和
Mistral Medium
的分数相似,而
Winogrande
和
MMLU
的
Mistral Medium
更强,
DBRX Instruct
在
HumanEval
、
GSM8k
和
Inflection Corrected MTBench
上的得分更强。
表
2.DBRX Instruct
和领先的封闭模型的质量。除了
Inflection Corrected MTBench
(我们在模型端点上自行测量)之外,这些数字是由这些模型的创建者在各自的白皮书中报告的。有关更多详细信息,请参阅脚注。
3.3
长上下文任务和
RAG
的质量
DBRX Instruct
使用高达
32K
的令牌上下文窗口进行训练。表
3
将其性能与
Mixtral Instruct
以及最新版本的
GPT-3.5 Turbo
和
GPT-4 Turbo API
在一套长上下文基准测试(来自
Lost in the Middle
论文的
KV-Pairs
和
HotpotQAXL
,
HotPotQA
的修改版本,将任务扩展到更长的序列长度)上进行了比较。
GPT-4 Turbo
通常是这些任务的最佳模型。但是,除了一个例外,
DBRX Instruct
在所有上下文长度和序列的所有部分都比
GPT-3.5 Turbo
表现更好。
DBRX Instruct
和
Mixtral Instruct
的总体性能相似。
表
3.
模型在
KV-Pairs
和
HotpotQAXL
基准测试中的平均性能。粗体是最高分。下划线是除
GPT-4 Turbo
以外的最高分。
GPT-3.5 Turbo
支持的最大上下文长度为
16K
,因此我们无法在
32K
下对其进行评估。
*GPT-3.5 Turbo
序列的开头、中间和结尾的平均值仅包括高达
16K
的上下文。
利用模型上下文的最流行方法之一是检索增强生成
(
RAG
)
。在
RAG
中,从数据库中检索与提示相关的内容,并与提示一起显示,以便为模型提供比其他方式更多的信息。表
4
显示了
DBRX
在两个
RAG
基准测试(
Natural Questions
和
HotPotQA
)上的质量,当模型还提供了使用嵌入模型
bge-large-en-v1.5
从维基百科文章语料库中检索到的前
10
个段落时。
DBRX Instruct
与
Mixtral Instruct
和
LLaMA2-70B Chat
等开放模型以及当前版本的
GPT-3.5 Turbo
具有竞争力。
表
4.
当每个模型都使用
bge-large-en-v1.5
从维基百科语料库检索到的前
10
个段落时,模型的性能会测量。准确性是通过匹配模型答案来衡量的。粗体是最高分。下划线是除
GPT-4 Turbo
以外的最高分。
3.4
训练效率
模型质量必须放在模型训练和使用的效率的上下文中。在
Databricks
中尤其如此,我们构建了像
DBRX
这样的模型,以便为客户建立一个流程来训练他们自己的基础模型。
我们发现训练专家混合模型可以大幅提高训练的计算效率(表
5
)。
例如,训练
DBRX
系列中名为
DBRX MoE-B
的较小成员(总参数为
23.5B
,活动参数为
6.6B
)在
Databricks LLM Gauntlet
上达到
45.5%
的分数所需的
FLOP
比达到
43.8%
所需的
LLaMA2-13B
少
1.7
倍。
DBRX MoE-B
包含的有源参数也是
LLaMA2-13B
的一半。
从整体上看,我们的端到端
LLM
预训练流水线在过去十个月的计算效率提高了近
4
倍。
2023
年
5
月
5
日,我们发布了
MPT-7B
,这是一个在
1T Tokens
上训练的
7B
参数模型,达到了
30.9%
的
Databricks LLM Gauntlet
分数。
DBRX
系列中一个名为
DBRX MoE-A
(总参数为
7.7B
,活动参数为
2.2B
)的成员达到了
30.5%
的
Databricks Gauntlet
分数,
FLOP
减少了
3.7
倍。这种效率是许多改进的结果,包括使用
MoE
架构、对网络进行其他架构更改、更好的优化策略、更好的标记化,以及
-
非常重要的
-
更好的预训练数据。
孤立地讲,更好的预训练数据对模型质量产生了重大影响
。我们使用
DBRX
预训练数据在
1T
令牌(称为
DBRX Dense-A
)上训练了一个
7B
模型。
Databricks Gauntlet
的这一比例达到了
39.0%
,而
MPT-7B
的这一比例为
30.9%
。我们估计,我们新的预训练数据比用于训练
MPT-7B
的数据至少好
2
倍。换句话说,我们估计要达到相同的模型质量,需要一半的代币。我们通过在
500B
令牌上训练
DBRX Dense-A
来确定这一点
;
它在
Databricks Gauntlet
上的表现优于
MPT-7B
,达到
32.1%
。除了更好的数据质量外,这种代币效率的另一个重要贡献者可能是
GPT-4 标记
化器,它拥有大量词汇量,被认为特别高效。这些关于提高数据质量的经验教训直接转化为实践和工具,我们的客户可以使用这些实践和工具在他们自己的数据上训练基础模型。
表
5.
我们用来验证
DBRX MoE
架构和端到端训练管道的训练效率的几篇测试文章的详细信息
3.5
nference Efficiency
推理效率
图
2
显示了使用
NVIDIA Tensor RT-LLM
以及我们优化的服务基础设施和
16
位精度为
DBRX
和类似模型提供服务的端到端推理效率。我们的目标是让这个基准测试尽可能地反映实际使用情况,包括多个用户同时访问同一个推理服务器。我们每秒生成一个新用户,每个用户请求包含大约
2000
个令牌提示,每个响应包含
256
个令牌。
一般来说,
MoE
模型的推理速度比其总参数计数所暗示的要快
。这是因为它们对每个输入使用的参数相对较少。我们发现
DBRX
在这方面也不例外。
DBRX
推理吞吐量比
132B
非
MoE
模型高
2-3
倍。
推理效率和模型质量通常处于对立状态:
较大的模型通常达到更高的质量,但较小的模型的推理效率更高。与密集模型相比,使用
MoE
架构可以在模型质量和推理效率之间实现更好的权衡。例如,
DBRX
的质量比
LLaMA2-70B
高,并且由于活动参数的数量约为
LLaMA2-70B
,
DBRX
推理吞吐量提高了
2
倍(图
2
)。
Mixtral
是
MoE
模型所达到的改进的帕累托边界的另一点:它比
DBRX
小,质量相应较低,但推理吞吐量更高。
Databricks Foundation
模型
API
的用户可以在我们优化的模型服务平台上看到每秒多达
150
个
DBRX
令牌,该平台具有
8
位量化功能。
3.6
DBRX
推理效率
图
2.
在我们优化的服务基础设施上,使用
NVIDIA Tensor RT-LLM
以
16
位精度计算各种模型配置的推理吞吐量,并具有我们能找到的最佳优化标志。模型在整个节点上以张量并行方式运行。输入提示包含大约
2000
个提示令牌,我们生成
256
个输出令牌。每秒生成一个新用户。
4
如何构建
DBRX
DBRX
在
3072
台
NVIDIA H100
上进行了训练,这些
NVIDIA H300
由
3.2Tbps
的
Infiniband
连接
。构建
DBRX
的主要过程
——
包括预训练、训练后、评估、红队和改进
——
在三个月的时间里进行。这是数月的科学、数据集研究和扩展实验的延续,更不用说
Databricks
多年的
LLM
开发,其中包括
MPT
和
Dolly
项目以及我们与客户一起构建并投入生产的数千个模型。
为了构建
DBRX
,我们利用了可供客户使用的相同
Databricks
工具套件。我们使用
Unity Catalog
管理和治理我们的训练数据。我们使用新获得的
Lilac AI
探索了这些数据。我们使用
Apache Spark™
和
Databricks
笔记本处理和清理了此数据。我们使用开源训练库的优化版本训练
DBRX
:
Mega Blocks
、
LLM Foundry
、
Composer
和
Streaming
。我们使用
Mosaic AI
训练服务在数千个
GPU
上管理大规模模型训练和微调。我们使用
MLflow
记录了结果。我们通过
Mosaic AI
模型服务和推理表收集了人类反馈,以提高质量和安全性。我们使用
Databricks Playground
手动试验了该模型。我们发现
Databricks
工具对于每个用途来说都是一流的,而且它们都是统一产品体验的一部分,这让我们受益匪浅。
4.1
Databricks
上的
DBRX
入门
如果希望立即开始使用
DBRX
,可以使用
Databricks Mosaic AI Foundation
模型
API
轻松实现。您可以快速开始使用我们的即用即付定价,并从我们的
AI Playground
聊天界面查询模型。对于生产应用程序,我们提供预置吞吐量选项,以提供性能保证、对微调模型的支持以及额外的安全性和合规性。若要私有托管
DBRX
,可以从
Databricks Marketplace
下载模型,并在
Model Serving
上部署模型。
4.2
结论
在
Databricks
,每个企业都应该有能力在新兴的
GenAI
世界中控制其数据及其命运。
DBRX
是我们下一代
GenAI
产品的核心支柱,我们期待着在客户利用
DBRX
的功能和我们用于构建它的工具时等待他们的激动人心的旅程。在过去的一年里,我们与客户一起培训了数千名
LLM
。
DBRX
只是
Databricks
为各种应用程序构建的强大而高效的模型的一个示例,从内部功能到我们客户的雄心勃勃的用例。
与任何新模式一样,
DBRX
的旅程只是一个开始,最好的工作将由那些建立在它之上的人完成:企业和开放社区。这也只是我们在
DBRX
上工作的开始,您应该期待更多。
4.3
贡献
DBRX
的开发由
Mosaic
团队领导,该团队之前构建了
MPT
模型系列,与来自
Databricks
的数十名工程师、律师、采购和财务专家、项目经理、营销人员、设计人员和其他贡献者合作。我们感谢我们的同事、朋友、家人和社区在过去几个月的耐心和支持。
在创建
DBRX
的过程中,我们站在开放和学术界巨人的肩膀上
。通过公开提供
DBRX
,我们打算重新投资于社区,希望我们将来能够共同构建更强大的技术。考虑到这一点,我们非常感谢
Trevor Gale
和他的
MegaBlocks
项目(
Trevor
的博士生导师是
Databricks
首席技术官
Matei Zaharia
)、
PyTorch
团队和
FSDP
项目、
NVIDIA
和
TensorRT-LLM
项目、
vLLM
团队和项目、
EleutherAI
和他们的
LLM
评估项目、
Lilac AI
的
Daniel Smilkov
和
Nikhil Thorat
的工作和合作。
以及我们在艾伦人工智能研究所(
AI2
)的朋友。
5
Mosaic Eval Gauntlet v0.3.0 –
评估套件
MPT-7B
与
MPT-30B
在
Eval Gauntlet v0
的
6
个类别上进行了比较。
Mosaic Eval Gauntlet
是
MosaicML
用于评估预训练基础模型质量的新技术。
Eval Gauntlet
包含从各种来源收集的
35
个不同的基准,并分为
6
个广泛的能力类别,我们期望良好的基础模型具有这些能力。在对现有的
LLM
出版物和开源评估工具(如
EleutherAI Eval Harness
和斯坦福
CRFM
的
HELM
)进行广泛审查后,我们编译了这些类别。
在决定要包含哪些基准时,我们考虑了一些标准。我们希望基准测试需要广泛的技能,这些技能对实际应用有用,我们希望它们来自不同的来源,我们希望它们能够捕捉到研究界传统上强调的技能以及那些未被充分探索的技能,我们希望通过简单的、
明确的指标,例如完全匹配和多项选择准确性。与报告单个指标的更常见方法相比,编制总分背后的理念是双重的。
1.LLM
是第一代真正的通才模型。他们之所以受到追捧,是因为他们只需一点点提示就可以很好地完成数以万计的不同任务。仅靠
10
个不同的学术基准无法充分捕捉这种能力。不可能定义和评估
LLM
可以用于的每个可以想象的任务,但凭借
Composer
超快的
ICL
评估,它当然值得一试!
2.
使用一小组指标可能会产生误导性的高方差。这可能会导致我们认为模型的能力截然不同,即使与模型互动几分钟就会发现它们感觉非常相似。通过汇总数十个基准测试的分数,我们可以降低信噪比,并获得对模型相对性能的更可靠的估计。
此外,我们做出了独特的设计决策,即报告按类别组织的多个单独的总分,而不是单个单一指标。这是因为最终用户经常希望为特定用例部署模型。在为特定垂直领域训练模型时,有许多设计决策,包括数据集混合。通过将模型性能分解为一组可管理的核心能力,我们可以在模型训练过程中做出更智能的设计决策。
在评估时,我们运行所有基准测试,对每个类别中的子分数进行平均,并报告每个类别的综合分数以及综合分数的平均值。一些基准是多项选择考试,只需随机猜测即可获得
0%
以上的准确率。为了确保我们所有的综合分数都小于或等于
1
,我们减去随机基线准确率,并将余数重新调整为
1
减去基线准确率。
例如,如果基准
A
的随机基线精度为
25%
,而模型达到
30%
,则我们将其报告为
(
0.3 - 0.25
)
/
(
1-0.25
)
= 0.0667
。这可以看作是重新调整了高于机会的精度,因此最大值为
1
。对于随机猜测基线准确率为
~0
的基准测试,我们按原样报告准确度。请注意,通过这种重新缩放,从技术上讲,模型在整个类别上的得分可能低于
0
,但我们没有发现我们测试过的任何模型都会发生这种情况。
这是
Eval Gauntlet
的
v0.3.0
版本。
5.1
阅读理解
阅读理解基准测试模型根据文本段落中的信息回答问题的能力。它包括许多多项选择基准以及一些要求模型输出精确正确答案的基准。
-
SQuAD
l
描述:
SQuAD
由
10,570
个简短文档组成,后跟一个相关问题。这些文件的范围从关于体育赛事的简短新闻剪报,到解释物理学概念的简介,再到关于美国历史的文件。我们希望模型能够输出完全正确的答案。
l
发行年份:
2016
l
少数样本示例数:
3
l
随机基线准确率:
~0%
-
BoolQ
l
描述:
BoolQ
由
3,270
篇关于各种主题的短文组成,然后是是
/
否问题。该模型应以多项选择题的形式回答。
l
发布年份:
2019
l
少数样本示例数:
0
l
随机基线准确率:
~50%
-
CoQA
l
描述:
CoQA
由
7,983
个基于段落的简短自由回答问题组成。对于每一段经文,都有一系列相关的问题。每个问题都使用文档以及上下文中提供的所有前面的问题
/
答案进行格式化。使用精确匹配精度评估模型。
l
发行年份:
2018
l
少数样本示例数:
0
l
随机基线准确率:
0%
-
AGI Eval LSAT Reading Comprehension
l
描述:
LSAT
阅读理解由
268
道基于段落的四选择多项选择题组成,重点关注各种以信息为中心的领域,如政治、商业、经济和科学。这些问题依赖于模型从文本中提取基本信息的能力。
l
发布年份:
2023
l
几个样本示例的数量:
5
l
随机基线准确率:
25%
-
AGI Eval LSAT Logical Reasoning
l
描述:
LSAT
逻辑推理由
510
个基于段落的四选择多项选择题组成,其中模型必须从各种主题的段落中得出复杂的结论。
l
发布年份:
2023
l
几个样本示例的数量:
5
l
随机基线准确率:
25%
-
AGI Eval SAT English
l
描述:
SAT
英语由
206
道基于段落的四选择多项选择题组成,其中模型必须理解高中水平的段落。
l
发布年份:
2023
l
几个样本示例的数量:
5
l
随机基线准确率:
25%
5.2
常识推理
常识推理测试模型执行基本推理任务的能力,这些任务需要对对象、其属性和行为的常识性知识。
1
)
BIG-bench:
策略
QA
l
描述:
BIG-bench
策略
QA
由
2,289
个非常不拘一格的是
/
否问题组成,涉及广泛的常识性主题,例如
“
鱼会得扁桃体炎吗?
l
发布年份:
2022
l
少数样本示例数:
0
2
)
BIG-bench:
奇怪的故事
l
描述:
BIG-bench
奇怪的故事由
174
个短篇小说组成,然后是一个双选择多选题,其中要求模型对故事中的人物、他们的感受以及他们为什么以某种方式行事做出常识性推断。
l
发布年份:
2022
l
少数样本示例数:
0
l
随机基线准确率:
50%
3
)
COPA
l
描述:
COPA
由
100
个因果多项选择题组成,其中提示模型一个前提,模型必须在前提的两个可能原因
/
结果之间正确选择。
l
发行年份:
2011
l
少数样本示例数:
0
l
随机基线准确率:
50%
4
)
PIQA
l
描述:
PIQA
由
1,838
道常识性物理直觉
2
选择多项选择题组成。
l
发布年份:
2019
l
几个样本示例的数量:
10
l
随机基线准确率:
50%
5
)
OpenBook QA
l
描述:
OpenBook QA
由
500
道四选择多项选择题组成,这些题依赖于对常见物体和实体的基本物理和科学直觉。
l
发行年份:
2018
l
几个样本示例的数量:
10
l
随机基线准确率:
25%
6
)
SIQA
l
描述:
社交互动
QA
由
1954
个双选择多项选择题组成,这些问题测试模型在日常生活中对参与者得出情感和社会结论的能力。
l
发布年份:
2019
l
少数样本示例数:
3
l
随机基线准确率:
50%
7)
公共常识
QA
l
描述:
常识性
QA
由
1,221
道四选题多项选择题组成,这些题依赖于关于日常物品的非常基本的常识推理。
l
发布年份:
2019
l
少数镜头示例数:
0
l
随机基线准确率:
25%
5.3
世界知识
1
)
Jeopardy
基准
1.
描述:
Jeopardy
由
2,117
个
Jeopardy
问题组成,分为
5
类:文学、美国历史、世界历史、单词起源和科学。预计该模型将对问题给出确切正确的答案。它是由
MosaicML
从
Huggingface
上提供的更大的
Jeopardy
套装中定制策划的。
2.
发布年份:
2022
3.
少数镜头示例数:
3
4.
随机基线准确率:
0%
2
)
MMLU
基准
l
描述:
MMLU
由
14,042
道四选题组成,分布在
57
个类别中。这些问题采用学术标准化考试的风格,模型提供问题和选择,并期望在
A
、
B
、
C
和
D
之间进行选择作为其输出。科目范围从法学到数学,再到道德。
l
发布年份:
2019
l
几个镜头示例的数量:
5
l
随机基线准确率:
25%
3
)
BIG-
基准
: wikidata
l
描述:
BIG-bench
维基数据由
20,321
个关于从维基百科中提取的事实信息的问题组成。问题范围从名人的母语到不同地区所属的国家。模型被赋予一个句子,例如
“
巴拉克
·
奥巴马的国籍国是
”
,并期望用例如
“
美国
”
来完成句子。
l
发布年份:
2022
l
少数镜头示例数:
3
l
随机基线准确率:
~0%
4
)
ARC
简单题
l
描述:
ARC easy
由
2,376
道简单的四选择多项选择科学问题组成,这些问题来自
3-9
年级的科学考试。这些问题依赖于与基础科学相关的世界知识。
l
发布年份:
2019
l
少数样本示例数:
3
l
随机基线准确率:
25%
5
)
ARC
挑战题
l
描述:
ARC easy
由
2,376
道简单的四选择多项选择科学问题组成,这些问题来自
3-9
年级的科学考试。这些问题依赖于科学世界知识和一些程序推理。
l
发布年份:
2019
l
少数镜头示例数:
3
l
随机基线准确率:
25%
6
)
Trivia QA –
修正
l
描述:
琐事
QA
是一个问答数据集,用于评估模型对琐事问题生成自由响应简短答案的能力。我们对其进行了子采样,以包含
3,000
个问题,并且为了提高速度,我们将所有答案剪裁为最多
10
个标记。
l
发布年份:
2017
l
少样本示例数:
3
l
随机基线准确率:
0%
5.4
符号问题解决
符号问题解决任务测试模型解决各种符号任务的能力,包括算术、逻辑推理、算法和代数。
1
)
BIG
小学数学基准
QA
l
描述:
Big bench
初等数学
QA
由
38,160
道四选题多项选择算术单词组成。
l
发布年份:
2022
l
少数样本示例数:
1
l
随机基线准确率:
25%
2
)
BIG- dyck
基准语言
l
描述:
Big bench dyck
语言由
1000
个完整的序列问题组成,其中给出了一个由括号和大括号组成的部分完成的平衡表达式,模型需要输出完成平衡表达式所需的精确标记。
l
发布年份:
2022
l
几个样本示例的数量:
5
l
随机基线准确率:
0%
3
)
BIG-
工作台基准
l
描述:大台逻辑运算符由
210
个问题组成,其中定义了许多数学运算符,并且模型应计算由这些定义的运算符组成的某个表达式的结果。这测试了模型处理数学抽象并适当应用它们的能力。
l
发布年份:
2022
l
少数镜头示例数:
3
l
随机基线准确率:
0%
5.5
带
空格的简单算术
1
)描述:带空格的简单算术由
MosaicML
开发。它由
1000
个算术问题组成,最多包括
3
个运算,使用最多
3
位数字。所有数字和运算符之间都有间距。该模型应使用适当的运算顺序计算表达式的正确结果。
l
发布年份:
2023
l
几个镜头示例的数量:
5
l
随机基线准确率:
0%
2
)没有空格的简单算术
l
描述:带空格的简单算术由
MosaicML
开发。它由
1000
个算术问题组成,最多包括
3
个运算,使用最多
3
位数字。任何数字和运算符之间都没有间距。该模型应使用适当的运算顺序计算表达式的正确结果。
l
发布年份:
2023
l
几个镜头示例的数量:
5
l
随机基线准确率:
0%
5.6
AGI
评估
LSAT分析推理
l
描述:
AGI Eval LSAT Analytical Reasoning
由
230
个四选择多项选择逻辑谜题组成。这些问题取自
AGI Eval
基准。
l
发布年份:
2023
l
少数样本示例数:
3
l
随机基线准确率:
25%
1
)
GSM8K
l
描述:
GSM8K
由
1,319
个简短的、自由回答的小学水平算术单词问题和简单的数值解决方案组成。在给出最终答案之前,系统会提示模型使用思维链推理。
l
发布年份:
2023
l
少数镜头样本示例数:
3
l
随机基线准确率:
0%
2
)
SVAMP
l
描述:
SVAMP
由
300
个简短的、自由回答的小学水平算术单词问题和简单的数字解决方案组成。在给出最终答案之前,系统会提示模型使用思维链推理。
l
发布年份:
2023
l
少数样本示例数:
3
l
随机基线准确率:
0%
5.7
语言理解
语言理解任务评估模型理解语言结构和属性的能力,包括确定哪些类型的句子比其他句子更有可能、执行语言之间的翻译以及识别语言。
5.7.1
LAMBADA
1.
描述:
LAMBADA
兰巴达由
5,153
个段落组成,取自书籍。该模型预计将读取每个段落的前
N-1
个单词并预测最终标记。
2.
发行年份:
2016
3.
少数样本示例数:
0
4.
随机基线准确率:
0%
5.7.2
HellaSwag
l
描述:
HellaSwag
由
10,042
个多项选择方案组成,在这些方案中,系统会提示模型一个方案,并从四个可能的选项中选择方案的最可能结论。
l
发布年份:
2019
l
少数样本示例数:
0
l