专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
券商中国  ·  港股,重磅调整!陈茂波发声! ·  15 小时前  
21世纪经济报道  ·  9集出现6次,被骂上热搜!网友呼吁下架 ·  2 天前  
券商中国  ·  沸腾!暴涨超17000亿!今夜,继续大涨! ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

DBRX:一种新的混合专家开放式大模型

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-04-03 22:38

正文

摘要: 混合专家模型MoE是各家基础模型厂商必须有的尺寸,以显示各自产品综合研发能力及推理能力,企业客户更关心AI的投入产出比。法国Mistral推出8X7B后,美国人不甘心落后于法国人,硅谷大数据公司Databricks也推出了DBRX. DBRX 3072 NVIDIA H100 上进行了训练,这些 NVIDIA H300 3.2Tbps Infiniband 连接。构建 DBRX 的主要过程 —— 包括预训练、训练后、评估、红队和改进 —— 在三个月的时间里进行 ,国内阿里巴巴千问也推出类似的MoE混合专家产品, Qwen1.5-MoE-A2.7B。它仅有27亿个激活参数,但性能可与当前公认最先进的70亿参数模型(Mistral7B、Qwen1.5-7B等)媲美. DBRX 16 名专家并选择 4 名,而 Mixtral Grok-1 8 名专家并选择 2 。这提供了 65 倍以上的专家组合 。本文是Databrick介绍如何构建训练和评估MoE DBRX产品。此外也顺带介绍了开源的MPT-7B。千问、Databricks、Mistral的AI大模型军备竞赛。

基础模型厂商产品性能不断前进的原因: 在创建 大模型新产品 过程中,每家厂商要站在开放和学术界巨人的肩膀上不断向上不断超越。

目录

1 DBRX发布

2 通用信息图

3 DBRX是什么?

3.1基准测试质量与领先的开放模型

3.2基准测试质量与领先的封闭模型

3.3长上下文任务和 RAG 的质量

3.4训练效率

3.5Inference Efficiency推理效率

3.6dbrx 推理效率

4 如何构建DBRX

4.1Databricks 上的 DBRX 入门

4.2结论

4.3贡献

5  评估套件

5.1阅读理解

5.2常识推理

5.3世界知识

5.4符号问题解决

5.5带空格的简单算术

5.6 AGI 评估 LSAT 分析推理

5.7语言理解

5.8长上下文挑战

6 MPT-7B

7 关于 DATABRICKS

1 DBRX 发布

DBRX ,这是一个由 Databricks 创建的开放、通用的 LLM 。在一系列标准基准测试中, DBRX 为已建立的开放 LLM 设定了新的最先进的技术。此外,它还为开放社区和构建自己的 LLM 的企业提供了以前仅限于封闭模型 API 的功能 ; 根据我们的测量,它超过了 GPT-3.5 ,并且与 Gemini 1.0 Pro 具有竞争力。它是一个特别强大的代码模型,除了作为通用 LLM 的优势外,在编程方面超过了 Code LLaMA-70B 等专业模型。

这种最先进的质量在训练和推理性能方面有了显着的改进。 DBRX 凭借其细粒度的专家混合 MoE, Mistral 8X7B 架构,在开放模型中提高了最先进的效率。推理速度比 LLaMA2-70B 2 倍, DBRX 在总参数数和活动参数计数方面约为 Grok-1 40% 。当托管在 Mosaic AI Model Serving 上时, DBRX 可以以高达 150 tok/s/user 的速度生成文本。我们的客户会发现,在相同的最终模型质量下,训练 MoE FLOP 效率也比训练密集模型高出约 2 倍。在端到端方面,我们的 DBRX 总体配方(包括预训练数据、模型架构和优化策略)可以与上一代 MPT 模型的质量相匹配,计算量减少了近 4 倍。

2 通用信息图

Figure 1: DBRX 在语言理解 MMLU )、编程 HumanEval 和数学 GSM8K 方面优于已建立的开源模型。

基本模型 DBRX Base 和微调模型 DBRX Instruct 的权重在 Hugging Face 上以开放许可提供。从今天开始, Databricks 客户可以通过 API 使用 DBRX Databricks 客户可以从头开始预训练自己的 DBRX 类模型,或者使用我们用于构建模型的相同工具和科学,在我们的一个检查点上继续训练。 DBRX 已经集成到我们由 GenAI 驱动的产品中,在 SQL 等应用程序中,早期推出的产品已经超过了 GPT-3.5 Turbo ,并且正在挑战 GPT-4 Turbo 。它也是开放模型和 GPT-3.5 Turbo RAG 任务中的领先模型。

训练专家混合模型是很困难的。我们必须克服各种科学和性能挑战,以构建一个足够强大的管道,以便以有效的方式重复训练 DBRX 级模型。现在我们已经这样做了,我们有一个独一无二的训练堆栈,允许任何企业从头开始训练世界一流的 MoE 基础模型。我们期待与客户分享这种能力,并与社区分享我们的经验教训。

立即从 Hugging Face DBRX Base DBRX Instruct )下载 DBRX ,或在我们的 HF Space 中试用 DBRX Instruct ,或在 github 上查看我们的模型存储库: databricks/dbrx

3 DBRX 是什么 ?

DBRX 是一个基于 Transformer 的仅解码器大型语言模型 LLM ),它使用下一个令牌预测进行训练。它使用细粒度的专家混合 MoE 架构,总参数为 132B ,其中 36B 参数在任何输入上都处于活动状态。它是在 12T 文本和代码数据标记上预先训练的。与 Mixtral Grok-1 等其他开放式 MoE 模型相比, DBRX 是细粒度的,这意味着它使用了更多较小的专家。 DBRX 16 名专家并选择 4 名,而 Mixtral Grok-1 8 名专家并选择 2 名。这提供了 65 倍以上的专家组合,我们发现这提高了模型质量。 DBRX 使用旋转位置编码( RoPE )、门控线性单元 GLU 和分组查询注意力 GQA )。它使用 tiktoken 存储库中提供的 GPT-4 分词器。我们根据详尽的评估和规模实验做出了这些选择。

DBRX 在精心策划的 12T 令牌上进行了预训练,最大上下文长度为 32k 令牌。我们估计,这些数据比我们用于预训练 MPT 系列模型的数据至少好 2 倍。这个新数据集是使用全套 Databricks 工具开发的,包括用于数据处理的 Apache Spark™ Databricks 笔记本、用于数据管理和治理的 Unity Catalog 以及用于试验跟踪的 MLflow 。我们使用课程学习进行预训练,在训练过程中以我们发现可以显着提高模型质量的方式改变数据组合。

3.1 基准测试质量与领先的开放模型

1 显示了 DBRX Instruct 的质量和领先的已建立的开放模型。 DBRX Instruct 是复合基准测试、编程和数学基准测试以及 MMLU 的领先模型。在标准基准测试中,它超越了所有聊天或指令微调模型。

综合基准。我们在两个复合基准上评估了 DBRX Instruct 和同行: Hugging Face Open LLM 排行榜( ARC-Challenge HellaSwag MMLU TruthfulQA WinoGrande GSM8k 的平均值)和 Databricks Model Gauntlet

一套包含 30 多个任务的套件,涵盖六个类别:

世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程

在我们评估的模型中, DBRX Instruct 在两个复合基准测试中得分最高: Hugging Face Open LLM 排行榜( 74.5% 对第二高模型 Mixtral Install 72.7% )和 Databricks Gauntlet 66.8% 对第二高模型 Mixtral Install 60.7% )。

编程和数学。 DBRX Instruct 在编程和数学方面尤其出色。

它的得分高于我们在 HumanEval 上评估的其他开放模型( 70.1% vs. 63.2% Grok-1 54.8% Mixtral Struct 32.2% 的性能最佳 LLaMA2-70B 变体)和 GSM8k 66.9% vs. 62.9% Grok-1 61.1% Mixtral Instruct 54.1% 的性能最佳的 LLaMA2-70B 变体)。 DBRX 的性能优于 Grok-1 Grok-1 是这些基准测试中次优的型号,尽管 Grok-1 的参数数量是 Grok-1 2.4 倍。在 HumanEval 上, DBRX Instruct 甚至超过了 CodeLLaMA-70B Instruct ,这是一个专门为编程而构建的模型,尽管 DBRX Instruct 是为通用用途而设计的( 70.1% HumanEval 67.8% ,正如 Meta CodeLLaMA 博客中报道的那样)。

MMLU DBRX Instruct 的得分高于我们在 MMLU 上考虑的所有其他模型,达到 73.7%

1.DBRX Instruct 的质量和领先的开放模型。有关如何收集数字的详细信息,请参阅脚注。加粗和下划线是最高分。

3.2 基准测试质量与领先的封闭模型

2 显示了 DBRX Instruct 和领先的封闭模型的质量。根据每个模型创建者报告的分数, DBRX Instruct 超过了 GPT-3.5 (如 GPT-4 论文中所述),并且与 Gemini 1.0 Pro Mistral Medium 竞争。

在我们考虑的几乎所有基准测试中, DBRX Instruct 都超过了 GPT-3.5 ,或者 —— 最坏的情况是 —— GPT-3.5 相匹配。 DBRX Instruct MMLU 73.7% 70.0% )测量的常识和 HellaSwag 89.0% 85.5% WinoGrande 81.8% 81.6% )测量的常识推理方面优于 GPT-3.5 DBRX Instruct 在编程和数学推理方面尤其出色,由 HumanEval 70.1% 48.1% )和 GSM8k 72.8% 57.1% )衡量。

DBRX Instruct Gemini 1.0 Pro Mistral Medium 竞争 DBRX Instruct Inflection Corrected MTBench MMLU HellaSwag HumanEval 上的得分高于 Gemini 1.0 Pro ,而 Gemini 1.0 Pro GSM8k 上的得分更强。 HellaSwag DBRX Instruct Mistral Medium 的分数相似,而 Winogrande MMLU Mistral Medium 更强, DBRX Instruct HumanEval GSM8k Inflection Corrected MTBench 上的得分更强。

2.DBRX Instruct 和领先的封闭模型的质量。除了 Inflection Corrected MTBench (我们在模型端点上自行测量)之外,这些数字是由这些模型的创建者在各自的白皮书中报告的。有关更多详细信息,请参阅脚注。

3.3 长上下文任务和 RAG 的质量

DBRX Instruct 使用高达 32K 的令牌上下文窗口进行训练。表 3 将其性能与 Mixtral Instruct 以及最新版本的 GPT-3.5 Turbo GPT-4 Turbo API 在一套长上下文基准测试(来自 Lost in the Middle 论文的 KV-Pairs HotpotQAXL HotPotQA 的修改版本,将任务扩展到更长的序列长度)上进行了比较。 GPT-4 Turbo 通常是这些任务的最佳模型。但是,除了一个例外, DBRX Instruct 在所有上下文长度和序列的所有部分都比 GPT-3.5 Turbo 表现更好。 DBRX Instruct Mixtral Instruct 的总体性能相似。

3. 模型在 KV-Pairs HotpotQAXL 基准测试中的平均性能。粗体是最高分。下划线是除 GPT-4 Turbo 以外的最高分。 GPT-3.5 Turbo 支持的最大上下文长度为 16K ,因此我们无法在 32K 下对其进行评估。 *GPT-3.5 Turbo 序列的开头、中间和结尾的平均值仅包括高达 16K 的上下文。

利用模型上下文的最流行方法之一是检索增强生成 RAG 。在 RAG 中,从数据库中检索与提示相关的内容,并与提示一起显示,以便为模型提供比其他方式更多的信息。表 4 显示了 DBRX 在两个 RAG 基准测试( Natural Questions HotPotQA )上的质量,当模型还提供了使用嵌入模型 bge-large-en-v1.5 从维基百科文章语料库中检索到的前 10 个段落时。 DBRX Instruct Mixtral Instruct LLaMA2-70B Chat 等开放模型以及当前版本的 GPT-3.5 Turbo 具有竞争力。

4. 当每个模型都使用 bge-large-en-v1.5 从维基百科语料库检索到的前 10 个段落时,模型的性能会测量。准确性是通过匹配模型答案来衡量的。粗体是最高分。下划线是除 GPT-4 Turbo 以外的最高分。

3.4 训练效率

模型质量必须放在模型训练和使用的效率的上下文中。在 Databricks 中尤其如此,我们构建了像 DBRX 这样的模型,以便为客户建立一个流程来训练他们自己的基础模型。

我们发现训练专家混合模型可以大幅提高训练的计算效率(表 5 )。

例如,训练 DBRX 系列中名为 DBRX MoE-B 的较小成员(总参数为 23.5B ,活动参数为 6.6B )在 Databricks LLM Gauntlet 上达到 45.5% 的分数所需的 FLOP 比达到 43.8% 所需的 LLaMA2-13B 1.7 倍。 DBRX MoE-B 包含的有源参数也是 LLaMA2-13B 的一半。

从整体上看,我们的端到端 LLM 预训练流水线在过去十个月的计算效率提高了近 4 倍。 2023 5 5 日,我们发布了 MPT-7B ,这是一个在 1T Tokens 上训练的 7B 参数模型,达到了 30.9% Databricks LLM Gauntlet 分数。 DBRX 系列中一个名为 DBRX MoE-A (总参数为 7.7B ,活动参数为 2.2B )的成员达到了 30.5% Databricks Gauntlet 分数, FLOP 减少了 3.7 倍。这种效率是许多改进的结果,包括使用 MoE 架构、对网络进行其他架构更改、更好的优化策略、更好的标记化,以及 - 非常重要的 - 更好的预训练数据。

孤立地讲,更好的预训练数据对模型质量产生了重大影响 。我们使用 DBRX 预训练数据在 1T 令牌(称为 DBRX Dense-A )上训练了一个 7B 模型。 Databricks Gauntlet 的这一比例达到了 39.0% ,而 MPT-7B 的这一比例为 30.9% 。我们估计,我们新的预训练数据比用于训练 MPT-7B 的数据至少好 2 倍。换句话说,我们估计要达到相同的模型质量,需要一半的代币。我们通过在 500B 令牌上训练 DBRX Dense-A 来确定这一点 ; 它在 Databricks Gauntlet 上的表现优于 MPT-7B ,达到 32.1% 。除了更好的数据质量外,这种代币效率的另一个重要贡献者可能是 GPT-4 标记 化器,它拥有大量词汇量,被认为特别高效。这些关于提高数据质量的经验教训直接转化为实践和工具,我们的客户可以使用这些实践和工具在他们自己的数据上训练基础模型。

5. 我们用来验证 DBRX MoE 架构和端到端训练管道的训练效率的几篇测试文章的详细信息

3.5 nference Efficiency 推理效率

2 显示了使用 NVIDIA Tensor RT-LLM 以及我们优化的服务基础设施和 16 位精度为 DBRX 和类似模型提供服务的端到端推理效率。我们的目标是让这个基准测试尽可能地反映实际使用情况,包括多个用户同时访问同一个推理服务器。我们每秒生成一个新用户,每个用户请求包含大约 2000 个令牌提示,每个响应包含 256 个令牌。

一般来说, MoE 模型的推理速度比其总参数计数所暗示的要快 。这是因为它们对每个输入使用的参数相对较少。我们发现 DBRX 在这方面也不例外。 DBRX 推理吞吐量比 132B MoE 模型高 2-3 倍。

推理效率和模型质量通常处于对立状态: 较大的模型通常达到更高的质量,但较小的模型的推理效率更高。与密集模型相比,使用 MoE 架构可以在模型质量和推理效率之间实现更好的权衡。例如, DBRX 的质量比 LLaMA2-70B 高,并且由于活动参数的数量约为 LLaMA2-70B DBRX 推理吞吐量提高了 2 倍(图 2 )。 Mixtral MoE 模型所达到的改进的帕累托边界的另一点:它比 DBRX 小,质量相应较低,但推理吞吐量更高。 Databricks Foundation 模型 API 的用户可以在我们优化的模型服务平台上看到每秒多达 150 DBRX 令牌,该平台具有 8 位量化功能。

3.6 DBRX 推理效率

2. 在我们优化的服务基础设施上,使用 NVIDIA Tensor RT-LLM 16 位精度计算各种模型配置的推理吞吐量,并具有我们能找到的最佳优化标志。模型在整个节点上以张量并行方式运行。输入提示包含大约 2000 个提示令牌,我们生成 256 个输出令牌。每秒生成一个新用户。

4 如何构建 DBRX

DBRX 3072 NVIDIA H100 上进行了训练,这些 NVIDIA H300 3.2Tbps Infiniband 连接 。构建 DBRX 的主要过程 —— 包括预训练、训练后、评估、红队和改进 —— 在三个月的时间里进行。这是数月的科学、数据集研究和扩展实验的延续,更不用说 Databricks 多年的 LLM 开发,其中包括 MPT Dolly 项目以及我们与客户一起构建并投入生产的数千个模型。

为了构建 DBRX ,我们利用了可供客户使用的相同 Databricks 工具套件。我们使用 Unity Catalog 管理和治理我们的训练数据。我们使用新获得的 Lilac AI 探索了这些数据。我们使用 Apache Spark™ Databricks 笔记本处理和清理了此数据。我们使用开源训练库的优化版本训练 DBRX Mega Blocks LLM Foundry Composer Streaming 。我们使用 Mosaic AI 训练服务在数千个 GPU 上管理大规模模型训练和微调。我们使用 MLflow 记录了结果。我们通过 Mosaic AI 模型服务和推理表收集了人类反馈,以提高质量和安全性。我们使用 Databricks Playground 手动试验了该模型。我们发现 Databricks 工具对于每个用途来说都是一流的,而且它们都是统一产品体验的一部分,这让我们受益匪浅。

4.1 Databricks 上的 DBRX 入门

如果希望立即开始使用 DBRX ,可以使用 Databricks Mosaic AI Foundation 模型 API 轻松实现。您可以快速开始使用我们的即用即付定价,并从我们的 AI Playground 聊天界面查询模型。对于生产应用程序,我们提供预置吞吐量选项,以提供性能保证、对微调模型的支持以及额外的安全性和合规性。若要私有托管 DBRX ,可以从 Databricks Marketplace 下载模型,并在 Model Serving 上部署模型。

4.2 结论

Databricks ,每个企业都应该有能力在新兴的 GenAI 世界中控制其数据及其命运。 DBRX 是我们下一代 GenAI 产品的核心支柱,我们期待着在客户利用 DBRX 的功能和我们用于构建它的工具时等待他们的激动人心的旅程。在过去的一年里,我们与客户一起培训了数千名 LLM DBRX 只是 Databricks 为各种应用程序构建的强大而高效的模型的一个示例,从内部功能到我们客户的雄心勃勃的用例。

与任何新模式一样, DBRX 的旅程只是一个开始,最好的工作将由那些建立在它之上的人完成:企业和开放社区。这也只是我们在 DBRX 上工作的开始,您应该期待更多。

4.3 贡献

DBRX 的开发由 Mosaic 团队领导,该团队之前构建了 MPT 模型系列,与来自 Databricks 的数十名工程师、律师、采购和财务专家、项目经理、营销人员、设计人员和其他贡献者合作。我们感谢我们的同事、朋友、家人和社区在过去几个月的耐心和支持。

在创建 DBRX 的过程中,我们站在开放和学术界巨人的肩膀上 。通过公开提供 DBRX ,我们打算重新投资于社区,希望我们将来能够共同构建更强大的技术。考虑到这一点,我们非常感谢 Trevor Gale 和他的 MegaBlocks 项目( Trevor 的博士生导师是 Databricks 首席技术官 Matei Zaharia )、 PyTorch 团队和 FSDP 项目、 NVIDIA TensorRT-LLM 项目、 vLLM 团队和项目、 EleutherAI 和他们的 LLM 评估项目、 Lilac AI Daniel Smilkov Nikhil Thorat 的工作和合作。 以及我们在艾伦人工智能研究所( AI2 )的朋友。

5 Mosaic Eval Gauntlet v0.3.0 – 评估套件


MPT-7B
MPT-30B Eval Gauntlet v0 6 个类别上进行了比较。

Mosaic Eval Gauntlet MosaicML 用于评估预训练基础模型质量的新技术。 Eval Gauntlet 包含从各种来源收集的 35 个不同的基准,并分为 6 个广泛的能力类别,我们期望良好的基础模型具有这些能力。在对现有的 LLM 出版物和开源评估工具(如 EleutherAI Eval Harness 和斯坦福 CRFM HELM )进行广泛审查后,我们编译了这些类别。
在决定要包含哪些基准时,我们考虑了一些标准。我们希望基准测试需要广泛的技能,这些技能对实际应用有用,我们希望它们来自不同的来源,我们希望它们能够捕捉到研究界传统上强调的技能以及那些未被充分探索的技能,我们希望通过简单的、 明确的指标,例如完全匹配和多项选择准确性。与报告单个指标的更常见方法相比,编制总分背后的理念是双重的。

1.LLM 是第一代真正的通才模型。他们之所以受到追捧,是因为他们只需一点点提示就可以很好地完成数以万计的不同任务。仅靠 10 个不同的学术基准无法充分捕捉这种能力。不可能定义和评估 LLM 可以用于的每个可以想象的任务,但凭借 Composer 超快的 ICL 评估,它当然值得一试!

2. 使用一小组指标可能会产生误导性的高方差。这可能会导致我们认为模型的能力截然不同,即使与模型互动几分钟就会发现它们感觉非常相似。通过汇总数十个基准测试的分数,我们可以降低信噪比,并获得对模型相对性能的更可靠的估计。

此外,我们做出了独特的设计决策,即报告按类别组织的多个单独的总分,而不是单个单一指标。这是因为最终用户经常希望为特定用例部署模型。在为特定垂直领域训练模型时,有许多设计决策,包括数据集混合。通过将模型性能分解为一组可管理的核心能力,我们可以在模型训练过程中做出更智能的设计决策。

在评估时,我们运行所有基准测试,对每个类别中的子分数进行平均,并报告每个类别的综合分数以及综合分数的平均值。一些基准是多项选择考试,只需随机猜测即可获得 0% 以上的准确率。为了确保我们所有的综合分数都小于或等于 1 ,我们减去随机基线准确率,并将余数重新调整为 1 减去基线准确率。

例如,如果基准 A 的随机基线精度为 25% ,而模型达到 30% ,则我们将其报告为 0.3 - 0.25 / 1-0.25 = 0.0667 。这可以看作是重新调整了高于机会的精度,因此最大值为 1 。对于随机猜测基线准确率为 ~0 的基准测试,我们按原样报告准确度。请注意,通过这种重新缩放,从技术上讲,模型在整个类别上的得分可能低于 0 ,但我们没有发现我们测试过的任何模型都会发生这种情况。

这是 Eval Gauntlet v0.3.0 版本。

5.1 阅读理解

阅读理解基准测试模型根据文本段落中的信息回答问题的能力。它包括许多多项选择基准以及一些要求模型输出精确正确答案的基准。

  1. SQuAD

l 描述: SQuAD 10,570 个简短文档组成,后跟一个相关问题。这些文件的范围从关于体育赛事的简短新闻剪报,到解释物理学概念的简介,再到关于美国历史的文件。我们希望模型能够输出完全正确的答案。

l 发行年份: 2016

l 少数样本示例数: 3

l 随机基线准确率: ~0%

  1. BoolQ

l 描述: BoolQ 3,270 篇关于各种主题的短文组成,然后是是 / 否问题。该模型应以多项选择题的形式回答。

l 发布年份: 2019

l 少数样本示例数: 0

l 随机基线准确率: ~50%

  1. CoQA

l 描述: CoQA 7,983 个基于段落的简短自由回答问题组成。对于每一段经文,都有一系列相关的问题。每个问题都使用文档以及上下文中提供的所有前面的问题 / 答案进行格式化。使用精确匹配精度评估模型。

l 发行年份: 2018

l 少数样本示例数: 0

l 随机基线准确率: 0%

  1. AGI Eval LSAT Reading Comprehension

l 描述: LSAT 阅读理解由 268 道基于段落的四选择多项选择题组成,重点关注各种以信息为中心的领域,如政治、商业、经济和科学。这些问题依赖于模型从文本中提取基本信息的能力。

l 发布年份: 2023

l 几个样本示例的数量: 5

l 随机基线准确率: 25%

  1. AGI Eval LSAT Logical Reasoning

l 描述: LSAT 逻辑推理由 510 个基于段落的四选择多项选择题组成,其中模型必须从各种主题的段落中得出复杂的结论。

l 发布年份: 2023

l 几个样本示例的数量: 5

l 随机基线准确率: 25%

  1. AGI Eval SAT English

l 描述: SAT 英语由 206 道基于段落的四选择多项选择题组成,其中模型必须理解高中水平的段落。

l 发布年份: 2023

l 几个样本示例的数量: 5

l 随机基线准确率: 25%

5.2 常识推理

常识推理测试模型执行基本推理任务的能力,这些任务需要对对象、其属性和行为的常识性知识。

1 BIG-bench: 策略 QA

l 描述: BIG-bench 策略 QA 2,289 个非常不拘一格的是 / 否问题组成,涉及广泛的常识性主题,例如 鱼会得扁桃体炎吗?

l 发布年份: 2022

l 少数样本示例数: 0

2 BIG-bench: 奇怪的故事

l 描述: BIG-bench 奇怪的故事由 174 个短篇小说组成,然后是一个双选择多选题,其中要求模型对故事中的人物、他们的感受以及他们为什么以某种方式行事做出常识性推断。

l 发布年份: 2022

l 少数样本示例数: 0

l 随机基线准确率: 50%

3 COPA

l 描述: COPA 100 个因果多项选择题组成,其中提示模型一个前提,模型必须在前提的两个可能原因 / 结果之间正确选择。

l 发行年份: 2011

l 少数样本示例数: 0

l 随机基线准确率: 50%

4 PIQA

l 描述: PIQA 1,838 道常识性物理直觉 2 选择多项选择题组成。

l 发布年份: 2019

l 几个样本示例的数量: 10

l 随机基线准确率: 50%

5 OpenBook QA

l 描述: OpenBook QA 500 道四选择多项选择题组成,这些题依赖于对常见物体和实体的基本物理和科学直觉。

l 发行年份: 2018

l 几个样本示例的数量: 10

l 随机基线准确率: 25%

6 SIQA

l 描述: 社交互动 QA 1954 个双选择多项选择题组成,这些问题测试模型在日常生活中对参与者得出情感和社会结论的能力。

l 发布年份: 2019

l 少数样本示例数: 3

l 随机基线准确率: 50%

7) 公共常识 QA

l 描述: 常识性 QA 1,221 道四选题多项选择题组成,这些题依赖于关于日常物品的非常基本的常识推理。

l 发布年份: 2019

l 少数镜头示例数: 0

l 随机基线准确率: 25%

5.3 世界知识

1 Jeopardy 基准

1. 描述: Jeopardy 2,117 Jeopardy 问题组成,分为 5 类:文学、美国历史、世界历史、单词起源和科学。预计该模型将对问题给出确切正确的答案。它是由 MosaicML Huggingface 上提供的更大的 Jeopardy 套装中定制策划的。

2. 发布年份: 2022

3. 少数镜头示例数: 3

4. 随机基线准确率: 0%

2 MMLU 基准

l 描述: MMLU 14,042 道四选题组成,分布在 57 个类别中。这些问题采用学术标准化考试的风格,模型提供问题和选择,并期望在 A B C D 之间进行选择作为其输出。科目范围从法学到数学,再到道德。

l 发布年份: 2019

l 几个镜头示例的数量: 5

l 随机基线准确率: 25%

3 BIG- 基准 : wikidata

l 描述: BIG-bench 维基数据由 20,321 个关于从维基百科中提取的事实信息的问题组成。问题范围从名人的母语到不同地区所属的国家。模型被赋予一个句子,例如 巴拉克 · 奥巴马的国籍国是 ,并期望用例如 美国 来完成句子。

l 发布年份: 2022

l 少数镜头示例数: 3

l 随机基线准确率: ~0%

4 ARC 简单题

l 描述: ARC easy 2,376 道简单的四选择多项选择科学问题组成,这些问题来自 3-9 年级的科学考试。这些问题依赖于与基础科学相关的世界知识。

l 发布年份: 2019

l 少数样本示例数: 3

l 随机基线准确率: 25%

5 ARC 挑战题

l 描述: ARC easy 2,376 道简单的四选择多项选择科学问题组成,这些问题来自 3-9 年级的科学考试。这些问题依赖于科学世界知识和一些程序推理。

l 发布年份: 2019

l 少数镜头示例数: 3

l 随机基线准确率: 25%

6 Trivia QA – 修正

l 描述: 琐事 QA 是一个问答数据集,用于评估模型对琐事问题生成自由响应简短答案的能力。我们对其进行了子采样,以包含 3,000 个问题,并且为了提高速度,我们将所有答案剪裁为最多 10 个标记。

l 发布年份: 2017

l 少样本示例数: 3

l 随机基线准确率: 0%

5.4 符号问题解决

符号问题解决任务测试模型解决各种符号任务的能力,包括算术、逻辑推理、算法和代数。

1 BIG 小学数学基准 QA

l 描述: Big bench 初等数学 QA 38,160 道四选题多项选择算术单词组成。

l 发布年份: 2022

l 少数样本示例数: 1

l 随机基线准确率: 25%

2 BIG- dyck 基准语言

l 描述: Big bench dyck 语言由 1000 个完整的序列问题组成,其中给出了一个由括号和大括号组成的部分完成的平衡表达式,模型需要输出完成平衡表达式所需的精确标记。

l 发布年份: 2022

l 几个样本示例的数量: 5

l 随机基线准确率: 0%

3 BIG- 工作台基准

l 描述:大台逻辑运算符由 210 个问题组成,其中定义了许多数学运算符,并且模型应计算由这些定义的运算符组成的某个表达式的结果。这测试了模型处理数学抽象并适当应用它们的能力。

l 发布年份: 2022

l 少数镜头示例数: 3

l 随机基线准确率: 0%

5.5 空格的简单算术

1 )描述:带空格的简单算术由 MosaicML 开发。它由 1000 个算术问题组成,最多包括 3 个运算,使用最多 3 位数字。所有数字和运算符之间都有间距。该模型应使用适当的运算顺序计算表达式的正确结果。

l 发布年份: 2023

l 几个镜头示例的数量: 5

l 随机基线准确率: 0%

2 )没有空格的简单算术

l 描述:带空格的简单算术由 MosaicML 开发。它由 1000 个算术问题组成,最多包括 3 个运算,使用最多 3 位数字。任何数字和运算符之间都没有间距。该模型应使用适当的运算顺序计算表达式的正确结果。

l 发布年份: 2023

l 几个镜头示例的数量: 5

l 随机基线准确率: 0%

5.6 AGI 评估 LSAT分析推理

l 描述: AGI Eval LSAT Analytical Reasoning 230 个四选择多项选择逻辑谜题组成。这些问题取自 AGI Eval 基准。

l 发布年份: 2023

l 少数样本示例数: 3

l 随机基线准确率: 25%

1 GSM8K

l 描述: GSM8K 1,319 个简短的、自由回答的小学水平算术单词问题和简单的数值解决方案组成。在给出最终答案之前,系统会提示模型使用思维链推理。

l 发布年份: 2023

l 少数镜头样本示例数: 3

l 随机基线准确率: 0%

2 SVAMP

l 描述: SVAMP 300 个简短的、自由回答的小学水平算术单词问题和简单的数字解决方案组成。在给出最终答案之前,系统会提示模型使用思维链推理。

l 发布年份: 2023

l 少数样本示例数: 3

l 随机基线准确率: 0%

5.7 语言理解

语言理解任务评估模型理解语言结构和属性的能力,包括确定哪些类型的句子比其他句子更有可能、执行语言之间的翻译以及识别语言。

5.7.1 LAMBADA

1. 描述: LAMBADA 兰巴达由 5,153 个段落组成,取自书籍。该模型预计将读取每个段落的前 N-1 个单词并预测最终标记。

2. 发行年份: 2016

3. 少数样本示例数: 0

4. 随机基线准确率: 0%

5.7.2 HellaSwag

l 描述: HellaSwag 10,042 个多项选择方案组成,在这些方案中,系统会提示模型一个方案,并从四个可能的选项中选择方案的最可能结论。

l 发布年份: 2019

l 少数样本示例数: 0

l







请到「今天看啥」查看全文