架构师大咖
架构师大咖,打造有价值的架构师交流平台。分享架构师干货、教程、课程、资讯。架构师大咖,每日推送。
数据是当前火爆全球的 AI 大模型至关重要的一环,有人把数据比作大模型的“血液”,而预训练数据的数量、质量、多样性是大模型能力表现的关键性因素。正因如此,很多人(曾)一度认为坐拥海量数据并孵化出 Google Brain 的谷歌公司会成为 AI 时代的领头羊。
昨晚,大数据和 AI 公司
Databricks
宣布开源他们的
132B
大模型 DBRX
。目前,DBRX 的基础 (DBRX Base) 和微调 (DBRX Instruct) 版本皆允许在 GitHub 和
Hugging Face
上用于研究和商业用途,并且可以在公共、自定义或其他专有数据上运行和调整。
https://github.com/databricks/dbrx
Hugging Face 链接:
https://huggingface.co/databricks/dbrx-base(基础版)
https://huggingface.co/databricks/dbrx-instruct (微调版)
Databricks 源自加州大学伯克利分校的 AMPLab 项目,致力于研发一款基于 Scala 构建的开源分布式计算框架 Apache Spark。所谓的“湖仓一体”(data Lakehouse)就是这家公司首创的概念。2023 年 3 月的时候,
Databricks 就跟着
ChatGPT
的风推出了开源语言模型 dolly,并在后续的 2.0 版本打出了「首个真正开放和商业可行的指令调优 LLM(大模型)」的口号。
所以,这是 Databricks 的「第二次搅局」。
这一次发布的 DBRX
耗时
两个月
、投入约
1000 万美元
训练打造,宣称“超越了
GPT-3.5
,与
Gemini 1.0 Pro
具有竞争力,在编程方面超越了
CodeLLaMA-70B
等专业模型”。Databricks 的首席神经网络架构师 & DBRX 团队负责人 Jonathan Frankle 还直接在 X 上放话:“
树立开源 LLM 的新标准!
”
Jo
n
athan Frankl
e 曾经是生成式 AI 初创公司 MosaicML 的首席科学家,而
Databric
ks 在
2023 年 6 月以 14 亿美元的大手笔收购了 MosaicML,这一举动还让
Frankl
e 辞掉了
哈佛大学的教授工作,专心开发 DBRX。
马斯克意气风发的宣告
3140 亿
史上
最大开源模型
Grok-1
诞生,这事就发生在 10 天前,还令人历历在目。难不成 DBRX 真的就这么轻松击溃了
LLaMA
和 Grok 两大开源模型?背景已经介绍完毕,下面我们就来看看 DBRX 的详细情况。
首先,
万物基于 Transformer,DBRX 也不例外。
除此之外,DBRX 还是一个混合专家模型(MoE),总计 1320 亿(132 B)参数,在 12T 文本和代码数据 tokens 上进行预训练。MoE 架构引入了一种模块化的体系结构,从一个巨大的神经网络里分解出多个子网络(
“专
家网络
”)
协同工作,处理输入数据。
相比法国的 Mixtral 和 Grok-1 等其他开源 MoE 模型,DBRX 有个“独门绝学”:
它配置了 16 个专家网络,从中选择 4 个参与运算,并且仅使用 360 亿 的参数。
(Mixtral 和
Grok-1 则各有 8 个专家网络,选择其中 2 个参与)
Databricks 还发现,这种改进能有效提升模型质量。
不过 DBRX 和 Grok-1 有一个同款的毛病:贵。Databricks 在这两个月用了
3072
张
NVIDIA H100
GPU
训练 D
BR
X,而用户如果想在标准配置中运行 DBRX,则需要一台至少配备
四张 H100
(或
320GB 显存
的任何其他 GPU 配置)的服务器或 PC。
在推理速度上,DBRX 比 LLaMA2-70B 快约 2 倍;从参数总数和激活参数数来看,DBRX 大约只有 Grok-1 的 40% 大小。
Dat
abricks 也提供了 API 服务,在
8 位量化(8-bit quantization)的情况下,DBRX 预计可以每秒处理高达 150 个 tokens 的吞吐量。
上图的表格体现了
DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 方面优于已建立的开源模型。
同样被 DBRX 击败的还有 ChatGPT 3.5,Databricks 认为这可以“
加速企业内开源模型取代专有模型的趋势
”。事实上,DBRX 也没有真的“避战”如日中天的 GPT-4,反而在 SQL 等应用程序中对 GPT-4 Turbo 构成了挑战。
这张表格的主
要对比对象是 DBRX 对标的一众开源模型:
DBRX 的“微调版” Instruct 在 Hugging Face Open LLM Leaderboard 这一复合基准测试中取得了最高分,得分达到了 74.5%,远高于第二名 Mixtral Instruct 的 72.7%。
在 Databricks Model Gauntlet 这套包含超过 30 项任务、横跨六个领域的评估套件中,DBRX Instruct 再次领先,得分为 66.8%,相比第二名 Mixtral Instruct 的 60.7% 有显著优势。
在编程和数学相关的任务上,DBRX Instruct 展现了尤为强大的能力。
例如,在 HumanEval 这一评估代码质量的任务上,其正确率达到 70.1%,比 Grok-1 高出约 7 个百分点,比 Mixtral Instruct 高出约 8 个百分点,并超过了所有被评估的 LLaMA2-70B 变体。
在 GSM8k 数学问题解决测试中,DBRX Instruct 也取得了最优成绩 66.9%,胜过 Grok-1 和 Mixtral Instruct 以及其他 LLaMA2-70B 变体。
值
得注意的是,尽管 Grok-1 的参数数量是 DBRX Instruct 的 2.4 倍,但在上述编程和数学任务上,DBRX Instruct 仍能保持领先地位。
甚至在针对编程任务专门设计的 CodeLLaMA-70B Instruct 模型之上,DBRX Instruct 在 HumanEval 上的表现依然出色。
在大规模多任务语言理解数据集(MMLU)上,DBRX Instruct 继续展示出顶级性能,得分高达 73.7%,超过了本次比较的所有其他模型。不过关于这点,在实测之前还是无法完全证明它的中文水平究竟如何。
DBRX 对阵开源模型确实占据上风,如果让它去打当前的“绝代双骄”GPT-4 和 Claude-3 呢?Databricks 针对几大闭源模型也做了相关测评,还很详尽:
上面这张表主要对比的是基准测试,DBRX 对比 GPT-3.5
在几乎所有的基准测试中都优于或至少持平
对比。
DBRX
对比 Gemini 1.0 Pro 则胜了
Inflection Corrected MTBench、MMLU、HellaSwag 和 HumanEval这几个
基准,但
Gemini 1.0 Pro 在 GSM8k 测试中表现更强,这意味着在某些特定类型的数学问题解决上,Gemini 1.0 Pro 可能更具优势。
DBRX
对比 Mistral Medium
在 HellaSwag 上的得分相似,两者的推理能力五五开;
Winogrande 和
MMLU 这两项语言类的测试全都是 Mistral Medium 占据了优势;
而在
HumanEval、GSM8k 以及 Inflection Corrected MTBench 这些基准上,DBRX Instruct 则获得了更高的分数,所以 DBRX 还是更擅长编程和数学推理一点。
紧接着上面这张表是