Elon Musk 的人工智能公司 xAI 在 Apache 2.0 许可下发布了其 3140 亿参数MoE混合专家模型 Grok-1 的权重和架构。
埃隆·马斯克也兑现了之前向公众免费开放
Grok的承诺,
这标志着在开放性和可访问性方面的重大进步。
什么是Grok
2023年7月12日,特斯拉和SpaceX的首席执行官埃隆·马斯克(Elon Musk)宣布创立了xAI,这是一家旨在探索宇宙真理的创新型公司。紧接着,有报道称他们开发的人工智能Grok将在2023年11月3日,于英国布莱切利公园的一个人工智能峰会结束后正式发布。
xAI的团队成员背景卓越,包括来自DeepMind、OpenAI、Google研究院、微软研究院和多伦多大学等顶尖机构的精英。团队中的显赫人物如Igor Babuschkin、Manuel Kroiss和Yuhuai (Tony) Wu,他们在人工智能研究领域的开创性工作和重大突破,如开发GPT-3.5和GPT-4,贡献卓越。
Grok这个庞大的语言模型拥有3140亿个参数,是迄今为止最大的开源模型之一。为了提供一些参考,这是OpenAI发布的GPT-3模型大小的两倍多,而GPT-3当时已被视为一个里程碑。X用户Andrew Kean Gau分享的图表直观展示了Grok与其竞争对手相比的规模之大。
但 Grok 不仅更大,它还利用了专家混合 (MoE) 架构。"Mixture-of-Experts"模型是一种深度学习架构,它将大型神经网络分解为多个专家(Experts),每个专家负责处理输入数据的不同部分。这种架构的目的是通过允许每个专家专注于输入数据的特定子集来提高模型的效率和性能。理论上,与传统的密集模型相比,这使其更加高效且适应性更强。
以下是 Grok-1 版本的摘要
-
具有314B(即314亿)参数的专家混合模型,在给定的标记(token)上有25%的权重是活跃的。对于任何一个给定的词或字符,只有大约四分之一的模型参数(权重)是参与到处理这个特定标记的。这表明模型的大部分参数在处理任何特定输入时都是不活跃的,这可能是为了提高计算效率,因为不是所有的参数都对每个输入都是必要的。
-
基础模型是在大量文本数据上训练的,没有针对任何特定任务进行微调。
-
8个expert(两个活跃)
-
860亿个参数
-
Apache 2.0 许可证
-
论文:
https://x.ai/blog/grok-os
-
代码:
https://github.com/xai-org/grok-1
Grok特效和功能
幽默和讽刺的引入,以及实时数据访问的集成,可能会彻底改变公众对人工智能的看法,使其变得更加平易近人、用户友好。此举符合人工智能发展的更广泛趋势,重点是类人交互能力。
如何安装 Grok
有关加载和运行 Grok-1 的说明在此 GitHub 存储库中进行了解释。将存储库clone到本地。
从HuggingFace 或Academic Torrents 下载权重并将其放入“checkpoints”目录中。
顺便说一句,有些人质疑为什么权重是通过 Bittorrent 磁力链接发布的。由于模型变得越来越大,这可能会成为未来的常态。另外,通过 torrent 分发 300 GB 数据比直接分发更便宜。
打开 CLI 并运行以下命令来测试代码:
pip install -r requirements.txt
python run.py
该脚本负责加载模型检查点,并在测试输入上进行抽样。
重要的是,鉴于Grok-1模型巨大的规模,具备3140亿参数,必须使用一台拥有充足GPU内存的计算机,才能通过提供的示例代码来测试该模型。
在xAI仓库中,混合专家(MoE)层的实现并没有针对效率进行优化,这是一个有意的选择,目的是为了优先保证模型的正确性,并避免开发专用的计算核心。
如何尝试 Grok
如果您只是对 Grok 的功能感到好奇,它目前在 X 上可用,但只有 Premium+ 用户可以使用,价格为每月 16 美元。
Grok-1 许可
此版本中的代码和相关 Grok-1 权重已根据 Apache 2.0 许可证获得许可。
Apache 2.0 许可证是一种宽松的自由软件许可证。该许可证允许出于任何目的使用该软件,用户可以分发该软件、修改该软件以及分发该软件的修改版本。
该许可证仅适用于该存储库中的源文件和 Grok-1 的模型权重。
想法
Grok-1 的发布正值关于意识形态在人工智能开发中的作用的激烈争论之中。埃隆·马斯克(Elon Musk)一直直言不讳地表达了他对“唤醒人工智能”的担忧,并引用了谷歌的 Gemini 作为人工智能系统的一个例子,该系统将多样性举措优先考虑到了潜在危险的程度。
Google Gemini 这样的人工智能系统旨在优先考虑某些社会和政治价值观,而 Grok 这样更加开放的目标是最大限度地减少培训和输出中的意识形态偏见。虽然开源如此强大的语言模型肯定会带来风险,但我相信其好处远远大于潜在的缺点。我们期待看到 LoRA 和 Dreambooth 等技术如何扩展微调和定制方面的可能性。