3-4 月,顶级的 AI 大语言模型都是扎堆的升级和发布。姗姗来迟的 Llama 3 又刷了榜,站稳了开源大模型的头把交椅,并且性能直逼一线顶级商业大模型 GPT-4。
前面短视频我们提到了OpenAI 的 GPT-4 Turbo;谷歌的 Gemini 1.5 Pro;xAI 的 Grok 1.5V;还有此前开源的 Mistral Large,Anthropic 的 Claude 3,cohere 的 Command R+。总计 6 大巨头,三个闭源,三个开源。脸书最新的开源大语言模型 Llama 3 在 4 月下旬也发布了。分别有 3 个版本:80 亿参数,700 亿参数和 4000 亿参数。分享一些关于 Llama 3 有趣的数据吧:
-
Llama 3 的训练使用了 1.6 万块英伟达的 H100 算力卡,而 Llama 2 的训练使用的是 2048 块 H100,囤积的算力直接翻了 8 倍。
-
Llama 3 训练包含了 15 万亿 Token 的语料数据,而 Llama 2 训练包含不到 2 万亿 Token 的语料数据。翻了 7 倍多。15 万亿 Token 的训练数据真的是惊人啊,要知道 GPT-3 训练数据才是 3000 万 Token,而现在主流大模型训练的数据一般也就一万亿的 Token。Llama 3 哪来那么多的数据?
根据 AI 时代的神经规模定律,只要算力越多,模型越大,训练数据越多,AI 就越聪明。算力和数据都翻了 7-8 倍。在模型同样保持 700 亿参数的同时,Llama 3 已经达到了顶级商用 AI 大模型的水平线了:而 4000 亿参数的 Llama 3 虽然还没有训练完。但是训练到现在的版本已经评测数据完全不输于 GPT-4 了。