专栏名称: CTO肉饼
robbin是前JavaEye网站创始人,现在是丁香园CTO。如果你是技术人员,正在创业或者希望加入创业,关注互联网产品、研发、运营、创业管理,请关注我。
目录
相关文章推荐
51好读  ›  专栏  ›  CTO肉饼

李彦宏的脸被Llama 3打肿了

CTO肉饼  · 公众号  ·  · 2024-04-24 18:25

正文

3-4 月,顶级的 AI 大语言模型都是扎堆的升级和发布。姗姗来迟的 Llama 3 又刷了榜,站稳了开源大模型的头把交椅,并且性能直逼一线顶级商业大模型 GPT-4。



前面短视频我们提到了OpenAI 的 GPT-4 Turbo;谷歌的 Gemini 1.5 Pro;xAI 的 Grok 1.5V;还有此前开源的 Mistral Large,Anthropic 的 Claude 3,cohere 的 Command R+。总计 6 大巨头,三个闭源,三个开源。脸书最新的开源大语言模型 Llama 3 在 4 月下旬也发布了。分别有 3 个版本:80 亿参数,700 亿参数和 4000 亿参数。分享一些关于 Llama 3 有趣的数据吧:


  1. Llama 3 的训练使用了 1.6 万块英伟达的 H100 算力卡,而 Llama 2 的训练使用的是 2048 块 H100,囤积的算力直接翻了 8 倍。

  2. Llama 3 训练包含了 15 万亿 Token 的语料数据,而 Llama 2 训练包含不到 2 万亿 Token 的语料数据。翻了 7 倍多。15 万亿 Token 的训练数据真的是惊人啊,要知道 GPT-3 训练数据才是 3000 万 Token,而现在主流大模型训练的数据一般也就一万亿的 Token。Llama 3 哪来那么多的数据?


根据 AI 时代的神经规模定律,只要算力越多,模型越大,训练数据越多,AI 就越聪明。算力和数据都翻了 7-8 倍。在模型同样保持 700 亿参数的同时,Llama 3 已经达到了顶级商用 AI 大模型的水平线了:而 4000 亿参数的 Llama 3 虽然还没有训练完。但是训练到现在的版本已经评测数据完全不输于 GPT-4 了。







请到「今天看啥」查看全文