专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

Ai2开源OLMo 2：数据集、训练方法、权重大放送

AIGC开放社区 · 公众号 · 互联网安全 · 2024-11-29 01:30

正文

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

AI研究机构Ai2开源了最新大模型OLMo 2，这是一款在各方面都真正开放的人工智能模型。

OLMo，即Open Language Model，与Llama和Gemma等流行的开放权重模型不同，它不仅提供模型权重，还包括了工具、数据集、训练配方等所有用于开发模型的内容。

OLMo 2包括了7B和13B两个参数版本，能力都相当优秀。7B版本在英语学术基准测试中超越了Meta的Llama 3.1 8B，而13B版本即使在训练时使用的计算能力较少的情况下，也超过了Qwen 2.5 7B。

开源地址：https://huggingface.co/allenai/OLMo-2-1124-7B

OLMo 2的发布是基于今年早些时候发布的首个OLMo模型，Ai2团队采用了创新的两阶段训练方法。他们首先在包含3.9万亿token的大型数据集上进行训练，然后使用来自学术内容、数学练习册和指令集的高质量数据进行优化。

团队特别关注训练的稳定性，并对此进行了关键的改进，以防止在长时间的训练过程中出现性能下降的情况。

此次发布还建立在Ai2近期与开源训练系统Tülu 3合作的基础之上。Tülu 3是一个复杂的后训练过程，它使得OLMo 2具备了与世界上一些最佳模型相当的指令跟随任务能力。

完整的发布内容还包括了评估框架和中间检查点，这些工具可以帮助开发人员深入理解并进一步提升OLMo 2的能力。

本文素材来源Ai2，如有侵权请联系删除

END

推荐文章

字节跳动技术团队 · 更快、更稳、更优，揭秘火山引擎全站加速 DCDN 规模容器化最佳实践

19 小时前

嘶吼专业版 · RomCom 黑客利用 Firefox 和 Windows 零日漏洞

昨天

光伏资讯 · 与老杨共赴协鑫集成总部！

2 天前

光伏资讯 · 与老杨共赴协鑫集成总部！

2 天前

科技日报 · 我国首个！突破百万吨大关

3 天前

科技日报 · 我国首个！突破百万吨大关

3 天前

猎聘 · 大厂外包到底值不值得去？

4 天前

猎聘 · 大厂外包到底值不值得去？

4 天前

小马宋 · 月圆之夜，小马宋给各位要了3000份免费月饼

8 年前

吃货研究所 · 机智的吃货，双十一应该避开这些坑

8 年前

微设计 · 中国式雅致生活

7 年前

化妆师MK-雷韵祺 · 白百何出轨为什么要穿背带裤？我们实测了5条，终于发现原因！

7 年前

结构化金融 · 房地产市场形势分析与融资方法大全

7 年前