[LG] StarCoder 2 and The Stack v2: The Next Generation
网页链接
介绍了大型代码语言模型(Code LLM)的新发展——StarCoder2以及数据集The Stack v2,由BigCode项目组织开发,旨在负责任地推进代码语言模型的发展。StarCoder2的训练集比初代StarCoder大四倍,涵盖619种编程语言和其他高质量数据源,如GitHub请求和Kaggle notebooks。StarCoder2模型有3B、7B和15B三种规模,并在多个基准上进行评估,其中3B模型就超越了相似规模的其他模型以及15B的StarCoderBase。而15B的StarCoder2不仅显著优于同等规模的模型,还在数学和代码推理基准测试中超越了体量是其两倍多的CodeLlama-34B模型。此外,StarCoder2在一些低资源语言上的表现也优于DeepSeekCoder-33B。BigCode项目还以开放的方式提供了模型权重,并公开了训练数据的软件遗产持久性标识符(SWHIDs),以确保透明度。
网页链接
介绍了大型代码语言模型(Code LLM)的新发展——StarCoder2以及数据集The Stack v2,由BigCode项目组织开发,旨在负责任地推进代码语言模型的发展。StarCoder2的训练集比初代StarCoder大四倍,涵盖619种编程语言和其他高质量数据源,如GitHub请求和Kaggle notebooks。StarCoder2模型有3B、7B和15B三种规模,并在多个基准上进行评估,其中3B模型就超越了相似规模的其他模型以及15B的StarCoderBase。而15B的StarCoder2不仅显著优于同等规模的模型,还在数学和代码推理基准测试中超越了体量是其两倍多的CodeLlama-34B模型。此外,StarCoder2在一些低资源语言上的表现也优于DeepSeekCoder-33B。BigCode项目还以开放的方式提供了模型权重,并公开了训练数据的软件遗产持久性标识符(SWHIDs),以确保透明度。