近日,智源研究院与 Hugging Face 开发者社区合作,发布 Open Chinese LLM Leaderboard,旨在
跟踪、排名和评估开放式中文大语言模型
,通过开源社区共建、用户自主贡献的方式,
持续推动和完善中文语言大模型的科学、客观排名榜
。该评测从2月24日试上线至今,已经完成了78个模型的评测,当前正在评测的有7个,还有20个在队列中。
https://huggingface.co/spaces/BAAI/open_cn_llm_leaderboard
在以往的Hugging Face社区上,始终缺乏一个开放共建更具客观性质的中文榜单,而Open-Chinese-LLM-leaderboard的建设填补了这一部分的空白。
任何技术的长远发展都离不开社区的广泛参与和贡献。而Open-Chinese-LLM-leaderboard的建设初衷,是期望依托Hugging Face这一开源社区平台,鼓励和吸引更多的中文大语言模型开发者加入,共同推动中文大语言模型的持续进步与完善,为中文大语言模型的发展提供强有力的支撑。
Open-Chinese-LLM-leaderboard主页图
为确保评估的公正性,所有的模型
均通过FlagEval平台提供的底层能力进行评估
,FlagEval平台为该榜单提供评测服务与社区共建的相关数据集,同时使用平台标准化的GPU和统一的评估环境进行测试,保障评估结果的可比性和可信度。
Open Chinese LLM Leaderboard基于Eleuther AI Language Model Evaluation Harness评测框架,对模型在七个关键基准上进行评估
,所有采用的英文数据集均已完成中文的转换。
在数据集方面,针对中文大语言模型的评估,该Leaderboard 将相关的英文数据集,进行了中文的翻译与校验。为了更好的评估中文大语言模型的能力,该Leaderboard 提供了更加完善的基准数据集,覆盖学科教育、专业知识、推理、幻觉和常识。最终得分为每个评估数据集的平均得分,包含以下数据集:
包含7,787个科学考试问题,源自不同来源,要求模型在25个示例后进行推理,用于评估模型的多步推理能力,已翻译为中文。
用于评估常识推理的挑战性数据集,它特别难以应对现有的先进模型,尽管问题对人类来说非常简单(准确率 >95%),已翻译为中文。
包含817个问题,覆盖38个类别,旨在衡量语言模型在生成答案时是否真实,以及它们是否倾向于复制人类的虚假信息,已翻译为中文。
是一个大规模对抗性高难度 Winograd 基准,用于常识推理,要求模型在5个示例后进行推理,已翻译为中文。
是一个包含8,000个问题的小学数学数据集,用于衡量模型解决多步骤数学推理问题的能力,它要求模型展示出对数学问题的深入理解,已翻译为中文。