专栏名称: Hugging Face
The AI community building the future.
目录
相关文章推荐
51好读  ›  专栏  ›  Hugging Face

社区供稿 | 智源开放中文大语言模型榜单 - 旗鉴榜

Hugging Face  · 公众号  ·  · 2024-05-22 18:55

正文




以下文章来源于 智源研究院:



近日,智源研究院与 Hugging Face 开发者社区合作,发布 Open Chinese LLM Leaderboard,旨在 跟踪、排名和评估开放式中文大语言模型 ,通过开源社区共建、用户自主贡献的方式, 持续推动和完善中文语言大模型的科学、客观排名榜 。该评测从2月24日试上线至今,已经完成了78个模型的评测,当前正在评测的有7个,还有20个在队列中。

了解更多,请访问

https://huggingface.co/spaces/BAAI/open_cn_llm_leaderboard

在以往的Hugging Face社区上,始终缺乏一个开放共建更具客观性质的中文榜单,而Open-Chinese-LLM-leaderboard的建设填补了这一部分的空白。

Hugging Face Spaces页


共建共享,推动技术进步

任何技术的长远发展都离不开社区的广泛参与和贡献。而Open-Chinese-LLM-leaderboard的建设初衷,是期望依托Hugging Face这一开源社区平台,鼓励和吸引更多的中文大语言模型开发者加入,共同推动中文大语言模型的持续进步与完善,为中文大语言模型的发展提供强有力的支撑。


Open-Chinese-LLM-leaderboard主页图



公正、标准化的评估流程

为确保评估的公正性,所有的模型 均通过FlagEval平台提供的底层能力进行评估 ,FlagEval平台为该榜单提供评测服务与社区共建的相关数据集,同时使用平台标准化的GPU和统一的评估环境进行测试,保障评估结果的可比性和可信度。


采用更全面的数据集

Open Chinese LLM Leaderboard基于Eleuther AI Language Model Evaluation Harness评测框架,对模型在七个关键基准上进行评估 ,所有采用的英文数据集均已完成中文的转换。


在数据集方面,针对中文大语言模型的评估,该Leaderboard 将相关的英文数据集,进行了中文的翻译与校验。为了更好的评估中文大语言模型的能力,该Leaderboard 提供了更加完善的基准数据集,覆盖学科教育、专业知识、推理、幻觉和常识。最终得分为每个评估数据集的平均得分,包含以下数据集:



ARC (25-shot)

包含7,787个科学考试问题,源自不同来源,要求模型在25个示例后进行推理,用于评估模型的多步推理能力,已翻译为中文。


HellaSwag (10-shot)


用于评估常识推理的挑战性数据集,它特别难以应对现有的先进模型,尽管问题对人类来说非常简单(准确率 >95%),已翻译为中文。


TruthfulQA (0-shot)


包含817个问题,覆盖38个类别,旨在衡量语言模型在生成答案时是否真实,以及它们是否倾向于复制人类的虚假信息,已翻译为中文。


Winogrande (5-shot)


是一个大规模对抗性高难度 Winograd 基准,用于常识推理,要求模型在5个示例后进行推理,已翻译为中文。


GSM8k (5-shot)


是一个包含8,000个问题的小学数学数据集,用于衡量模型解决多步骤数学推理问题的能力,它要求模型展示出对数学问题的深入理解,已翻译为中文。


C-SEM_v2 (5-shot)







请到「今天看啥」查看全文


推荐文章
运势君  ·  运势君处女座2017年运势
8 年前
禅语心苑  ·  用智商做事,用情商做人
7 年前
华夏影像诊断中心  ·  横断面脑沟回十大征象
7 年前
教育百师通  ·  男人不做家务,凭什么?
7 年前