【[445星]EvalScope:一站式大模型评估与性能基准测试框架,让模型评估变得高效且个性化。亮点:1. 支持多种模型类型,涵盖大语言模型、多模态、嵌入模型等;2. 提供多种评估场景,包括端到端RAG评估、竞技场模式和推理性能测试;3. 内置丰富基准测试和指标,如MMLU、CMMLU和GSM8K】
'EvalScope is a streamlined and customizable framework for efficient large model evaluation and performance benchmarking'
GitHub: github.com/modelscope/evalscope
#模型评估# #性能基准# #多模态# #AI创造营#
'EvalScope is a streamlined and customizable framework for efficient large model evaluation and performance benchmarking'
GitHub: github.com/modelscope/evalscope
#模型评估# #性能基准# #多模态# #AI创造营#