专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  【ai-rd-tasks:一套评估大语言模型 ... ·  昨天  
黄建同学  ·  Suno v4 🔥正式发布↓ ... ·  6 天前  
爱可可-爱生活  ·  【Mistral AI ... ·  6 天前  
51好读  ›  专栏  ›  爱可可-爱生活

【ai-rd-tasks:一套评估大语言模型AI研发能力的任务集-20241124171449

爱可可-爱生活  · 微博  · AI  · 2024-11-24 17:14

正文

2024-11-24 17:14

【ai-rd-tasks:一套评估大语言模型AI研发能力的任务集合,包含7个具有挑战性的任务,涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域,每个任务都有明确的评分标准和基准分数,用于测试AI代理与人类专家的能力对比】
'RE-Bench - Evaluating frontier AI R&D capabilities of language model agents against human experts'
GitHub: github.com/METR/ai-rd-tasks
#AI评测# #机器学习# #语言模型# #性能优化#