专栏名称: 专知

专知，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务，让认知协作更快更好！

相关文章推荐

昆明警方发布 · ꕥ圆ꕥ通ꕥ赏ꕥ樱ꕥ，看完这篇不堵路、不堵心 · 6 小时前

海峡都市报闽南新闻 · 就在泉州开元寺周边！“港湾式”停靠站即将启用！ · 7 小时前

中国日报网 · 夜赏｜黄河入海口鹤舞潮汐间 · 昨天

昆明警方发布 · 别跑空，长虫山还在封山期！再次提醒→ · 昨天

笛扬新闻 · 绍兴知名景区，闭园公告！ · 昨天

51好读 › 专栏 › 专知

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

专知 · 公众号 · · 2025-02-28 11:00

正文

随着大型语言模型（LLMs）的快速发展，关于其安全性和风险的担忧日益增加，这主要源于对其能力和局限性的理解不足。在本教程中，我们的目标是通过呈现全面的LLM评估概述来填补这一空白。首先，我们从“什么”、“哪里”和“如何评估”这三个角度，讨论了LLM评估的最新进展。接着，我们介绍了LLM评估中的几个关键挑战，如数据污染和固定复杂度。基于这些挑战，我们介绍了如何克服这些问题。之后，我们展示了如何在不同的下游任务中评估LLMs，包括自然科学和社会科学，接着是一些流行的代码库和基准测试。我们希望学术界和工业界的研究人员继续努力，使LLMs更加安全、负责任和准确。

https://llm-understand.github.io/