专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
相关文章推荐
昆明警方发布  ·  ꕥ圆ꕥ通ꕥ赏ꕥ樱ꕥ,看完这篇不堵路、不堵心 ·  6 小时前  
海峡都市报闽南新闻  ·  就在泉州开元寺周边!“港湾式”停靠站即将启用! ·  7 小时前  
中国日报网  ·  夜赏|黄河入海口 鹤舞潮汐间 ·  昨天  
中国日报网  ·  夜赏|黄河入海口 鹤舞潮汐间 ·  昨天  
昆明警方发布  ·  别跑空,长虫山还在封山期!再次提醒→ ·  昨天  
昆明警方发布  ·  别跑空,长虫山还在封山期!再次提醒→ ·  昨天  
笛扬新闻  ·  绍兴知名景区,闭园公告! ·  昨天  
51好读  ›  专栏  ›  专知

【AAAI2025教程】评估大型语言模型:挑战与方法,199页ppt

专知  · 公众号  ·  · 2025-02-28 11:00

正文

随着大型语言模型(LLMs)的快速发展,关于其安全性和风险的担忧日益增加,这主要源于对其能力和局限性的理解不足。在本教程中,我们的目标是通过呈现全面的LLM评估概述来填补这一空白。首先,我们从“什么”、“哪里”和“如何评估”这三个角度,讨论了LLM评估的最新进展。接着,我们介绍了LLM评估中的几个关键挑战,如数据污染和固定复杂度。基于这些挑战,我们介绍了如何克服这些问题。之后,我们展示了如何在不同的下游任务中评估LLMs,包括自然科学和社会科学,接着是一些流行的代码库和基准测试。我们希望学术界和工业界的研究人员继续努力,使LLMs更加安全、负责任和准确。

https://llm-understand.github.io/

专知便捷查看,访问下面网址或 点击最底端“阅读原文”







请到「今天看啥」查看全文