揭秘大厂大模型评测

DataFunTalk · 公众号 · · 2025-01-03 20:00

正文

随着大模型作为Agent底层能力嵌入各业务流程中，Prompt工程、RAG、模型本身能力等都会影响到最终业务的效果，因此Agent能力已经不完全由大模型能力决定，如何评估Agent端到端的效果，成了业务迭代过程中亟待解决的问题。

数据评测是大模型Agent的核心难点之一，某大厂光评测的人，就好几百人。

数据评测面临以下难点：

测试数据构造问题：

○ 冷启时，业务测试数据少；

○ 人工构造测试数据效率低；

人工评测效率低：

○ 人工评测标准不统一，测试效率低，人工测试少量case的结论说服力不强；

效果难评估：

○ Agent输出内容多为自然语言，结果无边界+不确定性高，传统assert式断言无法评估回答效果。

面对这些困难，大部分公司采用了效果评测Agent评估业务Agent（即LLM as Judge）的方式，即结合自动化批量执行，并辅以人工主观评测，提高评估效率和评估质量。

这些内容是知识地图3.0版的大模型数据质量模块中一部分。由 阿里巴巴的吴鑫耀（怀科）老师 详细讲解。

吴鑫耀（怀科）：

就职于阿里巴巴，来自1688技术部-质量与技术风险部门，现负责1688 大模型相关产品的质量保障工作，以及负责1688自动化平台和造数平台产品开发维护工作

这些内容，是知识地图3.0版的大模型数据质量模块中一部分。想听老师详细讲解，可以预约我们的发布会。

去年DataFun数据智能知识地图2.0大获好评,下载量超过50000份,是业内最大知识产品之一.为了提升用户体验,今年知识地图大升级至3.0版本,从去年17个模块,优化成今年25个模块,增加50%。有47位专家参与贡献,2500+知识点,覆盖从数据采集到数据应用的全链条,不仅包括数据湖仓、数据治理、AB实验、大模型、RAG、Agent、风控、推荐这样的传统热点,也包括数据编织、Chati BI、AI搜索、AI Infra等新兴热点,是大数据和AI从业人士,了解今年行业进展前沿的必要工具。

2025年1月16号19点 ，DataFunTalk将开启 数据建模知识地图发布会的直播 ，到时候会公布知识地图的 【免费获取】 方案，请预约观看。

知识地图线下讲解日程：

1月14日数据生产板块

数据集成、数据仓库、数据湖、向量数据库、图数据库、数据编织、流批一体、Data+AI