专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
51好读  ›  专栏  ›  DataFunTalk

揭秘大厂大模型评测

DataFunTalk  · 公众号  ·  · 2025-01-03 20:00

正文

随着大模型作为Agent底层能力嵌入各业务流程中,Prompt工程、RAG、模型本身能力等都会影响到最终业务的效果,因此Agent能力已经不完全由大模型能力决定,如何评估Agent端到端的效果,成了业务迭代过程中亟待解决的问题。
数据评测是大模型Agent的核心难点之一,某大厂光评测的人,就好几百人。

数据评测面临以下难点:

测试数据构造问题:

○ 冷启时,业务测试数据少;

○ 人工构造测试数据效率低;

人工评测效率低:

○ 人工评测标准不统一,测试效率低,人工测试少量case的结论说服力不强;

效果难评估:

○ Agent输出内容多为自然语言,结果无边界+不确定性高,传统assert式断言无法评估回答效果。

面对这些困难,大部分公司采用了效果评测Agent评估业务Agent(即LLM as Judge)的方式,即结合自动化批量执行,并辅以人工主观评测,提高评估效率和评估质量。
这些内容是知识地图3.0版的大模型数据质量模块中一部分。由 阿里巴巴的吴鑫耀(怀科)老师 详细讲解。

吴鑫耀(怀科):

就职于阿里巴巴,来自1688技术部-质量与技术风险部门,现负责1688 大模型相关产品的质量保障工作,以及负责1688自动化平台和造数平台产品开发维护工作

这些内容,是知识地图3.0版的大模型数据质量模块中一部分。想听老师详细讲解,可以预约我们的发布会。

去年DataFun数据智能知识地图2.0大获好评,下载量超过50000份,是业内最大知识产品之一.为了提升用户体验,今年知识地图大升级至3.0版本,从去年17个模块,优化成今年25个模块,增加50%。有47位专家参与贡献,2500+知识点,覆盖从数据采集到数据应用的全链条,不仅包括数据湖仓、数据治理、AB实验、大模型、RAG、Agent、风控、推荐这样的传统热点,也包括数据编织、Chati BI、AI搜索、AI Infra等新兴热点,是大数据和AI从业人士,了解今年行业进展前沿的必要工具。

2025年1月16号19点 ,DataFunTalk将开启 数据建模知识地图发布会的直播 ,到时候会公布知识地图的 【免费获取】 方案,请预约观看。

知识地图线下讲解日程:

1月14日数据生产板块

数据集成、数据仓库、数据湖、向量数据库、图数据库、数据编织、流批一体、Data+AI







请到「今天看啥」查看全文