随着大模型作为Agent底层能力嵌入各业务流程中,Prompt工程、RAG、模型本身能力等都会影响到最终业务的效果,因此Agent能力已经不完全由大模型能力决定,如何评估Agent端到端的效果,成了业务迭代过程中亟待解决的问题。
数据评测是大模型Agent的核心难点之一,某大厂光评测的人,就好几百人。
○ 人工评测标准不统一,测试效率低,人工测试少量case的结论说服力不强;
○ Agent输出内容多为自然语言,结果无边界+不确定性高,传统assert式断言无法评估回答效果。
面对这些困难,大部分公司采用了效果评测Agent评估业务Agent(即LLM as Judge)的方式,即结合自动化批量执行,并辅以人工主观评测,提高评估效率和评估质量。
这些内容是知识地图3.0版的大模型数据质量模块中一部分。由
阿里巴巴的吴鑫耀(怀科)老师
详细讲解。
就职于阿里巴巴,来自1688技术部-质量与技术风险部门,现负责1688 大模型相关产品的质量保障工作,以及负责1688自动化平台和造数平台产品开发维护工作
这些内容,是知识地图3.0版的大模型数据质量模块中一部分。想听老师详细讲解,可以预约我们的发布会。
去年DataFun数据智能知识地图2.0大获好评,下载量超过50000份,是业内最大知识产品之一.为了提升用户体验,今年知识地图大升级至3.0版本,从去年17个模块,优化成今年25个模块,增加50%。有47位专家参与贡献,2500+知识点,覆盖从数据采集到数据应用的全链条,不仅包括数据湖仓、数据治理、AB实验、大模型、RAG、Agent、风控、推荐这样的传统热点,也包括数据编织、Chati BI、AI搜索、AI Infra等新兴热点,是大数据和AI从业人士,了解今年行业进展前沿的必要工具。
2025年1月16号19点
,DataFunTalk将开启
数据建模知识地图发布会的直播
,到时候会公布知识地图的
【免费获取】
方案,请预约观看。
知识地图线下讲解日程:
1月14日数据生产板块
数据集成、数据仓库、数据湖、向量数据库、图数据库、数据编织、流批一体、Data+AI