专栏名称: 计算机与网络安全
信息安全公益宣传,信息安全知识启蒙。
目录
相关文章推荐
申妈的妹子圈  ·  关于美摄公司起诉字节跳动旗下抖音等8款产品代 ... ·  17 小时前  
申妈的妹子圈  ·  关于美摄公司起诉字节跳动旗下抖音等8款产品代 ... ·  17 小时前  
网信内蒙古  ·  打击网络谣言 共建清朗家园 ... ·  昨天  
网信内蒙古  ·  打击网络谣言 共建清朗家园 ... ·  昨天  
51好读  ›  专栏  ›  计算机与网络安全

多模态大模型评测技术

计算机与网络安全  · 公众号  · 互联网安全  · 2024-10-14 07:57

正文

进网络安全行业群

公众号回复 行业群

| 主要评测方式
客观评测:指利用客观评价指标对图文大模型的生成结果进行定量评估,常见的客观评测方式有准确率、召回率、模型推理时间、可支持图片分辨率等。客观评价指标种类多样,可以从各个维度对图文大模型的生成结果进行准确、全面、公平的评价,是对大模型进行评测的主要方式。此外,由于客观评测指标可由计算机直接计算得到,因此能够通过自动化脚本实现批量测试,大幅提高评测效率和规模。
主观评测:指通过人工打分的方式对图文大模型的预测结果进行评价,主要应用于创作类任务中,如图片生成、风格变换、图像合成等7,这些测试用例没有明确的标准答案,因此无法以合适的客观指标进行完整评测。主观评测相较客观评测更加灵活,更能真实反映用户视角下的模型能力,但存在评价结果不稳定、难以大规模实施等问题,因此,需要针对具体任务制定合理的主观评测方法。
| 典型评测维度
模型性能评测:是图文大模型的核心维度,主要评测图文大模型对图像和文字的识别能力、理解能力、推理能力,如生成的图像或文字结果相较正确答案的准确度。常用性能评测指标有图像识别准确率、与提示词的匹配度等。
模型泛化能力评测:主要评测图文大模型在多任务上的适配能力,该评测维度可以反映出大模型在实际部署中的泛化性。常见的评测方式为针对大模型未训练的场景和图文数据,测试模型的应用效果。
模型鲁棒性评测:主要评测模型应对各类干扰时的鲁棒性及可靠性,如对输入图片施加肉眼不可见的噪声和数据扰动,验证对抗攻击情形下模型应用效果。
模型一致性评测:主要评测在面对不同规模解空间的问题时,图文大模型能否在相同知识点上给出一致答案的能力,如模型生成的图片描述是否与相同知识点的判断结果一致。
| 常见评测指标
目前,各类图文大模型评测指标从不同角度对模型性能进行了综合评判,常见指标有准确率、F1值、BLEU、IS指标、CLIP相似度、PSNR、SOA、CIDEr、mAP、IoU、FID、SSIM、RP、碳足迹等。
扫码下载文件






请到「今天看啥」查看全文


推荐文章
金融先生MrFinance  ·  金融先生 | 第六届全国交易大赛
7 年前
晚安少年  ·  VOL.706 “你很好”“呵呵”
7 年前