多模态大模型评测技术

计算机与网络安全 · 公众号 · 互联网安全 · 2024-10-14 07:57

正文

进网络安全行业群

公众号回复 行业群

| 主要评测方式

客观评测：指利用客观评价指标对图文大模型的生成结果进行定量评估，常见的客观评测方式有准确率、召回率、模型推理时间、可支持图片分辨率等。客观评价指标种类多样，可以从各个维度对图文大模型的生成结果进行准确、全面、公平的评价，是对大模型进行评测的主要方式。此外，由于客观评测指标可由计算机直接计算得到，因此能够通过自动化脚本实现批量测试，大幅提高评测效率和规模。

主观评测：指通过人工打分的方式对图文大模型的预测结果进行评价,主要应用于创作类任务中，如图片生成、风格变换、图像合成等7，这些测试用例没有明确的标准答案，因此无法以合适的客观指标进行完整评测。主观评测相较客观评测更加灵活，更能真实反映用户视角下的模型能力，但存在评价结果不稳定、难以大规模实施等问题，因此，需要针对具体任务制定合理的主观评测方法。

| 典型评测维度

模型性能评测：是图文大模型的核心维度，主要评测图文大模型对图像和文字的识别能力、理解能力、推理能力，如生成的图像或文字结果相较正确答案的准确度。常用性能评测指标有图像识别准确率、与提示词的匹配度等。

模型泛化能力评测：主要评测图文大模型在多任务上的适配能力，该评测维度可以反映出大模型在实际部署中的泛化性。常见的评测方式为针对大模型未训练的场景和图文数据，测试模型的应用效果。

模型鲁棒性评测：主要评测模型应对各类干扰时的鲁棒性及可靠性，如对输入图片施加肉眼不可见的噪声和数据扰动，验证对抗攻击情形下模型应用效果。

模型一致性评测：主要评测在面对不同规模解空间的问题时，图文大模型能否在相同知识点上给出一致答案的能力，如模型生成的图片描述是否与相同知识点的判断结果一致。

| 常见评测指标

目前，各类图文大模型评测指标从不同角度对模型性能进行了综合评判，常见指标有准确率、F1值、BLEU、IS指标、CLIP相似度、PSNR、SOA、CIDEr、mAP、IoU、FID、SSIM、RP、碳足迹等。