众所周知,多模态的透明性与可信度是当前人工智能领域的一个重要研究方向,因为它不仅关系到学术研究的深入推进,也直接影响其实际应用的可靠性与安全性。这种情况下,对
多模态可解释性
的研究就显得特别重要。
比如在医疗诊断领域,多模态可解释性可以确保模型的决策过程符合医疗规范和伦理要求,避免潜在的医疗纠纷和法律风险。另外,模型的优化与改进、人机交互领域的体验增强...都需要多模态可解释性。
目前,顶会顶刊上关于多模态可解释性的研究颇多,尤其是多模态大模型方向的。如果有同学感兴趣,想从这方向发论文,可以看我整理的
10篇
最新的多模态可解释性论文
,开源代码基本都有,有参考找idea更快。
扫码添加小享,
回复“
多模态可解释
”
免费获取
全部论文+开源代码
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection
方法:
论文提出了一种名为SNIFFER的多模态大语言模型,通过多视角指令数据和外部工具集成,旨在提高外部上下文(OOC)虚假信息检测的准确性和解释能力。SNIFFER的检测性能比原始多模态大型语言模型提高了40%以上,并在解释生成方面表现出色。
创新点:
-
设计了一个新颖的数据重构管道,利用语言模型(如GPT-4)将给定的图文对转换为适合的指令跟随格式,同时生成判断和解释。
-
通过内部和外部验证步骤,从不同角度分析图文对,并可能得出不同结论。
-
整合视觉实体和外部工具以增强模型的能力,尤其是在识别视觉元素时提升了5个百分点的准确性。
Ffaa: Multimodal large language model based explainable open-world face forgery analysis assistant
方法:
论文介绍了一种名为FFAA的系统,用于可解释的开放世界面部伪造分析。该系统结合了多模态大型语言模型(MLLM)和多答案智能决策系统(MIDS),通过整合假设提示和MIDS来增强模型的鲁棒性,并提供用户友好且可解释的结果。
创新点:
-
通过将面部伪造分析从传统的二分类任务扩展为视觉问答(VQA)任务,增强了模型的泛化能力和决策过程的透明性。
-
提出了MIDS,通过整合假设性提示选择最佳答案,显著减轻了真实与伪造面之间模糊分类边界的影响。
-
采用GPT-4生成面部伪造分析,创建了包含多样化真实和伪造面部图像及其伪造推理的FFA-VQA数据集。
扫码添加小享,
回复“