专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
直播海南  ·  近期大量上市,多人吃进急诊室!紧急提醒→ ·  22 小时前  
直播海南  ·  海南省中小学校学生欺凌预警平台投入使用 ·  3 天前  
直播海南  ·  事关电动自行车以旧换新补贴!最新提醒→ ·  3 天前  
51好读  ›  专栏  ›  学术头条

AI又一突破!用AI理解AI,MIT推出多模态自动可解释智能体MAIA

学术头条  · 公众号  ·  · 2024-08-02 08:57

正文



撰文 | 马雪薇


前言

从《超体》中以药物刺激大脑,到赛博朋克文化中用电子干涉入侵脑空间,人类对人脑操纵的可能性有过很多幻想。想象一下, 如果人类真的可以直接操纵人脑的每一个神经元,会怎样呢?


到那时,人类将能够直接理解这些神经元在感知特定物体时的作用,有希望做出一些非常“科幻”的事情。


在现实生活中,这样的实验在人脑中几乎是难以实施的,但在人工神经网络却是可行的。然而,由于模型往往含有数百万神经,过于庞大且复杂,理解起来需要大量人力,这就使得大规模的模型理解成为一项极具挑战性的任务。


为此,来自麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)的研究团队推出了一个利用神经模型自动进行模型理解任务的系统——MAIA,即“ 多模态自动可解释智能体 ”。


MAIA 使用预训练的视觉语言模型来自动化理解神经模型的任务。模块化的设计使 MAIA 能够 灵活地评估任意系统,并轻松地添加新的实验工具 。此外,它可以自动执行复杂的实验,使用迭代实验方法来测试假设,并根据实验结果更新假设。


加州大学伯克利分校助理教授 Jacob Steinhardt 认为,扩大这些方法可能是理解和安全监督人工智能系统最重要的途径之一。但是,研究团队认为, 增强的 MAIA 并不会取代人类对人工智能系统的监督 。MAIA 仍然需要人工监督来发现诸如确认偏差和图像生成/编辑失败之类的错误。



真实效果怎么样?


现有的自动化可解释性方法仅仅是一次性地对数据进行标记或可视化,而 MAIA 则能够生成假设,设计实验来测试它们,并通过迭代分析来改进其理解。通过将预训练的视觉-语言模型(VLM)与可解释性工具库相结合,该多模态方法可以通过编写和运行针对特定模型的定向实验来响应用户查询,不断改进其方法,直到能够提供全面的答案。


MAIA 框架的核心是一个由预训练的多模态模型(如 GPT-4V)驱动的智能体,该智能体能够自动执行实验以解释其他系统的行为。它通过将可解释性子例程组合成 Python 程序来实现这一点。


图 | MAIA 架构


研究团队在神经元描述范式上评估 MAIA,研究显示,MAIA 在真实模型和合成神经元数据集上均取得了优异的描述效果,预测能力优于基线方法,并与人类专家相当。


图 | 评估 MAIA 描述


此外,MAIA 在移除虚假特征和揭示偏见方面都表现出良好的应用潜力,可以帮助人类用户更好地理解模型行为,并改进模型的性能和公平性。


用 MAIA 移除虚假特征


虚假特征会影响模型在真实世界场景中的鲁棒性。MAIA 可以识别并移除模型中的虚假特征,从而提高模型的鲁棒性。研究团队使用 ResNet-18 在 Spawrious 数据集上进行训练,该数据集中包含四种不同背景的狗品种。


在数据集中,每个狗品种与特定背景(例如雪,丛林,沙漠,海滩)虚假相关,而在测试集中,品种-背景配对是混乱的。研究团队使用 MAIA 来找到一个最终层神经元的子集,该神经元可以独立于虚假特征鲁棒地预测单个狗的品种,只需改变用户提示中的查询。


结果显示,MAIA 可以有效地移除模型中的虚假特征,从而提高模型的鲁棒性。


视频 | MAIA 对狗的品种和背景之间的虚假相关性进行选择。


视频 | MAIA 对单一的狗品种有选择性,独立于它的背景。


用 MAIA 揭示偏见


模型可能存在偏见,导致其在某些情况下表现不佳。而 MAIA 可以自动揭示模型中的偏见。研究团队使用 ResNet-152 在 ImageNet 上进行训练,并使用 MAIA 检查模型输出中的偏见。


在实验过程中,MAIA 被提示生成与特定类别相关的图像,并观察模型对这些图像的响应。之后,MAIA 发现了一些模型对特定子类或与特定类别相关的图像有偏好。


这表明 MAIA 可以帮助识别模型中的偏见,从而改进模型。


图|MAIA 模型偏见检测




不足与展望







请到「今天看啥」查看全文