专栏名称: 计算机视觉研究院
主要由来自于大学的研究生组成的团队,本平台从事机器学习与深度学习领域,主要在人脸检测与识别,多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌,让更多相关领域的人了解本团队,结识更多相关领域的朋友,一起来学习,共同进步!
目录
相关文章推荐
北京晚报  ·  王楚钦、王曼昱,双双首次夺冠! ·  昨天  
北京晚报  ·  王楚钦、王曼昱,双双首次夺冠! ·  昨天  
深圳晚报  ·  史上首次!从深圳跑到香港! ·  昨天  
青岛新闻网  ·  孙颖莎战胜陈幸同,晋级亚洲杯女单决赛 ·  昨天  
青岛新闻网  ·  孙颖莎战胜陈幸同,晋级亚洲杯女单决赛 ·  昨天  
北京晚报  ·  补时遭绝杀!遗憾……但要看到希望 ·  2 天前  
北京晚报  ·  补时遭绝杀!遗憾……但要看到希望 ·  2 天前  
荔浦市融媒体中心  ·  每天走多少步不伤膝?“最佳步数”出炉:既得到 ... ·  3 天前  
荔浦市融媒体中心  ·  每天走多少步不伤膝?“最佳步数”出炉:既得到 ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉研究院

苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人

计算机视觉研究院  · 公众号  ·  · 2024-03-16 17:30

正文

点击蓝字


关注我们

关注并星标

从此不迷路

计算机视觉研究院


公众号ID 计算机视觉研究院

学习群 扫码在主页获取加入方式


论文地址:https://arxiv.org/pdf/2403.09611.pdf


计算机视觉研究院专栏

Column of Computer Vision Institute

苹果也在搞自己的大型多模态基础模型,未来会不会基于该模型推出相应的文生图产品呢? 我们拭目以待。





监督微调结果


最后,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。


他们遵循 LLaVA-1.5 和 LLaVA-NeXT,从不同的数据集中收集了大约 100 万个 SFT 样本。鉴于直观上,更高的图像分辨率会带来更好的性能,研究者还采用了扩展到高分辨率的 SFT 方法。


监督微调结果如下:


表 4 展示了与 SOTA 比较的情况,「-Chat」表示监督微调后的 MM1 模型。


首先,平均而言,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基准测试(MMMU 和 MathVista)中表现尤为突出。


其次,研究者探索了两种 MoE 模型:3B-MoE(64 位专家)和 6B-MoE(32 位专家)。在几乎所有基准测试中,苹果的 MoE 模型都比密集模型取得了更好的性能。这显示了 MoE 进一步扩展的巨大潜力。


第三,对于 30B 大小的模型,MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上的表现优于 Emu2-Chat37B 和 CogVLM-30B。与 LLaVA-NeXT 相比,MM1 也取得了具有竞争力的全面性能。


不过,LLaVA-NeXT 不支持多图像推理,也不支持少样本提示,因为每幅图像都表示为 2880 个发送到 LLM 的 token,而 MM1 的 token 总数只有 720 个。这就限制了某些涉及多图像的应用。



图 7b 显示,输入图像分辨率对 SFT 评估指标平均性能的影响,图 7c 显示,随着预训练数据的增加,模型的性能不断提高。


图像分辨率的影响。图 7b 显示了输入图像分辨率对 SFT 评估指标平均性能的影响。


预训练的影响:图 7c 显示,随着预训练数据的增加,模型的性能不断提高。


更多研究细节,可参考原论文。


END



转载请联系本公众号获得授权


计算机视觉研究院学习群等你加入!


ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!







请到「今天看啥」查看全文