近日,字节跳动豆包大模型团队提出 SuperClass ,一个超级简单且高效的预训练方法。该方法首次舍弃文本编码器,直接使用原始文本的分词作为多分类标签,无需额外的文本过滤或筛选,比 CLIP 具有更高的训练效率。实验结果表明,SuperClass 在多种纯视觉任务和视觉语言多模态下游任务上表现出色,并且在模型大小和数据集大小方面具备与 CLIP 相同或更优的 Scalability 。本文将介绍 SuperClass 的实现原理、技术亮点及实验结果。CLIP 广泛应用的另一个场景是多模态理解,作为多模态大模型中的视觉编码器,展现了很好的跨模态能力。在预训练过程中,SuperClass 的特征也对齐到了文本空间,同样可应用于多模态理解任务中。本文采用了 2 种大语言模型,按照 clipcap 中的设置,使用 GPT-2 作为 Decoder ,在 COCO captions 上评估 image captioning 能力。根据表 3 的结果所示,SuperClass 取得了略优于 CLIP 的 CIDEr 结果。另外按照 LLaVA 的设置,使用 7B 的 LLM 评估了更多的多模态下游任务,同样 SuperClass 也取得了更好的精度。更多实验配置和测试细节请移步完整论文(https://arxiv.org/abs/2411.03313)。
团队对比了 SuperClass 和 CLIP 在不同的模型大小和不同的数据规模下的精度,包括纯视觉任务和多模态下游任务:- 在纯视觉任务和多模态下游任务上,SuperClass 和 CLIP 具有相似的 Scalability ;
- 在 Text-VQA 任务上,SuperClass 明显取得了比 CLIP 更好的精度和 Scalability ,团队推测,SuperClass 训练可能可以学习到更强的 OCR 能力。
团队会继续推进图像文本预训练技术迭代,基于文本顺序信息,训练得到更强视觉模型,以便更好地服务于视觉和多模态相关的任务。如果你对该团队研究工作感兴趣,有志于探索视觉大模型前沿课题,可点击阅读原文,前往豆包大模型团队官网,了解更多信息。
点击“阅读原文”,了解更多团队信息