[CV] Sequential Modeling Enables Scalable Learning for Large Vision Models
网页链接
介绍了一种新的序列化建模方法,允许在没有语言数据的情况下学习大型视觉模型。这种方法定义了“视觉句子”作为统一格式,可以代表原始图像和视频以及标注数据来源,例如语义分割和深度重构,而无需任何元知识。一旦多种视觉数据(包含42亿 tokens)被表示为序列,模型就可以被训练来最小化下一token预测的交叉熵损失。通过在不同规模的模型架构和数据多样性上进行训练,提供了实证支持,模型可以好好地扩展。许多不同的视觉任务现在可以通过在测试时设计适当的视觉提示来解决。文章还探讨了相关工作,数据格式化,模型架构及训练方法。实验结果表明,随着模型规模和数据量的增加,模型训练损失下降,不同下游任务的预测复杂性也随之降低,这表明模型具有很好的可扩展性。通过序列预测、类比提示和其他提示,模型可以处理各种任务,但结果往往不如定制化模型。未尝不可研究复合任务支持能力,以及对新数据的推理能力。
网页链接
介绍了一种新的序列化建模方法,允许在没有语言数据的情况下学习大型视觉模型。这种方法定义了“视觉句子”作为统一格式,可以代表原始图像和视频以及标注数据来源,例如语义分割和深度重构,而无需任何元知识。一旦多种视觉数据(包含42亿 tokens)被表示为序列,模型就可以被训练来最小化下一token预测的交叉熵损失。通过在不同规模的模型架构和数据多样性上进行训练,提供了实证支持,模型可以好好地扩展。许多不同的视觉任务现在可以通过在测试时设计适当的视觉提示来解决。文章还探讨了相关工作,数据格式化,模型架构及训练方法。实验结果表明,随着模型规模和数据量的增加,模型训练损失下降,不同下游任务的预测复杂性也随之降低,这表明模型具有很好的可扩展性。通过序列预测、类比提示和其他提示,模型可以处理各种任务,但结果往往不如定制化模型。未尝不可研究复合任务支持能力,以及对新数据的推理能力。