专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
中核集团  ·  校园招聘🥰 ·  6 小时前  
高校人才网V  ·  天津职业大学2025年第二批公开招聘硕士岗位 ... ·  3 天前  
高校人才网V  ·  合肥国家实验室2025年招聘启事 ·  3 天前  
高校人才网V  ·  南京工程学院2025年人才招聘公告 ·  2 天前  
高校人才网V  ·  事业编制!玉溪师范学院2025年公开招聘工作 ... ·  4 天前  
51好读  ›  专栏  ›  爱可可-爱生活

[CV] Sequential Modeling Enables-20231205061224

爱可可-爱生活  · 微博  ·  · 2023-12-05 06:12

正文

2023-12-05 06:12

[CV] Sequential Modeling Enables Scalable Learning for Large Vision Models
网页链接
介绍了一种新的序列化建模方法,允许在没有语言数据的情况下学习大型视觉模型。这种方法定义了“视觉句子”作为统一格式,可以代表原始图像和视频以及标注数据来源,例如语义分割和深度重构,而无需任何元知识。一旦多种视觉数据(包含42亿 tokens)被表示为序列,模型就可以被训练来最小化下一token预测的交叉熵损失。通过在不同规模的模型架构和数据多样性上进行训练,提供了实证支持,模型可以好好地扩展。许多不同的视觉任务现在可以通过在测试时设计适当的视觉提示来解决。文章还探讨了相关工作,数据格式化,模型架构及训练方法。实验结果表明,随着模型规模和数据量的增加,模型训练损失下降,不同下游任务的预测复杂性也随之降低,这表明模型具有很好的可扩展性。通过序列预测、类比提示和其他提示,模型可以处理各种任务,但结果往往不如定制化模型。未尝不可研究复合任务支持能力,以及对新数据的推理能力。






请到「今天看啥」查看全文