[CL] Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey
网页链接
本文以下一词预测 (NTP) 为核心,系统性地回顾了多模态大模型的发展现状,深入分析了多模态Token化、模型架构和训练方法等关键组成部分,并强调了其在理解和生成任务中的潜力,同时指出了当前研究面临的挑战和未来研究方向,为多模态智能的探索提供了一个全面的视角和前瞻性的指导。
网页链接
本文以下一词预测 (NTP) 为核心,系统性地回顾了多模态大模型的发展现状,深入分析了多模态Token化、模型架构和训练方法等关键组成部分,并强调了其在理解和生成任务中的潜力,同时指出了当前研究面临的挑战和未来研究方向,为多模态智能的探索提供了一个全面的视角和前瞻性的指导。