Chat-UniVi(“
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding
”)旨在在统一框架内同时对图像和视频进行建模,以便大语言模型 (LLM) 能够理解这些语言序列。Chat-UniVi 通过一组动态视觉tokens统一表示图像和视频,将图像的复杂空间细节与视频所需的更广泛的时间理解联系起来,从而实现这一目标。如图所示:图像可以通过不同大小的视觉tokens来描述;例如,主要目标(即绵羊)需要具有大量视觉tokens的细粒度表示,而背景(即雪山)仅用一个视觉token即可充分建模;对于视频,视频最初被分成几个事件,随后这些视觉tokens扩展到每个事件内帧,封装帧级动态;这种对图像和视频的统一表示显著减少了视觉tokens的数量,同时保持了模型的表达能力。值得注意的是,较长的视频被分配了更多的视觉tokens。