[CV] BRAVE: Broadening the visual encoding of vision-language models
网页链接
BRAVE 通过有效整合多视觉编码器的表达,大大扩展了 VLM 的视觉理解能力,在多个任务上取得 SOTA 水平,同时显著提高了模型的鲁棒性。
网页链接
BRAVE 通过有效整合多视觉编码器的表达,大大扩展了 VLM 的视觉理解能力,在多个任务上取得 SOTA 水平,同时显著提高了模型的鲁棒性。