[CV] Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
网页链接
提出了Molmo和PixMo,在不依赖专有模型的情况下,通过语音描述收集高质量图像描述数据和精心设计的流程,实现了开源多模态视觉问答模型的最优水平。
网页链接
提出了Molmo和PixMo,在不依赖专有模型的情况下,通过语音描述收集高质量图像描述数据和精心设计的流程,实现了开源多模态视觉问答模型的最优水平。