谷歌开源 一个很强的多模态模型:PaliGemma 2 mix
支持支持多任务视觉能力:图像描述、OCR、目标检测、分割、文档理解、开放视觉语言提示
模型规模:3B、10B 和 28B #AI创造营# #ai#
分辨率:224px 和 448px
详细信息:developers.googleblog.com/en/introducing-paligemma-2-mix/?linkId=13028688
支持支持多任务视觉能力:图像描述、OCR、目标检测、分割、文档理解、开放视觉语言提示
模型规模:3B、10B 和 28B #AI创造营# #ai#
分辨率:224px 和 448px
详细信息:developers.googleblog.com/en/introducing-paligemma-2-mix/?linkId=13028688