|
Marco-o1:面向开放式解决方案的开放式推理模型 FightingCV · 公众号 · · 3 月前 · |
|
|
具有条件匹配的开放词汇 DETR FightingCV · 公众号 · · 3 月前 · |
|
|
LLaVA-o1: 视觉语言模型逐步推理 FightingCV · 公众号 · · 3 月前 · |
|
|
重新思考AI核心架构Transformer的应用 FightingCV · 公众号 · · 3 月前 · |
|
|
大型多模态模型中新出现的像素级语义理解,没有语义理解监督 FightingCV · 公众号 · · 3 月前 · |
|
|
LLM2CLIP:强大的语言模型解锁更丰富的视觉表示 FightingCV · 公众号 · · 3 月前 · |
|
|
F-LMM:基于冻结的大型多模态模型的Visual Grounding FightingCV · 公众号 · · 3 月前 · |
|
|
TNNLS24|动态网络!同一个模型走不同路径,就能生成不同的图像描述结果! FightingCV · 公众号 · · 3 月前 · |
|
|
大模型经典著作《大语言模型基础与前沿》 FightingCV · 公众号 · · 3 月前 · |
|
|
被导师放养,后果可能很严重。。。 FightingCV · 公众号 · · 3 月前 · |
|
|
用于视觉任务的视觉语言模型:综述 FightingCV · 公众号 · · 3 月前 · |
|
|
Prometheus-Vision: 视觉语言模型作为细粒度评估的评判者 FightingCV · 公众号 · · 3 月前 · |
|
|
CLIP 能理解深度 FightingCV · 公众号 · · 3 月前 · |
|
|
ConaCLIP:探索用于轻量级文本-图像检索的全连接知识交互图的蒸馏 FightingCV · 公众号 · · 3 月前 · |
|
|
Pattern Recognition | 同时关注局部和全局信息,利用注意力抓取不同粒度的视觉信息来描述图片 FightingCV · 公众号 · · 3 月前 · |
|
|
目标检测开源项目合集,建议收藏! FightingCV · 公众号 · · 3 月前 · |
|
|
CLIP-DFGS:一种用于可泛化行人重识别中的CLIP的难样本挖掘方法 FightingCV · 公众号 · · 3 月前 · |
|
|
211本二战字节视觉算法岗,拿下70k offer!!! FightingCV · 公众号 · · 3 月前 · |
|
|
字节Chunyuan Li团队提出LLaVA-Critic:学习评估多模态模型 FightingCV · 公众号 · · 3 月前 · |
|
|
Video-ChatGPT:通过大型视觉语言模型实现详细的视频理解 FightingCV · 公众号 · · 3 月前 · |
|