|
SigLIP 2:具有改进语义理解、定位和密集特征的多语言视觉语言编码器 FightingCV · 公众号 · · 昨天 · |
|
|
AddressCLIP:赋能视觉语言模型进行全市范围的图像地址定位 FightingCV · 公众号 · · 2 天前 · |
|
|
Magic 1-For-1:一分钟内生成一分钟视频片段 FightingCV · 公众号 · · 3 天前 · |
|
|
SAM-MED2D FightingCV · 公众号 · · 4 天前 · |
|
|
探索目标检测鲁棒性进展 FightingCV · 公众号 · · 5 天前 · |
|
|
用于统一目标定位和检测的开放且全面的管道 FightingCV · 公众号 · 科技媒体 · 6 天前 · |
|
|
DeepSeekV3 -> DeepSeekR1 FightingCV · 公众号 · · 1 周前 · |
|
|
迈向视觉定位:综述 FightingCV · 公众号 · · 1 周前 · |
|
|
Ref-NMS:打破两阶段指称表达定位中的提案瓶颈 FightingCV · 公众号 · · 1 周前 · |
|
|
《麻省理工李一飞开讲:揭秘DiffCloth & DiffAvatar,可微分仿真技术在布料与数字人领域的创新应用》 FightingCV · 公众号 · · 1 周前 · |
|
|
基于粗到细一致性约束的多任务视觉定位 FightingCV · 公众号 · · 1 周前 · |
|
|
ReferDINO:基于视觉基础模型的视频对象指称分割 FightingCV · 公众号 · · 1 周前 · |
|
|
被导师放养后成果起飞 FightingCV · 公众号 · · 1 周前 · |
|
|
DeepSeek-R1:基于强化学习激励大语言模型的推理能力 FightingCV · 公众号 · · 2 周前 · |
|
|
SA2VA:将SAM2与llava嫁给图像和视频的密集理解 FightingCV · 公众号 · · 2 周前 · |
|
|
TinyCLIP:基于亲和力模拟和权重继承的CLIP蒸馏 FightingCV · 公众号 · · 2 周前 · |
|
|
CLIP4STR:基于预训练视觉语言模型的场景文本识别简单基线 FightingCV · 公众号 · · 2 周前 · |
|
|
即插即用,轻松涨点的模块 FightingCV · 公众号 · · 2 周前 · |
|
|
释放CLIP以实现高效灵活的场景文本检索 FightingCV · 公众号 · · 2 周前 · |
|
|
OMG-LLaVA:桥接图像级、对象级、像素级推理和理解 FightingCV · 公众号 · · 3 周前 · |
|